> 文章列表 / Page 36

2015-10-21

用Hadoop的各种语言进行wordcount(2):Apache Spark

本文永久链接地址:https://www.askmaclean.com/archives/spark-wordcount-2.html ‎   继续昨天的内容,今天也是进行wordcount。今天是用Apache Spark (Scala、Python、Java)来执行wordcount。 Spark是用Scala、Python、Java来进行wordcount。Scala与Python是用REPL,Java是用Spark应用来执行。 Spark中的wordcount是在spark站点张有的样本,我参考了Cloudera的博客。 https://spark.apache.org/examples.html http://blog.cloudera.com/blog/2014/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/ github 上的位置 https://github.com/kawamon/wordcount.git   Spark (Scala)   首先从Scala开始。   Cloudera Quickstart VM的Spark有版本问题,在spark-shell启动时会出现版本错误。…
#POST 22 MIN READ
2015-10-21

用Hadoop的各种语言进行wordcount(1)

本文永久链接:https://www.askmaclean.com/archives/hadoop-wordcount-1.html     用Hadoop的各种语言进行wordcount(1)   我稍微去调查了下Apache Crunch,顺便就在Hadoop中试着用各种语言来执行wordcount。首先是用MapReduce, HadoopStreaming、Hive、Pig执行了wordcount。 (追记):在github中放code:https://github.com/kawamon/wordcount.git     Wordcount的闲话   Wordcount经常在Hadoop的MapReduce的最开始的说明中使用,也有Hello World这样的意思。   Hadoop的MapReduce中,Wordcount作为样本拿来讲解的理由实在有点暧昧,大家肯定想问,为什么要拿wordcount来做样本呢。   现在处理所谓的量很多的大数据时,有两个问题。 为了将存储中保存的大量数据能用CPU来读入处理,移动数据是非常费时间的 用1台机器来执行耗费的时间太长(量大到内存上无法搭载,或者1台的CPU无法处理)…
#POST 10 MIN READ
2015-10-20

不建议把Oracle redo存放在SSD上

不建议把Oracle redo存放在SSD上 不建议把redo存放在SSD上,主要原因在于 SSD的优势为读取速度,其对 随机写也有一定优化,但 redo日志的IO类型主要为顺序写而非随机写。   oracle 官方Support文档 《How to Minimize Waits for ‘Log File Sync’ (Doc ID 857576.1)》指出不建议把redo…
#POST 1 MIN READ
2015-10-17

【MySQL学生手册】mysqlshow程序

本文地址:https://www.askmaclean.com/archives/mysqlshow-cmd.html   mysqlshow客户端程序可用于生成你的数据库和表的结构信息。它提供了类似show语句显示数据库,数据库下的表,或列信息,索引信息等功能的命令行接口。mysqlshow命令有以下语法: mysqlshow [options] [db_name [table_name [column_name]]] mysqlshow命令中的options部分包括有一些标准的连接命令项,如 --host,--user等。如果默认使用的连接参数不适合的话,你就需要主动提供这些项的设置。mysqlshow也提供了一些特定操作所使用的项。我们可以调用mysqlshow的 --help项来查看此客户端程序可使用的全部项。 mysqlshow所执行的操作结果取决于你提供的那些非命令项参数: 如果无参数提供,mysqlshow显示的是show databases类似的结果: 使用单个参数,mysqlshow会将其作为数据库名,执行效果类似于对此数据库执行show tables语句:
#POST 2 MIN READ
2015-10-17

【MySQL学生手册】SHOW和DESCRIBE命令使用

本文地址:https://www.askmaclean.com/archives/mysql-show-describe-cmd.html     尽管information_schema库中表的内容通常可使用select语句来进行访问,不过你还可以在其它数据库一样使用show和describe语句。   6.3.1 SHOW语句 MySQL支持许多show语句的使用,而没一种show语句返回一类元数据。在这一节中会介绍其中的一部分: show databases show tables show [full] columns show index show character set…
#POST 2 MIN READ
2015-10-17

【MySQL学生手册】INFORMATION_SCHEMA数据库

本文地址:https://www.askmaclean.com/archives/mysql-information-schema.html     INFORMATION_SCHEMA数据库作为MySQL数据库元数据的一个中央集中仓库存在。它是一个“虚拟的数据库”,因为它不存放在磁盘任何位置。但它和其他数据库一样含有表,且表中的内容可以通过使用select语句和其它数据库一样查询访问。此外,你还可以使用select来获取关于INFORMATION_SCHEMA其本身的信息,如可以使用以下语句来列出此数据库下所有的表名:       注意:随着所MySQL所使用的版本不同,查询结果可能有所差异,更多详细信息请查阅最新版本的在线MySQL参考手册。   INFORMATION_SCHEMA下的表 在INFORMATION_SCHEMA数据库中,这些表包含了以下类别的信息: CHARACTER_SETS — 关于字符集信息 COLLATIONS — 关于每个字符集的(排序)规则信息 COLLATION_CHARACTER_SET_APPLICABILITY — 关于字符集和每种(排序)规则的对应关系信息…
#POST 4 MIN READ
2015-10-17

Hadoop管理

本文固定链接:https://www.askmaclean.com/archives/hadoop-administration.html     Hadoop管理   这一章主要讨论Hadoop在一个多节点集群上的管理。你在这一章将探索Hadoop详细的配置文件,学习Hadoop是如何支持在一个集群中的一个组织中包含多个组的。Hadoop有各种类型的调度器来支持这个功能。本章的目标是使你观察到当一个Hadoop job执行时,集群中每个节点发生了什么微妙变化。   1. Hadoop配置文件 了解了Hadoop中的各种配置文件及其用途后,接下来将要探讨诸如调度器和Hadoop管理之类的概念。 使用Hadoop集群的每一个机器都有其自己的一套配置文件。Hadoop早期版本只有一个配置文件:hadoop-site.xml。接下来的版本将这一文件按功能分为不同文件。此外,有两种配置文件:*-default.xml 和 *-site.xml。*-site.xml文件的配置能覆盖*-default.xml文件的配置。 *-default.xml文件为只读,是直接从JAR文件类路径中读取的。这些文件以及它们相应的位置见表4-1.   表4-1 Hadoop的默认配置文件 配置文件            …
#POST 40 MIN READ
2015-10-16

Oracle 11g/12c OCM大师考试认证的价格/费用问题

  这里我们谈的是 官方路径的考试的价格,在Oracle University即Oracle官方大学的官网上对于OCM考试本身的价格有比较明确的说明:     Oracle Database 11g Certified Master Exam New & Upcoming Releases  Print this Exam Exam Number:…
#POST 1 MIN READ
2015-10-16

Oracle 11g ocm考试手册

Oracle 11g ocm考试手册 下载 《oracle 11g ocm考试_DG考点介绍》 下载《11g OCM_双节点RAC安装》 下载《oracle_11g_ocm_考试手册  SQL优化部分》  
#POST 1 MIN READ