开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 2 部分: 进阶阅读

用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

　2010-07-06 00:00:00　来源：WEB开发网　　　

核心提示： master然后在 /etc/hadoop-0.20/conf.dist/slaves 中确定从节点，其中包括以下两行：slave1slave2接下来，用 Hadoop 进行分布式数据处理，第 2 部分: 进阶(4)，从每个节点上，将 Secure Shell (ssh) 连接到所有其他节点，

master　

然后在 /etc/hadoop-0.20/conf.dist/slaves 中确定从节点，其中包括以下两行：

slave1　 slave2　

接下来，从每个节点上，将 Secure Shell (ssh) 连接到所有其他节点，确保 pass-phraseless ssh 在运行。所有这些文件（masters，slaves）都由本系列第 1 部分中使用过的 Hadoop 启动和停止工具使用。

下一步，在 /etc/hadoop-0.20/conf.dist 子目录中继续进行 Hadoop 配置。以下变更需要应用于所有节点（主节点和从节点），如同 Hadoop 文档中所定义的。首先，在 core-site.xml 文件（清单 4）中确定 HDFS 主节点，它定义名称节点的主机和端口（注意主节点的 IP 地址的使用）。core-site.xml 文件定义 Hadoop 的核心属性。

清单 4. 在 core-site.xml 中定义 HDFS 主节点

<configuration>　　　<property>　　　<name>fs.default.name<name>　　　<value>hdfs://master:54310<value>　　　<description>The　name　and　URI　of　the　default　FS.</description>　　<property>　　 <configuration>　

下一步，确认 MapReduce jobtracker。jobtracker 位于其自己的节点上，但对于本配置，将其放在主节点上，如清单 5 所示。mapred-site.xml 文件包含 MapReduce 属性。

清单 5. 在 mapred-site.xml 中定义 MapReduce jobtracker

<configuration>　　　<property>　　　<name>mapred.job.tracker<name>　　　<value>master:54311<value>　　　<description>Map　Reduce　jobtracker<description>　　<property>　　 <configuration>