开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 2 部分: 进阶阅读

用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

　2010-07-06 00:00:00　来源：WEB开发网　　　

核心提示： 最后，定义默认复制因子（清单 6），用 Hadoop 进行分布式数据处理，第 2 部分: 进阶(5)，该值定义将创建的副本数，一般小于 3，完成配置之后，下一步是要格式化名称节点（HDFS 主节点），在本例中，将其定义为 2（数据节点的数量）

最后，定义默认复制因子（清单 6）。该值定义将创建的副本数，一般小于 3。在本例中，将其定义为 2（数据节点的数量）。该值在包含 HDFS 属性的 hdfs-site.xml 中定义。

清单 6. 在 hdfs-site.xml 中定义默认数据副本

<configuration>　　　<property>　　　<name>dfs.replication<name>　　　<value>2<value>　　　<description>Default　block　replication<description>　　<property>　　 <configuration>　

配置项如清单 4 所示，分布式设置所需的元素见清单 5 和清单 6。Hadoop 在这里提供大量配置选项，支持您按需定制整个环境。参考资料部分含有关于这些选项的更多信息。

完成配置之后，下一步是要格式化名称节点（HDFS 主节点）。对于该操作，使用 hadoop-0.20 实用程序指定名称节点和操作（-format）：

清单 7. 格式化名称节点

user@master:~#　sudo　su　-　 root@master:~#　hadoop-0.20　namenode　-format　 10/05/11　18:39:58　INFO　namenode.NameNode:　STARTUP_MSG:　 /************************************************************　 STARTUP_MSG:　Starting　NameNode　 STARTUP_MSG:　　host　=　master/127.0.1.1　 STARTUP_MSG:　　args　=　[-format]　 STARTUP_MSG:　　version　=　0.20.2+228　 STARTUP_MSG:　　build　=　-r　cfc3233ece0769b11af9add328261295aaf4d1ad;　 ************************************************************/　 10/05/11　18:39:59　INFO　namenode.FSNamesystem:　fsOwner=root,root　 10/05/11　18:39:59　INFO　namenode.FSNamesystem:　supergroup=supergroup　 10/05/11　18:39:59　INFO　namenode.FSNamesystem:　isPermissionEnabled=true　 10/05/11　18:39:59　INFO　common.Storage:　Image　file　of　size　94　saved　in　0　seconds.　 10/05/11　18:39:59　INFO　common.Storage:　　Storage　directory　/tmp/hadoop-root/dfs/name　has　been　successfully　formatted.　 10/05/11　18:39:59　INFO　namenode.NameNode:　SHUTDOWN_MSG:　 /************************************************************　 SHUTDOWN_MSG:　Shutting　down　NameNode　at　master/127.0.1.1　 ************************************************************/　 root@master:~#