用 Hadoop 进行分布式数据处理,第 2 部分: 进阶
2010-07-06 00:00:00 来源:WEB开发网下一步,通过复制现有配置(本例中为 conf.empty,如清单 1 所示)创建一个新配置:
$ sudo cp -r /etc/hadoop-0.20/conf.empty /etc/hadoop-0.20/conf.dist
$
最后,激活并检查新配置:
清单 2. 激活并检查 Hadoop 配置
$ sudo update-alternatives --install /etc/hadoop-0.20/conf hadoop-0.20-conf \
/etc/hadoop-0.20/conf.dist 40
$ update-alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - status is auto.
link currently points to /etc/hadoop-0.20/conf.dist
/etc/hadoop-0.20/conf.empty - priority 10
/etc/hadoop-0.20/conf.pseudo - priority 30
/etc/hadoop-0.20/conf.dist - priority 40
Current `best' version is /etc/hadoop-0.20/conf.dist.
$
现在,您有一个名为 conf.dist 的新配置,您要将其用于您的新分布式配置。此时该节点运行于一个虚拟环境中,将该节点克隆到另外两个要充当数据节点的节点中。
配置 Hadoop 以实现分布式操作
下一步是要使所有节点互联互通。这可以 /etc/hadoop-0.20/conf.dist/ 中的两个名为 masters 和 slaves 的文件中实现。本例中的三个节点的 IP 地址是静态分配的,如清单 3 所示(来自 /etc/hosts):
清单 3. 该设置的 Hadoop 节点(/etc/hosts)
master 192.168.108.133
slave1 192.168.108.134
slave2 192.168.108.135
因此,在主节点上,更新 /etc/hadoop-0.20/conf.dist/masters 来确定主节点,如下所示:
更多精彩
赞助商链接