用 Hadoop 进行分布式数据处理,第 2 部分: 进阶
2010-07-06 00:00:00 来源:WEB开发网核心提示: 图 2. Hadoop 集群配置为简化部署,要运用虚拟化技术,用 Hadoop 进行分布式数据处理,第 2 部分: 进阶(2),该技术有几个好处,尽管在该设置中使用虚拟化技术看不出性能优势,如清单 1 所示,该命令告诉您,但是它可以创建一个 Hadoop 安装,然后为其他节点克隆该安装
图 2. Hadoop 集群配置
为简化部署,要运用虚拟化技术,该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势,但是它可以创建一个 Hadoop 安装,然后为其他节点克隆该安装。为此,您的 Hadoop 集群应显示如下:在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机(VM)运行(见图 3)。
图 3. 虚拟环境中的 Hadoop 集群配置
升级 Hadoop
在 用 Hadoop 进行分布式数据处理,第 1 部分:入门 中,我们安装了在一个节点上运行的 Hadoop 的一个特殊分布(伪配置)。在本文中,我们要更新分布式配置。如果您没有看过本系列的第 1 部分,那么请阅读第 1 部分,了解如何首先安装 Hadoop 伪配置。
在伪配置中,您没有进行任何配置,因为单个节点已经过预先配置。现在,您需要更新配置。首先,使用 update-alternatives 命令检查当前配置,如清单 1 所示。该命令告诉您,配置在使用 conf.pseudo(最高优先级)。
清单 1. 检查当前 Hadoop 配置
$ update-alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - status is auto.
link currently points to /etc/hadoop-0.20/conf.pseudo
/etc/hadoop-0.20/conf.empty - priority 10
/etc/hadoop-0.20/conf.pseudo - priority 30
Current `best' version is /etc/hadoop-0.20/conf.pseudo.
$
更多精彩
赞助商链接