开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 2 部分: 进阶阅读

用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

　2010-07-06 00:00:00　来源：WEB开发网　　　

核心提示： 图 2. Hadoop 集群配置为简化部署，要运用虚拟化技术，用 Hadoop 进行分布式数据处理，第 2 部分: 进阶(2)，该技术有几个好处，尽管在该设置中使用虚拟化技术看不出性能优势，如清单 1 所示，该命令告诉您，但是它可以创建一个 Hadoop 安装，然后为其他节点克隆该安装

图 2. Hadoop 集群配置
用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

为简化部署，要运用虚拟化技术，该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势，但是它可以创建一个 Hadoop 安装，然后为其他节点克隆该安装。为此，您的 Hadoop 集群应显示如下：在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机（VM）运行（见图 3）。

图 3. 虚拟环境中的 Hadoop 集群配置
用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

升级 Hadoop

在用 Hadoop 进行分布式数据处理，第 1 部分：入门中，我们安装了在一个节点上运行的 Hadoop 的一个特殊分布（伪配置）。在本文中，我们要更新分布式配置。如果您没有看过本系列的第 1 部分，那么请阅读第 1 部分，了解如何首先安装 Hadoop 伪配置。

在伪配置中，您没有进行任何配置，因为单个节点已经过预先配置。现在，您需要更新配置。首先，使用 update-alternatives 命令检查当前配置，如清单 1 所示。该命令告诉您，配置在使用 conf.pseudo（最高优先级）。

清单 1. 检查当前 Hadoop 配置

$　update-alternatives　--display　hadoop-0.20-conf　 hadoop-0.20-conf　-　status　is　auto.　　link　currently　points　to　/etc/hadoop-0.20/conf.pseudo　 /etc/hadoop-0.20/conf.empty　-　priority　10　 /etc/hadoop-0.20/conf.pseudo　-　priority　30　 Current　`best'　version　is　/etc/hadoop-0.20/conf.pseudo.　 $