开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 1 部分: 入门阅读

用 Hadoop 进行分布式数据处理，第 1 部分: 入门

　2010-06-08 00:00:00　来源：WEB开发网　　　

核心提示： 然后，安装采用伪分布式配置的 Hadoop（所有 Hadoop 守护进程在同一个主机上运行）： $sudoapt-getinstallhadoop-0.20-conf-pseudo$注意，用 Hadoop 进行分布式数据处理，第 1 部分: 入门(2)，这个配置大约 23MB（不包括 apt 可

然后，安装采用伪分布式配置的 Hadoop（所有 Hadoop 守护进程在同一个主机上运行）：

$　sudo　apt-get　install　hadoop-0.20-conf-pseudo　 $

注意，这个配置大约 23MB（不包括 apt 可能下载的其他包）。这个配置非常适合体验 Hadoop 以及了解它的元素和界面。

最后，我设置了不需要密码的 SSH。如果打算使用 ssh localhost 并请求密码，就需要执行以下步骤。我假设这是专用的 Hadoop 机器，因为这个步骤对安全性有影响（见清单 1）。

清单 1. 设置不需要密码的 SSH

$　sudo　su　-　 #　ssh-keygen　-t　dsa　-P　''　-f　~/.ssh/id_dsa　 #　cat　~/.ssh/id_dsa.pub　>>　~/.ssh/authorized_keys　

最后，需要确保主机上有供 datanode使用的足够存储空间（缓存）。存储空间不足会导致系统表现异常（比如出现无法把数据复制到节点的错误）。

启动 Hadoop

现在可以启动 Hadoop 了，这实际上要启动每个 Hadoop 守护进程。但是，首先使用 hadoop 命令对 Hadoop File System (HDFS) 进行格式化。hadoop 命令有许多用途，稍后讨论其中一部分。

首先，请求 namenode 对 DFS 文件系统进行格式化。在安装过程中完成了这个步骤，但是了解是否需要生成干净的文件系统是有用的。

#　hadoop-0.20　namenode　-format　

在确认请求之后，文件系统进行格式化并返回一些信息。接下来，启动 Hadoop 守护进程。Hadoop 在这个伪分布式配置中启动 5 个守护进程：namenode、secondarynamenode、datanode、jobtracker 和 tasktracker。在启动每个守护进程时，会看到一些相关信息（指出存储日志的位置）。每个守护进程都在后台运行。图 1 说明完成启动之后伪分布式配置的架构。

上一页 1 2 3 4 5 6 7 下一页