WEB开发网
开发学院软件开发Java 用 Hadoop 进行分布式数据处理,第 2 部分: 进阶 阅读

用 Hadoop 进行分布式数据处理,第 2 部分: 进阶

 2010-07-06 00:00:00 来源:WEB开发网   
核心提示: 清单 10. 启动 MapReduce 守护进程root@master:~#/usr/lib/hadoop-0.20/bin/start-mapred.shstartingjobtracker,loggingto/usr/lib/hadoop-0.20/logs/hadoop-root-jobt

清单 10. 启动 MapReduce 守护进程

root@master:~# /usr/lib/hadoop-0.20/bin/start-mapred.sh 
starting jobtracker, logging to 
 /usr/lib/hadoop-0.20/logs/hadoop-root-jobtracker-mtj-desktop.out 
192.168.108.134: starting tasktracker, logging to 
 /usr/lib/hadoop-0.20/bin/../logs/hadoop-root-tasktracker-mtj-desktop.out 
192.168.108.135: starting tasktracker, logging to 
 /usr/lib/hadoop-0.20/bin/../logs/hadoop-root-tasktracker-mtj-desktop.out 
root@master:~# jps 
7367 NameNode 
7842 JobTracker 
7938 Jps 
7522 SecondaryNameNode 
root@master:~# 

最后,使用 jps 检查一个从节点。这里您可以看到,一个 tasktracker 守护进程将数据节点守护进程联接到每个从数据节点上:

清单 11. 检测其中一个从节点上的数据节点

root@slave1:~# jps 
7785 DataNode 
8114 Jps 
7991 TaskTracker 
root@slave1:~# 

启动脚本、节点和启动的守护进程之间的关系如图 4 所示。如您所见,start-dfs 脚本启动名称节点和数据节点,而 start-mapred 脚本启动 jobtracker 和 tasktrackers。

图 4. 每个节点的启动脚本和守护进程的关系
用 Hadoop 进行分布式数据处理,第 2 部分: 进阶

测试 HDFS

既然 Hadoop 已经开始在整个集群中运行了,您可以运行一些测试来确保其正常运作(见清单 12)。首先,通过 hadoop-0.20 实用程序发出一个文件系统命令(fs),并请求一个 df(disk free)操作。与在 Linux® 中一样,该命令仅确定特定设备的已用空间和可用空间。因此,对于新格式化的文件系统,就没有已用空间。下一步,在 HDFS 的根上执行一个 ls 操作,创建一个子目录,列出其内容,并删除它。最后,在 hadoop-0.20 实用程序内,您可以使用 fsck 命令在 HDFS 上执行一个 fsck(文件系统检查)。这一切 — 以及各种其他信息(比如检测到两个数据节点)— 都告诉您文件系统是正常的。

上一页  2 3 4 5 6 7 8 9 10  下一页

Tags:Hadoop 进行 分布式

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接