WEB开发网
开发学院软件开发Java 用 Hadoop 进行分布式数据处理,第 1 部分: 入门 阅读

用 Hadoop 进行分布式数据处理,第 1 部分: 入门

 2010-06-08 00:00:00 来源:WEB开发网   
核心提示: 作业完成之后,检查 output 目录,用 Hadoop 进行分布式数据处理,第 1 部分: 入门(9),找到结果文件,然后通过执行文件系统 cat 操作查看其内容(见清单 10),Microsoft 最近宣布将在它的 Windows® Azure Services Platform 中

作业完成之后,检查 output 目录,找到结果文件,然后通过执行文件系统 cat 操作查看其内容(见清单 10)。

清单 10. 检查 MapReduce 作业的输出

# hadoop-0.20 fs -ls output 
Found 2 items 
drwxr-xr-x - root supergroup  0 2010-04-30 09:22 /user/root/output/_logs 
-rw-r--r-- 1 root supergroup  10 2010-04-30 09:23 /user/root/output/part-00000 
# hadoop-0.20 fs -cat output/part-00000 
17 kernel 
# 

基于 Web 的界面

您已经知道如何检查 HDFS 了,但是如果要寻找 Hadoop 的操作的相关信息,会发现 Web 界面很有用。位于 Hadoop 集群最上层的是 namenode,它管理 HDFS。可以通过 http://localhost:50070 查看文件系统的高层信息(比如可用空间、已用空间和可用的 datanode)以及正在运行的作业。可以通过 http://localhost:50030 深入检查 jobtracker(作业状态)。注意,在这两种情况下都引用 localhost,因为所有守护进程都在同一个主机上运行。

更进一步

本文讨论了一个简单的(伪分布式)Hadoop 集群的安装和初始配置。在这里,我选用 Cloudera 的 Hadoop 发行版是因为它简化了 Hadoop 的安装和初始配置。可以在 apache.org 找到许多 Hadoop 发行版(包括源代码)。

但是,如果缺少硬件资源,无法扩展 Hadoop 集群以满足自己的需要,那么应该怎么办?由于 Hadoop 非常流行,可以很方便地在云计算基础设施中使用预构建的 Hadoop VM 和租用的服务器运行它。Amazon 在 Amazon Elastic Compute Cloud (Amazon EC2) 中提供 Amazon Machine Image (AMI) 和计算资源。另外,Microsoft 最近宣布将在它的 Windows® Azure Services Platform 中支持 Hadoop。

通过本文很容易看出 Hadoop 显著简化了处理大型数据集的分布式计算。本系列中的下一篇文章通过更多示例讨论如何在多节点集群中配置 Hadoop。

上一页  4 5 6 7 8 9 

Tags:Hadoop 进行 分布式

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接