WEB开发网
开发学院软件开发Java 用 Hadoop 进行分布式数据处理,第 1 部分: 入门 阅读

用 Hadoop 进行分布式数据处理,第 1 部分: 入门

 2010-06-08 00:00:00 来源:WEB开发网   
核心提示: 在这个简单的配置中,所有节点都驻留在同一个主机上(见 图 1),用 Hadoop 进行分布式数据处理,第 1 部分: 入门(4),但是,通过前面的讨论很容易看出 Hadoop 如何提供并行处理,这里没有定义处理 的含义,因为框架允许您自己定义什么是处理,尽管架构很简单,但是 Hadoop 能够方

在这个简单的配置中,所有节点都驻留在同一个主机上(见 图 1)。但是,通过前面的讨论很容易看出 Hadoop 如何提供并行处理。尽管架构很简单,但是 Hadoop 能够方便地实现数据分发、负载平衡以及以容错的方式并行处理大量数据。

检查 HDFS

可以通过几个检查确认 Hadoop(至少是 namenode)已经启动并正常运行。确认所有进程都在运行之后,可以使用 hadoop 命令检查本地名称空间(见清单 2)。

清单 2. 检查对 HDFS 的访问

# hadoop-0.20 fs -ls / 
Found 2 items 
drwxr-xr-x  - root supergroup     0 2010-04-29 16:38 /user 
drwxr-xr-x  - root supergroup     0 2010-04-29 16:28 /var 
# 

可以看出 namenode 已经启动,能够为本地名称空间提供服务。注意,使用 hadoop-0.20 命令检查文件系统。这个实用程序用于与 Hadoop 集群交互,包括检查文件系统、在集群中运行作业等等。请注意命令的结构:指定 hadoop-0.20 实用程序之后,定义一个命令(在这里是通用文件系统 shell)以及一个或多个选项(在这里使用 ls 请求文件列表)。因为 hadoop-0.20 是 Hadoop 集群的主要接口之一,您会看到本文中多次使用这个实用程序。清单 3 提供另外几个文件系统操作示例(创建子目录 test,列出它的内容,然后删除它),可以通过它们进一步了解这个接口。

清单 3. Hadoop 中的文件系统操作

# hadoop-0.20 fs -mkdir test 
# hadoop-0.20 fs -ls test 
# hadoop-0.20 fs -rmr test 
Deleted hdfs://localhost/user/root/test 
# 

测试 Hadoop

既然已经安装了 Hadoop 并测试了文件系统的基本接口,现在就该在真实的应用程序中测试 Hadoop 了。在这个示例中,我们使用 MapReduce 处理一个小数据集。map(映射) 和 reduce(缩减) 源自函数式编程中的函数名,但是这个应用程序的核心功能是数据缩减。映射 是指把大量输入处理成更小的子问题集(然后把这些子问题分发给并行的工作系统)。缩减 是指把子问题的答案组合成单一输出集。注意,这里没有定义处理 的含义,因为框架允许您自己定义什么是处理。典型的 MapReduce 示例是计算单词在文档集中出现的频率。

上一页  1 2 3 4 5 6 7 8 9  下一页

Tags:Hadoop 进行 分布式

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接