开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 1 部分: 入门阅读

用 Hadoop 进行分布式数据处理，第 1 部分: 入门

　2010-06-08 00:00:00　来源：WEB开发网　　　

核心提示： 在这个简单的配置中，所有节点都驻留在同一个主机上（见图 1），用 Hadoop 进行分布式数据处理，第 1 部分: 入门(4)，但是，通过前面的讨论很容易看出 Hadoop 如何提供并行处理，这里没有定义处理的含义，因为框架允许您自己定义什么是处理，尽管架构很简单，但是 Hadoop 能够方

在这个简单的配置中，所有节点都驻留在同一个主机上（见图 1）。但是，通过前面的讨论很容易看出 Hadoop 如何提供并行处理。尽管架构很简单，但是 Hadoop 能够方便地实现数据分发、负载平衡以及以容错的方式并行处理大量数据。

检查 HDFS

可以通过几个检查确认 Hadoop（至少是 namenode）已经启动并正常运行。确认所有进程都在运行之后，可以使用 hadoop 命令检查本地名称空间（见清单 2）。

清单 2. 检查对 HDFS 的访问

#　hadoop-0.20　fs　-ls　/　 Found　2　items　 drwxr-xr-x　　-　root　supergroup　　　　　0　2010-04-29　16:38　/user　 drwxr-xr-x　　-　root　supergroup　　　　　0　2010-04-29　16:28　/var　 #　

可以看出 namenode 已经启动，能够为本地名称空间提供服务。注意，使用 hadoop-0.20 命令检查文件系统。这个实用程序用于与 Hadoop 集群交互，包括检查文件系统、在集群中运行作业等等。请注意命令的结构：指定 hadoop-0.20 实用程序之后，定义一个命令（在这里是通用文件系统 shell）以及一个或多个选项（在这里使用 ls 请求文件列表）。因为 hadoop-0.20 是 Hadoop 集群的主要接口之一，您会看到本文中多次使用这个实用程序。清单 3 提供另外几个文件系统操作示例（创建子目录 test，列出它的内容，然后删除它），可以通过它们进一步了解这个接口。

清单 3. Hadoop 中的文件系统操作

#　hadoop-0.20　fs　-mkdir　test　 #　hadoop-0.20　fs　-ls　test　 #　hadoop-0.20　fs　-rmr　test　 Deleted　hdfs://localhost/user/root/test　 #　

测试 Hadoop

既然已经安装了 Hadoop 并测试了文件系统的基本接口，现在就该在真实的应用程序中测试 Hadoop 了。在这个示例中，我们使用 MapReduce 处理一个小数据集。map（映射）和 reduce（缩减）源自函数式编程中的函数名，但是这个应用程序的核心功能是数据缩减。映射是指把大量输入处理成更小的子问题集（然后把这些子问题分发给并行的工作系统）。缩减是指把子问题的答案组合成单一输出集。注意，这里没有定义处理的含义，因为框架允许您自己定义什么是处理。典型的 MapReduce 示例是计算单词在文档集中出现的频率。

上一页 1 2 3 4 5 6 7 8 9 下一页