开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 3 部分: 应用程... 阅读

用 Hadoop 进行分布式数据处理，第 3 部分: 应用程序开发

　2010-08-11 00:00:00　来源：WEB开发网　　　

核心提示： 清单 1. SCSH 上的 map 函数演示>(definesquare(lambda(x)(*xx)))>(mapsquare'(1357))'(192549)>Reduce 也适用于列表但是通常将列表缩减为标量值，清单 2中提供的示例说明用于将列表缩减为标量

清单 1. SCSH 上的 map 函数演示

>　(define　square　(lambda　(x)　(*　x　x)))　 >　(map　square　'(1　3　5　7))　 '(1　9　25　49)　 >　

Reduce 也适用于列表但是通常将列表缩减为标量值。清单 2中提供的示例说明用于将列表缩减为标量的其他 SCSH 函数 — 在这种情况下，用 (1 + (2 + (3 + (4 + (5))))) 的格式汇总值的列表。请注意这是典型的功能性编程，取决于迭代上的递归。

清单 2. SCSH 上的 reduce 演示

>　(define　(list-sum　lis)　(if　(null?　lis)　0　(+　(car　lis)　(list-sum　(cdr　lis)))))　 >　(list-sum　'(1　2　3　4　5))　 15　 >　

有趣的是要注意递归与迭代在命令性语言中同样高效，因为递归在幕后被转化成迭代。

Hadoop 的编程模型

Google 引用 MapReduce 的概念作为处理或生成大型数据集的编程模型。在规范模型中，map 函数处理键值对，这将得出键值对的中间集。然后 reduce 函数会处理这些中间键值对，并合并相关键的值（请参考图 1）。输入数据使用这样一种方法进行分区，即在并行处理的计算机集群中分区的方法。使用相同的方法，已生成的中间数据将被并行处理，这是处理大量数据的理想方法。

图 1. MapReduce 处理的简化视图
用 Hadoop 进行分布式数据处理，第 3 部分: 应用程序开发

对于快速刷新器来说，查看图 1 的体系结构，从 map 和 reduce 角度来进行字数统计（因为您将在本文中开发 map 和 reduce 应用程序)。在提供输入数据时（进入 Hadoop 文件系统 [HDFS]），首先分段，然后分配给 map 工作线程（通过作业跟踪器）。虽然图 2 中的示例显示了一个被分段的简短语句，但是分段的工作数量通常在 128MB 范围内，其原因是建立工作只需要很少的时间，因为有更多的工作要做，以便最大限度地减少这种开销。map 工作线程（在规范的示例中）将工作分割成包含已标记单词和初始值（在此情况下是 1）的单个矢量。在 map 任务完成时（如通过任务跟踪器在 Hadoop 中所定义的），提供工作给 reduce 工作线程。通过代表所发现的键的数量的值，reduce 工作线程将许多键缩减为一个惟一的集合。

上一页 1 2 3 4 5 6 7 下一页