开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 3 部分: 应用程... 阅读

用 Hadoop 进行分布式数据处理，第 3 部分: 应用程序开发

　2010-08-11 00:00:00　来源：WEB开发网　　　

核心提示： 在计算机学习用户程序中，Hadoop 已经作为处理大量 GA 个体的规模遗传算法的一种方法（潜在解决方案），用 Hadoop 进行分布式数据处理，第 3 部分: 应用程序开发(9)，map 过程执行传统的遗传算法，从本地池中搜索最佳单个解决方案，希望从这篇文章您可以看到 Hadoop 的真正力量

在计算机学习用户程序中，Hadoop 已经作为处理大量 GA 个体的规模遗传算法的一种方法（潜在解决方案）。map 过程执行传统的遗传算法，从本地池中搜索最佳单个解决方案。然后 reduce 应用程序成为来自 map 阶段的单个解决方案的集成。这会允许单个节点识别最佳解决方案，然后允许这些解决方案在最适于生存的分布式显示的 reduce 阶段中相互竞争。

另外一个有趣的应用程序被创建用于识别僵尸网络的垃圾邮件。此过程的第一步将会为减少垃圾邮件为目的而对电子邮件按来自给定组织而进行分类（基于一组指纹）。根据过滤的这些数据，对以特定方式（例如参考电子邮件正文中的相同链接）连接的邮件生成一个图表。然后这些相关电子邮件会减少至主机（静态或动态 IP 地址）以识别有问题的僵尸网络。

在应用程序之外通过 map 和 reduce 基元来查看世界，Hadoop 作为在计算机集群之间分配工作的方式非常有用。 Map 和 reduce 并非必须强制某种特定类型的应用程序。相反地，Hadoop 可以被视为一种可以同时将数据和算法分配到主机以获得更快速的并行处理速度的方法。

Hadoop 应用程序生态系统

虽然 Hadoop 提供了一个灵活的架构，但也可以使用其他应用程序转换与其他应用程序的界面。一个有趣的示例称为 Hive，它是一个具有自己特定查询语言（称为 Hive QL）的数据仓库基础结构。Hive 使得 Hadoop 更加熟悉结构化查询语言 (SQL) 背景，同时还支持传统的 MapReduce 基础结构来进行数据处理。

HBase 是另外一种位于 HDFS 顶部的有趣的应用程序。它是一个类似于 Google BigTable 的高性能数据库系统。代替传统的文件处理，HBase 使数据库将 MapReduce 处理的输入和输出格式列表。

最后，Pig 是 Hadoop 中用于分析大型数据集的平台。Pig 提供可编译 map 和 reduce 应用程序的高级语言。

进一步的学习

这是 Hadoop 系列的最后一篇文章，探索了在适用于 Hadoop 框架的 Ruby 中开发 map 和 reduce 应用程序。希望从这篇文章您可以看到 Hadoop 的真正力量。虽然 Hadoop 将您限制在一个特定的编程模型中，但是这种模型是灵活的且可被应用到大量的应用程序上。

上一页 4 5 6 7 8 9