开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 2 部分: 进阶阅读

用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

　2010-07-06 00:00:00　来源：WEB开发网　　　

核心提示：Hadoop 分布式计算架构的真正实力在于其分布性，换句话说，用 Hadoop 进行分布式数据处理，第 2 部分: 进阶，向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理，本文首先对一个分布式 Hadoop 架构进行分解，设置如图 2 所示，现在，然后探讨分布式配置和使用，分布式

Hadoop 分布式计算架构的真正实力在于其分布性。换句话说，向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式 Hadoop 架构进行分解，然后探讨分布式配置和使用。

分布式 Hadoop 架构

根据用 Hadoop 进行分布式数据处理，第 1 部分：入门，所有 Hadoop 守护进程都在同一个主机上运行。尽管不运用 Hadoop 的并行性，这个伪分布式配置提供一种简单的方式来以最少的设置测试 Hadoop 的功能。现在，让我们使用机器集群探讨一下 Hadoop 的并行性。

根据第 1 部分，Hadoop 配置定义了让所有 Hadoop 守护进程在一个节点上运行。因此，让我们首先看一下如何自然分布 Hadoop 来执行并行操作。在一个分布式 Hadoop 设置中，您有一个主节点和一些从节点（见图 1）。

图 1. Hadoop 主从节点分解
用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

如图 1 所示，主节点包括名称节点、从属名称节点和 jobtracker 守护进程（即所谓的主守护进程）。此外，这是您为本演示管理集群所用的节点（使用 Hadoop 实用程序和浏览器）。从节点包括 tasktracker 和数据节点（从属守护进程）。两种设置的不同之处在于，主节点包括提供 Hadoop 集群管理和协调的守护进程，而从节点包括实现 Hadoop 文件系统（HDFS）存储功能和 MapReduce 功能（数据处理功能）的守护进程。

对于该演示，在一个 LAN 上创建一个主节点和两个从节点。设置如图 2 所示。现在，我们来探讨用于多节点分布的 Hadoop 的安装和配置。

1 2 3 4 5 6 下一页