开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 1 部分: 入门阅读

用 Hadoop 进行分布式数据处理，第 1 部分: 入门

　2010-06-08 00:00:00　来源：WEB开发网　　　

核心提示：尽管 Hadoop 是一些大型搜索引擎数据缩减功能的核心部分，但是它实际上是一个分布式数据处理框架，用 Hadoop 进行分布式数据处理，第 1 部分: 入门，搜索引擎需要收集数据，而且是数量极大的数据，在 /etc/apt/sources.list.d/cloudera.list 中创建一个新文件并添加以下文本： d

尽管 Hadoop 是一些大型搜索引擎数据缩减功能的核心部分，但是它实际上是一个分布式数据处理框架。搜索引擎需要收集数据，而且是数量极大的数据。作为分布式框架，Hadoop 让许多应用程序能够受益于并行数据处理。

本文并不打算介绍 Hadoop 及其架构，而是演示一个简单的 Hadoop 设置。现在，我们来讨论 Hadoop 的安装和配置。

初始设置

对于本文中的示例，我们使用 Cloudera Hadoop 发行版。Cloudera 提供对各种 Linux® 发行版的支持，所以很适合初学者。

本文假设您的系统上已经安装了 Java™（至少是 1.6 版）和 cURL。如果还没有，需要先安装它们。

因为我运行 Ubuntu（Intrepid 版），所以使用 apt 实用程序获取 Hadoop 发行版。这个过程非常简单，我可以获取二进制包，而不需要下载并构建源代码。首先，告诉 apt Cloudera 站点的信息。然后，在 /etc/apt/sources.list.d/cloudera.list 中创建一个新文件并添加以下文本：

deb　http://archive.cloudera.com/debian　intrepid-cdh3　contrib　 deb-src　http://archive.cloudera.com/debian　intrepid-cdh3　contrib　

如果您运行 Jaunty 或其他版本，只需把 intrepid 替换为您的版本名（当前支持 Hardy、Intrepid、Jaunty、Karmic 和 Lenny）。

接下来，从 Cloudera 获取 apt-key 以检查下载的包：

$　curl　-s　http://archive.cloudera.com/debian/archive.key　|　\　 sudo　apt-key　add　-　sudo　apt-get　update　

1 2 3 4 5 6 下一页