开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 3 部分: 应用程... 阅读

用 Hadoop 进行分布式数据处理，第 3 部分: 应用程序开发

　2010-08-11 00:00:00　来源：WEB开发网　　　

核心提示： 第一步将要在 HDFS 内为您的输入信息创建输入字典，然后提供一个将测试您脚本的简单文件，用 Hadoop 进行分布式数据处理，第 3 部分: 应用程序开发(7)，清单 9 说明了此步骤（有关这些步骤的更多信息，请参考本系列的用 Hadoop 进行分布式数据处理，通过自定义脚本来调用 Hado

第一步将要在 HDFS 内为您的输入信息创建输入字典，然后提供一个将测试您脚本的简单文件。清单 9 说明了此步骤（有关这些步骤的更多信息，请参考本系列的用 Hadoop 进行分布式数据处理，第 1 部分：入门或用 Hadoop 进行分布式数据处理，第 2 部分：进阶）。

清单 9. 为 MapReduce 过程创建输入数据

#　hadoop　fs　-mkdir　input　 #　hadoop　dfs　-put　/usr/src/linux-source-2.6.27/Documentation/memory-barriers.txt　input　 #　hadoop　fs　-ls　input　 Found　1　items　 -rw-r--r--　1　root　supergroup　78031　2010-06-04　17:36　/user/root/input/memory-barriers.txt　 #　

下一步，使用流实用工具，通过自定义脚本来调用 Hadoop，简化输出的输入数据和位置（请参考清单 10）。在此示例中请注意 -file 选项会简单地告诉 Hadoop 来打包您的 Ruby 脚本作为部分作业提交。

清单 10. 通过 Ruby MapReduce 脚本使用 Hadoop 流

#　hadoop　jar　/usr/lib/hadoop-0.20/contrib/streaming/hadoop-0.20.2+228-streaming.jar　\　　-file　/home/mtj/ruby/map.rb　-mapper　/home/mtj/ruby/map.rb　\　　-file　/home/mtj/ruby/reduce.rb　-reducer　/home/mtj/ruby/reduce.rb　\　　-input　input/*　-output　output　 packageJobJar:　[/home/mtj/ruby/map.rb,　/home/mtj/ruby/reduce.rb,　/var/lib/hadoop-0.20/...　 10/06/04　17:42:38　INFO　mapred.FileInputFormat:　Total　input　paths　to　process　:　1　 10/06/04　17:42:39　INFO　streaming.StreamJob:　getLocalDirs():　[/var/lib/hadoop-0.20/...　 10/06/04　17:42:39　INFO　streaming.StreamJob:　Running　job:　job_201006041053_0001　 10/06/04　17:42:39　INFO　streaming.StreamJob:　To　kill　this　job,　run:　 10/06/04　17:42:39　INFO　streaming.StreamJob:　/usr/lib/hadoop-0.20/bin/hadoop　job　...　 10/06/04　17:42:39　INFO　streaming.StreamJob:　Tracking　URL:　http://localhost:50030/...　 10/06/04　17:42:40　INFO　streaming.StreamJob:　map　0%　reduce　0%　 10/06/04　17:43:17　INFO　streaming.StreamJob:　map　100%　reduce　0%　 10/06/04　17:43:26　INFO　streaming.StreamJob:　map　100%　reduce　100%　 10/06/04　17:43:29　INFO　streaming.StreamJob:　Job　complete:　job_201006041053_0001　 10/06/04　17:43:29　INFO　streaming.StreamJob:　Output:　output　 #