开发学院软件开发 Java 用 Hadoop 进行分布式数据处理，第 1 部分: 入门阅读

用 Hadoop 进行分布式数据处理，第 1 部分: 入门

　2010-06-08 00:00:00　来源：WEB开发网　　　

核心提示： #hadoop-0.20fs-rmroutputDeletedhdfs://localhost/user/root/output接下来，请求用于执行 grep 的 MapReduce 作业，用 Hadoop 进行分布式数据处理，第 1 部分: 入门(8)，在这种情况下，并行执行 grep（映射）

#　hadoop-0.20　fs　-rmr　output　 Deleted　hdfs://localhost/user/root/output　

接下来，请求用于执行 grep 的 MapReduce 作业。在这种情况下，并行执行 grep（映射），然后组合 grep 的结果（缩减）。清单 9 给出这个使用模型的输出（为了简短，这里删除了一些输出）。注意，这里的命令请求是一个 grep，它从 input 子目录获取输入，把结果放在 output 子目录中。最后一个参数是要搜索的字符串（在这里是 'kernel'）。

清单 9. 执行单词搜索计数的 MapReduce 作业 (grep)

#　hadoop-0.20　jar　/usr/lib/hadoop/hadoop-0.20.2+228-examples.jar　\　 grep　input　output　'kernel'　 10/04/30　09:22:29　INFO　mapred.FileInputFormat:　Total　input　paths　to　process　:　2　 10/04/30　09:22:30　INFO　mapred.JobClient:　Running　job:　job_201004291628_0010　 10/04/30　09:22:31　INFO　mapred.JobClient:　map　0%　reduce　0%　 10/04/30　09:22:42　INFO　mapred.JobClient:　map　66%　reduce　0%　 10/04/30　09:22:45　INFO　mapred.JobClient:　map　100%　reduce　0%　 10/04/30　09:22:54　INFO　mapred.JobClient:　map　100%　reduce　100%　 10/04/30　09:22:56　INFO　mapred.JobClient:　Job　complete:　job_201004291628_0010　 10/04/30　09:22:56　INFO　mapred.JobClient:　Counters:　18　 10/04/30　09:22:56　INFO　mapred.JobClient:　　Job　Counters　 10/04/30　09:22:56　INFO　mapred.JobClient:　　　Launched　reduce　tasks=1　 10/04/30　09:22:56　INFO　mapred.JobClient:　　　Launched　map　tasks=3　 10/04/30　09:22:56　INFO　mapred.JobClient:　　　Data-local　map　tasks=3　 10/04/30　09:22:56　INFO　mapred.JobClient:　　FileSystemCounters　 10/04/30　09:22:56　INFO　mapred.JobClient:　　　FILE_BYTES_READ=57　 10/04/30　09:22:56　INFO　mapred.JobClient:　　　HDFS_BYTES_READ=113144　 10/04/30　09:22:56　INFO　mapred.JobClient:　　　FILE_BYTES_WRITTEN=222　 10/04/30　09:22:56　INFO　mapred.JobClient:　　　HDFS_BYTES_WRITTEN=109　 ...　 10/04/30　09:23:14　INFO　mapred.JobClient:　　　Map　output　bytes=15　 10/04/30　09:23:14　INFO　mapred.JobClient:　　　Map　input　bytes=23　 10/04/30　09:23:14　INFO　mapred.JobClient:　　　Combine　input　records=0　 10/04/30　09:23:14　INFO　mapred.JobClient:　　　Map　output　records=1　 10/04/30　09:23:14　INFO　mapred.JobClient:　　　Reduce　input　records=1　 #