用 Hadoop 进行分布式数据处理,第 1 部分: 入门
2010-06-08 00:00:00 来源:WEB开发网# hadoop-0.20 fs -rmr output
Deleted hdfs://localhost/user/root/output
接下来,请求用于执行 grep 的 MapReduce 作业。在这种情况下,并行执行 grep(映射),然后组合 grep 的结果(缩减)。清单 9 给出这个使用模型的输出(为了简短,这里删除了一些输出)。注意,这里的命令请求是一个 grep,它从 input 子目录获取输入,把结果放在 output 子目录中。最后一个参数是要搜索的字符串(在这里是 'kernel')。
清单 9. 执行单词搜索计数的 MapReduce 作业 (grep)
# hadoop-0.20 jar /usr/lib/hadoop/hadoop-0.20.2+228-examples.jar \
grep input output 'kernel'
10/04/30 09:22:29 INFO mapred.FileInputFormat: Total input paths to process : 2
10/04/30 09:22:30 INFO mapred.JobClient: Running job: job_201004291628_0010
10/04/30 09:22:31 INFO mapred.JobClient: map 0% reduce 0%
10/04/30 09:22:42 INFO mapred.JobClient: map 66% reduce 0%
10/04/30 09:22:45 INFO mapred.JobClient: map 100% reduce 0%
10/04/30 09:22:54 INFO mapred.JobClient: map 100% reduce 100%
10/04/30 09:22:56 INFO mapred.JobClient: Job complete: job_201004291628_0010
10/04/30 09:22:56 INFO mapred.JobClient: Counters: 18
10/04/30 09:22:56 INFO mapred.JobClient: Job Counters
10/04/30 09:22:56 INFO mapred.JobClient: Launched reduce tasks=1
10/04/30 09:22:56 INFO mapred.JobClient: Launched map tasks=3
10/04/30 09:22:56 INFO mapred.JobClient: Data-local map tasks=3
10/04/30 09:22:56 INFO mapred.JobClient: FileSystemCounters
10/04/30 09:22:56 INFO mapred.JobClient: FILE_BYTES_READ=57
10/04/30 09:22:56 INFO mapred.JobClient: HDFS_BYTES_READ=113144
10/04/30 09:22:56 INFO mapred.JobClient: FILE_BYTES_WRITTEN=222
10/04/30 09:22:56 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=109
...
10/04/30 09:23:14 INFO mapred.JobClient: Map output bytes=15
10/04/30 09:23:14 INFO mapred.JobClient: Map input bytes=23
10/04/30 09:23:14 INFO mapred.JobClient: Combine input records=0
10/04/30 09:23:14 INFO mapred.JobClient: Map output records=1
10/04/30 09:23:14 INFO mapred.JobClient: Reduce input records=1
#
更多精彩
赞助商链接