WEB开发网
开发学院软件开发Java 用 Hadoop 进行分布式数据处理,第 1 部分: 入门 阅读

用 Hadoop 进行分布式数据处理,第 1 部分: 入门

 2010-06-08 00:00:00 来源:WEB开发网   
核心提示: #hadoop-0.20fs-rmroutputDeletedhdfs://localhost/user/root/output接下来,请求用于执行 grep 的 MapReduce 作业,用 Hadoop 进行分布式数据处理,第 1 部分: 入门(8),在这种情况下,并行执行 grep(映射)

# hadoop-0.20 fs -rmr output 
Deleted hdfs://localhost/user/root/output 

接下来,请求用于执行 grep 的 MapReduce 作业。在这种情况下,并行执行 grep(映射),然后组合 grep 的结果(缩减)。清单 9 给出这个使用模型的输出(为了简短,这里删除了一些输出)。注意,这里的命令请求是一个 grep,它从 input 子目录获取输入,把结果放在 output 子目录中。最后一个参数是要搜索的字符串(在这里是 'kernel')。

清单 9. 执行单词搜索计数的 MapReduce 作业 (grep)

# hadoop-0.20 jar /usr/lib/hadoop/hadoop-0.20.2+228-examples.jar \ 
grep input output 'kernel' 
10/04/30 09:22:29 INFO mapred.FileInputFormat: Total input paths to process : 2 
10/04/30 09:22:30 INFO mapred.JobClient: Running job: job_201004291628_0010 
10/04/30 09:22:31 INFO mapred.JobClient: map 0% reduce 0% 
10/04/30 09:22:42 INFO mapred.JobClient: map 66% reduce 0% 
10/04/30 09:22:45 INFO mapred.JobClient: map 100% reduce 0% 
10/04/30 09:22:54 INFO mapred.JobClient: map 100% reduce 100% 
10/04/30 09:22:56 INFO mapred.JobClient: Job complete: job_201004291628_0010 
10/04/30 09:22:56 INFO mapred.JobClient: Counters: 18 
10/04/30 09:22:56 INFO mapred.JobClient:  Job Counters 
10/04/30 09:22:56 INFO mapred.JobClient:   Launched reduce tasks=1 
10/04/30 09:22:56 INFO mapred.JobClient:   Launched map tasks=3 
10/04/30 09:22:56 INFO mapred.JobClient:   Data-local map tasks=3 
10/04/30 09:22:56 INFO mapred.JobClient:  FileSystemCounters 
10/04/30 09:22:56 INFO mapred.JobClient:   FILE_BYTES_READ=57 
10/04/30 09:22:56 INFO mapred.JobClient:   HDFS_BYTES_READ=113144 
10/04/30 09:22:56 INFO mapred.JobClient:   FILE_BYTES_WRITTEN=222 
10/04/30 09:22:56 INFO mapred.JobClient:   HDFS_BYTES_WRITTEN=109 
... 
10/04/30 09:23:14 INFO mapred.JobClient:   Map output bytes=15 
10/04/30 09:23:14 INFO mapred.JobClient:   Map input bytes=23 
10/04/30 09:23:14 INFO mapred.JobClient:   Combine input records=0 
10/04/30 09:23:14 INFO mapred.JobClient:   Map output records=1 
10/04/30 09:23:14 INFO mapred.JobClient:   Reduce input records=1 
# 

上一页  3 4 5 6 7 8 9  下一页

Tags:Hadoop 进行 分布式

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接