用 Hadoop 进行分布式数据处理,第 2 部分: 进阶
2010-07-06 00:00:00 来源:WEB开发网清单 12. 检查 HDFS
root@master:~# hadoop-0.20 fs -df
File system Size Used Avail Use%
/ 16078839808 73728 3490967552 0%
root@master:~# hadoop-0.20 fs -ls /
Found 1 items
drwxr-xr-x - root supergroup 0 2010-05-12 12:16 /tmp
root@master:~# hadoop-0.20 fs -mkdir test
root@master:~# hadoop-0.20 fs -ls test
root@master:~# hadoop-0.20 fs -rmr test
Deleted hdfs://192.168.108.133:54310/user/root/test
root@master:~# hadoop-0.20 fsck /
.Status: HEALTHY
Total size: 4 B
Total dirs: 6
Total files: 1
Total blocks (validated): 1 (avg. block size 4 B)
Minimally replicated blocks: 1 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 2
Average block replication: 2.0
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 2
Number of racks: 1
The filesystem under path '/' is HEALTHY
root@master:~#
执行一个 MapReduce 作业
下一步是执行一个 MapReduce 作业,以验证整个设置运作正常(见清单 13)。该进程的第一步是要引入一些数据。因此,首先创建一个目录来容纳您的输入数据(称为 input),创建方式是使用 hadoop-0.20 实用程序的 mkdir 命令。然后,使用 hadoop-0.20 的 put 命令将两个文件放到 HDFS 中。您可以使用 Hadoop 实用程序的 ls 命令检查输入目录的内容。
更多精彩
赞助商链接