Hadoop集群部署配置文档2

　2013-06-02 20:12:32　来源：WEB开发网　　　

核心提示：Tip：9) 参数mapred.temp.dir 默认值 ${hadoop.tmp.dir}/mapred/temp

　Tip：

9) 参数mapred.temp.dir

默认值	${hadoop.tmp.dir}/mapred/temp
说明	在HDFS上一个共享的文件目录，放所有M/R相关的临时文件
生产环境配置值	/var/lib/hadoop-0.20/cache/mapred/tmp

　Tip：

2.4.2 Tasktracker相关参数

1) 参数mapred.local.dir

默认值	${hadoop.tmp.dir}/mapred/local
说明	在tasktracer上存放临时文件的目录。和hdfs-site.xml中的dfs.data.dir类似，指定多个目录(volumes) 可用“," 以加快存取速度。如果使用distributed cache的话，文件也会放在这里。
生产环境配置值	/var/lib/hadoop-0.20/cache/mapred/local

　　Tip：

2) 参数mapred.tasktracker.map.tasks.maximum

默认值	2
说明	Tasktracer可同时执行的mapper 数量。一般来说，设定值会依据CPU core 数而定。例如: 一台机器有8 core CPU，一个core跑2个processes，可使用的数量是8×2-2=14 (要减掉datanode 及 tasktracer 使用的 slot数)，则mapper 和 reducer 数量可设置为7。要注意的是，设的值越高不见的是好事，除了CPU utilization 之外，内存使用量也是考虑因素之一。假设datanode使用1G，tasktracker也用1G，mapper和reducer都默认200 MB。那总内存量为1000+1000+14×200=4800(MB)。因此要看机器规格来决定。
生产环境配置值	4

　Tip：

3) 参数mapred.tasktracker.reduce.tasks.maximum

默认值	2
说明	tasktracer可同时执行的reducer 数量。基本的配置和 mapred.tasktracker.map.tasks.maximum一样。有个可以考虑的点是，在执行M/R job里有许多只有 mapper 不需要 reducer 的，例如 HBase import/export。所以可以根据需求加大 mapper 的个数并减少 reducer 的个数。
生产环境配置值	2