Hadoop集群部署配置文档2
2013-06-02 20:12:32 来源:WEB开发网核心提示:Tip:9) 参数mapred.temp.dir 默认值 ${hadoop.tmp.dir}/mapred/temp
Tip:
9) 参数mapred.temp.dir
默认值
|
${hadoop.tmp.dir}/mapred/temp
|
说明
|
在HDFS上一个共享的文件目录,放所有M/R相关的临时文件
|
生产环境配置值
|
/var/lib/hadoop-0.20/cache/mapred/tmp
|
Tip:
2.4.2 Tasktracker相关参数
1) 参数mapred.local.dir
默认值
|
${hadoop.tmp.dir}/mapred/local
|
说明
|
在tasktracer上存放临时文件的目录。和hdfs-site.xml中的dfs.data.dir类似,指定多个目录(volumes) 可用“," 以加快存取速度。如果使用distributed cache的话,文件也会放在这里。
|
生产环境配置值
|
/var/lib/hadoop-0.20/cache/mapred/local
|
Tip:
2) 参数mapred.tasktracker.map.tasks.maximum
默认值
|
2
|
说明
|
Tasktracer可同时执行的mapper 数量。一般来说,设定值会依据CPU core 数而定。例如: 一台机器有8 core CPU,一个core跑2个processes,可使用的数量是8×2-2=14 (要减掉datanode 及 tasktracer 使用的 slot数),则mapper 和 reducer 数量可设置为7。要注意的是,设的值越高不见的是好事,除了CPU utilization 之外,内存使用量也是考虑因素之一。假设datanode使用1G,tasktracker也用1G,mapper和reducer都默认200 MB。那总内存量为1000+1000+14×200=4800(MB)。因此要看机器规格来决定。
|
生产环境配置值
|
4
|
Tip:
3) 参数mapred.tasktracker.reduce.tasks.maximum
默认值
|
2
|
说明
|
tasktracer可同时执行的reducer 数量。基本的配置和 mapred.tasktracker.map.tasks.maximum一样。有个可以考虑的点是,在执行M/R job里有许多只有 mapper 不需要 reducer 的,例如 HBase import/export。所以可以根据需求加大 mapper 的个数并减少 reducer 的个数。
|
生产环境配置值
|
2
|
更多精彩
赞助商链接