Hadoop集群部署配置文档2
2013-06-02 20:12:32 来源:WEB开发网核心提示:Tip:4) 参数mapred.child.java.opts 默认值 -Xmx200m
Tip:
4) 参数mapred.child.java.opts
默认值
|
-Xmx200m
|
说明
|
tasktracer会依每个要执行的java task启动独立的child process,这个值可以设定每个process的JVM参数。
|
生产环境配置值
|
-server -Xmx640m -Djava.net.preferIPv4Stack=true
|
Tip:
5) 参数mapred.reduce.child.java.opts
默认值
|
-Xmx200m
|
说明
|
设定每个reduce child process的JVM参数。
|
生产环境配置值
|
-Xmx1792M
|
Tip:
6) 参数mapred.job.reuse.jvm.num.tasks
默认值
|
1
|
说明
|
默认是1,表示一个JVM上最多可以顺序执行的task数目(属于同一个Job)是1。也就是说一个task启一个JVM。为每个task启动一个新的JVM将耗时1秒左右,对于运行时间较长(比如1分钟以上)的job影响不大,但如果都是时间很短的task,那么频繁启停JVM会有开销。
如果我们想使用JVM重用技术来提高性能,那么可以将mapred.job.reuse.jvm.num.tasks设置成大于1的数。这表示属于同一job的顺序执行的task可以共享一个JVM,也就是说第二轮的map可以重用前一轮的JVM,而不是第一轮结束后关闭JVM,第二轮再启动新的JVM。
那么最多一个JVM能顺序执行多少个task才关闭呢?这个值就是mapred.job.reuse.jvm.num.tasks。如果设置成-1,那么只要是同一个job的task(无所谓多少个),都可以按顺序在一个JVM上连续执行。
如果task属于不同的job,那么JVM重用机制无效,不同job的task需要不同的JVM来运行。
|
生产环境配置值
|
-1
|
Tip:
7) 参数mapred.compress.map.output
默认值
|
false
|
说明
|
决定mapper的output是否要压缩。
|
生产环境配置值
|
true
|
更多精彩
赞助商链接