详解Hadoop 2.0中的CDH4 MR配置

大数据 Hadoop
我们今天要谈到的是Hadoop 2.0中的CDH4 MR配置,另外mr1,mr2不能同时运行在hadoop资源上,但是可以调整配置,使其两者可切换启动。

MR1

cdh不建议使用MRv2.0作为生产环境,故依旧提供了mr1的包

mr1-2.0.0-mr1-cdh4.1.2.tar.gz

解压后copy至原hadoop路径,有如下文件冲突:

  1. [root@h011171 ~]# cp -r hadoop-2.0.0-cdh4.1.2/* /usr/local/hadoop/ 
  2. cp: overwrite `/usr/local/hadoop/bin/rcc’? y 
  3. cp: overwrite `/usr/local/hadoop/bin/hadoop’? y 
  4. cp: overwrite `/usr/local/hadoop/cloudera/cdh_version.properties’? y 
  5. cp: overwrite `/usr/local/hadoop/cloudera/apply-patches’? y 
  6. cp: overwrite `/usr/local/hadoop/cloudera/build.properties’? y 
  7. cp: overwrite `/usr/local/hadoop/cloudera/CHANGES.cloudera.txt’? y 

均覆盖即可

基本兼容cdh3 mr1的所有mapreduce配置,包括公平调度器/hadoop acl权限设置,

使用

  1. ./bin/start-mapred.sh 
  2. ./bin/stop-mapred.sh 

监控调度界面同原CDH3

MR2(YARN)

MRv2最基本的设计思想是将JobTracker的两个主要功能,即资源管理和作业调度/监控分成两个独立的进程。在该解决方案中包含两个组件:全局的ResourceManager(RM)和与每个应用相关的ApplicationMaster(AM)。这里的“应用”指一个单独的MapReduce作业或者DAG作业。RM和与NodeManager(NM,每个节点一个)共同组成整个数据计算框架。RM是系统中将资源分配给各个应用的最终决策者。AM实际上是一个具体的框架库,它的任务是【与RM协商获取应用所需资源】和【与NM合作,以完成执行和监控task的任务】。

架构描述如下:

配置

mapred-site.xml配置

 

  1. <!– YARN –> 
  2.   <property> 
  3. <name>mapreduce.framework.name</name> 
  4. <value>yarn</value> 
  5. </property> 
  6. <property> 
  7. <name>mapreduce.jobhistory.address</name> 
  8. <value>h011200.hebe.grid.sina.com.cn:10020</value> 
  9. </property> 
  10. <property> 
  11. <name>mapreduce.jobhistory.webapp.address</name> 
  12. <value>h011200.hebe.grid.sina.com.cn:19888</value> 
  13. </property> 

yarn-site.xml配置

 

  1. <property> 
  2. <name>yarn.resourcemanager.resource-tracker.address</name> 
  3. <value>h011200.hebe.grid.sina.com.cn:8031</value> 
  4. </property> 
  5. <property> 
  6. <name>yarn.resourcemanager.address</name>                # RMtracker地址意同jobtrakcer 
  7. <value>h011200.hebe.grid.sina.com.cn:8032</value> 
  8. </property> 
  9. <property> 
  10. <name>yarn.resourcemanager.scheduler.address</name>     # RMscheduler地址意同mv1的jobscheduler 
  11. <value>h011200.hebe.grid.sina.com.cn:8030</value> 
  12. </property> 
  13. <property> 
  14. <name>yarn.resourcemanager.admin.address</name> 
  15. <value>h011200.hebe.grid.sina.com.cn:8033</value> 
  16. </property> 
  17. <property> 
  18. <name>yarn.resourcemanager.webapp.address</name>  #RM Web地址同mr1 默认的50030 
  19. <value>h011200.hebe.grid.sina.com.cn:8088</value> 
  20. </property> 
  21.  
  22.   <property> 
  23.  
  24. <description>Classpath for typical applications.</description> 
  25. <name>yarn.application.classpath</name> 
  26. <value> 
  27. $HADOOP_CONF_DIR, 
  28. $HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*, 
  29. $HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*, 
  30. $HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*, 
  31. $YARN_HOME/*,$YARN_HOME/lib/* 
  32. </value> 
  33. </property> 
  34. <property> 
  35. <name>yarn.nodemanager.aux-services</name> 
  36. <value>mapreduce.shuffle</value> 
  37. </property> 
  38. <property> 
  39. <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> 
  40. <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
  41. </property> 
  42. <property> 
  43. <name>yarn.nodemanager.local-dirs</name> 
  44. <value>/data1/hadoop/data/yarn/local</value> 
  45. </property> 
  46. <property> 
  47. <name>yarn.nodemanager.log-dirs</name> 
  48. <value>/data1/hadoop/data/yarn/log</value> 
  49. </property> 
  50. <property> 
  51. <description>Where to aggregate logs</description> 
  52. <name>yarn.nodemanager.remote-app-log-dir</name> 
  53. <value>/var/log/hadoop-yarn/apps</value> 
  54. </property> 
  55.  
  56.   <property> 
  57. <name>yarn.app.mapreduce.am.staging-dir</name> 
  58. <value>/user</value> 
  59. </property> 
启动

 

./sbin/start-yarn.sh

会启动本地RM及远程NM

./sbin/mr-jobhistory-daemon.sh start historyserver

启动本地historyserver

RM界面

Job history界面

原文链接:http://minidb.sinaapp.com/?p=138

【编辑推荐】

责任编辑:彭凡 来源: Data&Storage
相关推荐

2013-05-27 14:19:39

Hadoop

2013-07-11 13:39:23

Hadoop

2014-01-07 11:24:45

SparkHadoop

2014-01-07 14:16:22

Hadoop2.0日志

2010-06-03 15:39:47

Hadoop配置

2012-09-18 09:55:44

Hadoop 2.0

2010-06-04 17:43:12

Hadoop集群搭建

2017-03-22 20:21:16

Hadoop框架分布式

2010-04-23 13:23:42

Silverlight

2013-05-27 14:31:34

Hadoop 2.0

2013-05-27 14:05:16

2010-11-25 16:48:20

HadoopHbase

2013-06-08 14:34:42

Hadoop 2.0

2012-05-28 09:23:40

JavaHadoopApache

2020-10-10 14:21:49

CDH6.3.2flink部署

2010-11-09 10:25:09

SlowLogMySQL

2013-05-27 15:12:49

Hadoop 2.0

2014-01-07 16:34:36

HadoopYARN

2009-10-26 15:55:43

URL Routing

2013-05-28 09:12:59

Hadoop 2.0
点赞
收藏

51CTO技术栈公众号