如何在CentOS上安装Apache Hadoop

系统 Linux Hadoop
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型在计算机集群上对大型数据集进行分布式处理。Apache™ Hadoop® 是可靠、可扩展、分布式计算的开源软件。本文将帮助你逐步在 CentOS 上安装 hadoop 并配置单节点 hadoop 集群。

Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型在计算机集群上对大型数据集进行分布式处理。Apache™ Hadoop® 是可靠、可扩展、分布式计算的开源软件。

该项目包括以下模块:

  • Hadoop Common:支持其他 Hadoop 模块的常用工具。
  • Hadoop 分布式文件系统 (HDFS™):分布式文件系统,可提供对应用程序数据的高吞吐量访问支持。
  • Hadoop YARN:作业调度和集群资源管理框架。
  • Hadoop MapReduce:一个基于 YARN 的大型数据集并行处理系统。

本文将帮助你逐步在 CentOS 上安装 hadoop 并配置单节点 hadoop 集群。

安装 Java

在安装 hadoop 之前,请确保你的系统上安装了 Java。使用此命令检查已安装 Java 的版本。

  1. java -version 
  2. java version "1.7.0_75" 
  3. Java(TM) SE Runtime Environment (build 1.7.0_75-b13) 
  4. Java HotSpot(TM) 64-Bit Server VM (build 24.75-b04, mixed mode) 

要安装或更新 Java,请参考下面逐步的说明。

***步是从 Oracle 官方网站下载***版本的 java。

  1. cd /opt/ 
  2. wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie" "http://download.oracle.com/otn-pub/java/jdk/7u79-b15/jdk-7u79-linux-x64.tar.gz" 
  3. tar xzf jdk-7u79-linux-x64.tar.gz 

需要设置使用更新版本的 Java 作为替代。使用以下命令来执行此操作。

  1. cd /opt/jdk1.7.0_79/ 
  2. alternatives --install /usr/bin/java java /opt/jdk1.7.0_79/bin/java 2 
  3. alternatives --config java  
  1. There are 3 programs which provide 'java'
  2.   Selection    Command 
  3. ----------------------------------------------- 
  4. *  1           /opt/jdk1.7.0_60/bin/java 
  5.  + 2           /opt/jdk1.7.0_72/bin/java 
  6.    3           /opt/jdk1.7.0_79/bin/java 
  7. Enter to keep the current selection[+], or type selection number: 3 [Press Enter] 

现在你可能还需要使用 alternatives 命令设置 javac 和 jar 命令路径。

  1. alternatives --install /usr/bin/jar jar /opt/jdk1.7.0_79/bin/jar 2 
  2. alternatives --install /usr/bin/javac javac /opt/jdk1.7.0_79/bin/javac 2 
  3. alternatives --set jar /opt/jdk1.7.0_79/bin/jar 
  4. alternatives --set javac /opt/jdk1.7.0_79/bin/javac 

下一步是配置环境变量。使用以下命令正确设置这些变量。

设置 JAVA_HOME 变量:

  1. export JAVA_HOME=/opt/jdk1.7.0_79 

设置 JRE_HOME 变量:

  1. export JRE_HOME=/opt/jdk1.7.0_79/jre 

设置 PATH 变量:

  1. export PATH=$PATH:/opt/jdk1.7.0_79/bin:/opt/jdk1.7.0_79/jre/bin 

安装 Apache Hadoop

设置好 java 环境后。开始安装 Apache Hadoop。

***步是创建用于 hadoop 安装的系统用户帐户。

  1. useradd hadoop 
  2. passwd hadoop 

现在你需要配置用户 hadoop 的 ssh 密钥。使用以下命令启用无需密码的 ssh 登录。

  1. su - hadoop 
  2. ssh-keygen -t rsa 
  3. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
  4. chmod 0600 ~/.ssh/authorized_keys 
  5. exit 

现在从官方网站 hadoop.apache.org 下载 hadoop ***的可用版本。

  1. cd ~ 
  2. wget http://apache.claz.org/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz 
  3. tar xzf hadoop-2.6.0.tar.gz 
  4. mv hadoop-2.6.0 hadoop 

下一步是设置 hadoop 使用的环境变量。

编辑 ~/.bashrc,并在文件末尾添加以下这些值。

  1. export HADOOP_HOME=/home/hadoop/hadoop 
  2. export HADOOP_INSTALL=$HADOOP_HOME 
  3. export HADOOP_MAPRED_HOME=$HADOOP_HOME 
  4. export HADOOP_COMMON_HOME=$HADOOP_HOME 
  5. export HADOOP_HDFS_HOME=$HADOOP_HOME 
  6. export YARN_HOME=$HADOOP_HOME 
  7. export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
  8. export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 

在当前运行环境中应用更改。

  1. source ~/.bashrc 

编辑 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 并设置 JAVA_HOME 环境变量。

  1. export JAVA_HOME=/opt/jdk1.7.0_79/ 

现在,先从配置基本的 hadoop 单节点集群开始。

首先编辑 hadoop 配置文件并进行以下更改。

  1. cd /home/hadoop/hadoop/etc/hadoop 

让我们编辑 core-site.xml。

  1. <configuration> 
  2. <property> 
  3.   <name>fs.default.name</name
  4.     <value>hdfs://localhost:9000</value> 
  5. </property> 
  6. </configuration> 

接着编辑 hdfs-site.xml:

  1. <configuration> 
  2. <property> 
  3.  <name>dfs.replication</name
  4.  <value>1</value> 
  5. </property> 
  6. <property> 
  7.   <name>dfs.name.dir</name
  8.     <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> 
  9. </property> 
  10. <property> 
  11.   <name>dfs.data.dir</name
  12.     <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> 
  13. </property> 
  14. </configuration> 

并编辑 mapred-site.xml:

  1. <configuration> 
  2.  <property> 
  3.   <name>mapreduce.framework.name</name
  4.    <value>yarn</value> 
  5.  </property> 
  6. </configuration> 

***编辑 yarn-site.xml:

  1. <configuration> 
  2.  <property> 
  3.   <name>yarn.nodemanager.aux-services</name
  4.     <value>mapreduce_shuffle</value> 
  5.  </property> 
  6. </configuration> 

现在使用以下命令格式化 namenode:

  1. hdfs namenode -format 

要启动所有 hadoop 服务,请使用以下命令:

  1. cd /home/hadoop/hadoop/sbin/start-dfs.shstart-yarn.sh 

要检查所有服务是否正常启动,请使用 jps 命令:

  1. jps 

你应该看到这样的输出。

  1. 26049 SecondaryNameNode 
  2. 25929 DataNode 
  3. 26399 Jps 
  4. 26129 JobTracker 
  5. 26249 TaskTracker 
  6. 25807 NameNode 

现在,你可以在浏览器中访问 Hadoop 服务:http://your-ip-address:8088/ 。

 

hadoop

谢谢阅读!!!

责任编辑:庞桂玉 来源: Linux中国
相关推荐

2018-05-25 11:55:41

2014-12-01 11:27:54

CentOS 7Docker

2013-03-06 13:27:03

HadoopLinux

2011-04-06 09:16:05

2017-05-03 14:00:00

LinuxCentOSElastic Sta

2021-12-04 21:45:19

UbuntuLinux开源

2013-12-04 14:45:22

2013-04-07 15:14:41

2020-03-02 14:06:54

CentOS 8FFmpegLinux

2021-02-25 08:00:00

WindowsWindows 10开发

2021-08-09 09:00:00

Kubernetes云计算架构

2019-12-02 11:50:09

CentOS 8VirtualBoxLinux

2015-12-29 13:59:53

Ubuntu 15.0CentOS 7Android Stu

2015-12-21 13:19:23

CentosRHEL 6.XWetty

2017-04-24 18:10:27

DrupalCentOSFedora

2017-04-11 13:20:06

CentOSRHELFedora

2015-12-11 13:16:10

CentOS 7Redis服务器

2015-09-10 11:38:37

iTOPCentOS开源

2016-01-08 10:37:56

FreeBSD 10.Nginx反向代理

2019-10-12 10:24:06

CentOSRHELCockpit
点赞
收藏

51CTO技术栈公众号