本节和大家一起学习一下Hadoop伪分布安装模式,上节我们介绍了Hadoop本地模式的安装,通过本节介绍大家可以做一下对比,看一下那种模式安装适合你,欢迎大家一起来学习Hadoop伪分布安装。为了便于大家理解,先看一下Hadoop的概念。
Hadoop伪分布安装模式
Hadoop概念
一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。下面就hadoop0.20.1为蓝本,介绍在UbuntuLinux9.10下hadoop伪分布安装的方法。
支持的平台:
Linux,可作为开发和产品部署的平台;
Windows,可作为开发平台。
事先需要的软件:
1.JavaTM1.6.x,必须安装,建议选择Sun公司发行的Java版本;
2.ssh必须安装,并保证sshd运行,hadoop将以ssh进行通讯;
3.如果是windows,则需要装Cygwin,用以支持shell命令。
安装可用的模式:
1.本地模式;
2.伪分布模式;
3.全分布模式。
Hadoop伪分布模式安装步骤:
1.将hadoop安装包解压缩到某目录下;
2.修改conf/hadoop-env.sh文件,exportJAVA_HOME=那行设置正确的JAVA_HOME位置
3.修改conf/core-site.xml,改为:
- viewplaincopytoclipboardprint?
- <configuration>
- <property>
- <name>fs.default.name</name>
- <value>hdfs://localhost:9000</value>
- </property>
- </configuration>
- <configuration>
- <property>
- <name>fs.default.name</name>
- <value>hdfs://localhost:9000</value>
- </property>
- </configuration>
4.修改conf/hdfs-site.xml,改为:
- viewplaincopytoclipboardprint?
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- </configuration>
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- </configuration>
5.修改conf/mapred-site.xml,改为:
- viewplaincopytoclipboardprint?
- <configuration>
- <property>
- <name>mapred.job.tracker</name>
- <value>localhost:9001</value>
- </property>
- </configuration>
- <configuration>
- <property>
- <name>mapred.job.tracker</name>
- <value>localhost:9001</value>
- </property>
- </configuration>
6.设置本机ssh本机无密码
先测试一下,输入命令sshlocalhost,如果提示密码,则需要进行以下操作:
$ssh-keygen-tdsa-P''-f~/.ssh/id_dsa
$cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys
7.格式化namenode:
$bin/hadoopnamenode-format
8.启动Hadoop:
$bin/start-all.sh
至此,hadoop伪分布模式安装完毕!
【编辑推荐】