hadoop分布式搭建教程.docx
- 文档编号:5870137
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:36
- 大小:585.30KB
hadoop分布式搭建教程.docx
《hadoop分布式搭建教程.docx》由会员分享,可在线阅读,更多相关《hadoop分布式搭建教程.docx(36页珍藏版)》请在冰豆网上搜索。
hadoop分布式搭建教程
Hadoop、Spark集群
安装过程记录
二○一五年二月
目录
1.软件安装版本1
2.主机规划1
3.为每台主机创建用户yarn1
3.1、创建工作组hadoop1
3.2、新建用户yarn并添加至yarn组别2
3.3、为yarn用户设置密码2
4.修改并配置主机名2
4.1、在nomenode上配置hosts和network文件2
4.2、将nomenode上的hosts文件复制到在datanode1-13上2
4.3、在datanode1-13上分别修改network文件,将HOSTNAME值修改为主机规划中对应的host名称3
5.配置SSH3
5.1分别使用yarn用户登录各节点并生成密钥文件,以namenode节点为例:
3
5.2将namenode公钥文件添加认证文件,并复制到datanode1上3
5.3将datanode1公钥文件添加认证文件,并复制到datanode2-13上3
6.上传软件安装包3
7.安装JDK3
7.1解压jdk3
7.2配置jdk环境变量4
8.安装Hadoop4
8.1解压hadoop4
8.2配置hadoop环境变量4
8.3修改hadoop配置文件4
9.安装Zookeeper8
9.1解压zookeeper8
9.2修改zookeeper配置文件9
9.4将zookeeper复制到其他节点10
9.5创建myid文件10
9.6启动zookeeper10
10.安装Hbase10
10.1解压hbase10
10.2配置hbase环境变量10
10.3修改hbase配置文件11
11.安装Spark12
11.1解压spark12
11.3修改spark配置文件12
12.分发jdk、hadoop、hbase、spark及环境变量并启动hadoop12
12.1将jdk、hadoop、hbase、spark复制到其他节点12
12.1将.bashrc文件复制到其他节点13
12.2启动hadoop13
12.2.1journalnode服务13
12.2.2格式化nn1(即namenode),并启动namenode服务14
12.2.3在nn2(即datanode1)同步nn1的元数据信息,并启动namenode服务14
12.2.4将nn1切换为Active14
12.2.5在nn1上,启动所有datanode和yarn计算框架14
13.安装MySQL14
13.1卸载自带MySQL14
13.2安装MySQL14
14.安装Hive15
14.1解压hive15
14.2修改hive配置文件15
14.3复制MySQL驱动到lib目录16
14.3配置hive环境变量16
15.安装Sqoop17
15.1解压sqoop17
15.2配置sqoop环境变量17
16.集群测试17
16.1节点进程17
16.2hadoop18
16.3spark19
16.4hive20
16.4hbase21
16.5sqoop22
1.软件安装版本
组件名
版本
备注
操作系统
RedHatEnterpriseLinuxServerrelease5.8(Tikanga)
64位
JDK
jdk-7u67-linux-x64.tar.gz
64位
Hadoop
hadoop-2.5.0-cdh5.3.1.tar.gz
Hive
hive-0.13.1-cdh5.3.1.tar.gz
ZooKeeper
zookeeper-3.4.5-cdh5.3.1.tar.gz
HBase
hbase-0.98.6-cdh5.3.1.tar.gz
Sqoop
sqoop-1.4.5-cdh5.3.1.tar.gz
Spark
spark-1.2.0-cdh5.3.1.tar.gz
Mysql
MySQL-server-community-5.0.96-1.rhel5.x86_64.rpm
MySQL-client-community-5.0.96-1.rhel4.x86_64.rpm
JDBC驱动
mysql-connector-java-5.1.32-bin.jar
ojdbc6.jar
2.主机规划
IP
HOST
模块部署
192.168.62.82
namenode
ActiveNameNode、Hive、Hmaster、Zookeeper、SparkMaster、Sqoop
192.168.62.83
datanode1
StandbyNameNode、DataNode、Zookeeper、RegionServer、SparkWorker、Sqoop
192.168.62.84
datanode2
DataNode、RegionServer、SparkWorker、Zookeeper、JournalNode、MySql
192.168.62.85
datanode3
DataNode、RegionServer、SparkWorker、Zookeeper、JournalNode
3.为每台主机创建用户yarn
3.1、创建工作组yarn
[root@localhost~]#groupaddyarn
3.2、新建用户yarn并添加至yarn组别
[root@localhost~]#useradd-gyarnyarn
3.3、为yarn用户设置密码
[root@localhost~]#passwdyarn
//回车后根据提示输入密码,本次均设置为yarn
4.修改并配置主机名
4.1、在nomenode上配置hosts和network文件
[root@localhost~]#vi/etc/hosts
#Donotremovethefollowingline,orvariousprograms
#thatrequirenetworkfunctionalitywillfail.
127.0.0.1localhost.localdomainlocalhost
:
:
1localhost6.localdomain6localhost6
192.168.62.82namenode
192.168.62.83datanode1
192.168.62.84datanode2
192.168.62.85datanode3
[root@localhost~]#vi/etc/sysconfig/network
HOSTNAME=namenode
//将HOSTNAME修改为namenode,保存退出vi
[root@localhost~]#hostnamenamenode
以10.85.25.161为例,其他机器操作是一样的:
[root@localhost~]#vi/etc/sysconfig/network
HOSTNAME=datanode1
//将HOSTNAME修改为namenode,保存退出vi
[root@localhost~]#hostnamedatanode1
每个分别是:
namenode1namenode2namenode3(原)
:
datanode1datanode2datanode3
(/etc/init.d/networdrestart)是否是立即生效?
4.2、将nomenode上的hosts文件复制到在datanode1-3上
[root@namenode~]#scp/etc/hostsroot@192.168.62.83:
/etc
[root@namenode~]#scp/etc/hostsroot@192.168.62.84:
/etc
[root@namenode~]#scp/etc/hostsroot@192.168.62.85:
/etc
4.3、在datanode1-3上分别修改network文件,将HOSTNAME值修改为主机规划中对应的host名称
以10.85.25.161为例,其他机器操作是一样的:
[root@localhost~]#vi/etc/sysconfig/network
HOSTNAME=datanode1
//将HOSTNAME修改为namenode,保存退出vi
[root@localhost~]#hostnamedatanode1
5.配置SSH
5.1分别使用yarn用户登录各节点并生成密钥文件,以namenode节点为例:
[yarn@namenode~]$ssh-keygen
//按提示键入回车即可
5.2将namenode公钥文件添加认证文件,并复制到datanode1上
[yarn@namenode~]$cd.ssh
[hadoop@namenode.ssh]$catid_rsa.pub>>authorized_keys
[hadoop@namenode.ssh]$scpauthorized_keysyarn@datanode1:
/home/yarn/.ssh
5.3将datanode1公钥文件添加认证文件,并复制到datanode2-3上
[yarn@datanode1~]$cd.ssh
[yarn@datanode1.ssh]$catid_rsa.pub>>authorized_keys
[yarn@datanode1.ssh]$scpauthorized_keysyarn@datanode2:
/home/yarn/.ssh
[yarn@datanode1.ssh]$scpauthorized_keysyarn@datanode3:
/home/yarn/.ssh
~/.ssh权限设置为700
~/.ssh/authorized_keys的权限设置为600
首选.ssh目录权限是700,两个dsa和rsa的私钥权限是600,其余文件权限是644.
.ssh的父目录的权限问题(我的问题就出现在这里):
.ssh的父目录文件权限应该是755,即所属用户的用户文件(/home下属的一个用户文件)。
chmod600authorized_keys(r=4w=2x=1)
.bash_profile
sshIP
butthisdoesnotmapbacktotheaddress-POSSIBLEBREAK-INATTEMPT
解决方法:
修改本机ssh_config文件
[root@h3~]# vim /etc/ssh/ssh_config
GSSAPIAuthenticationno
rm–rf
linux安装opensshserver
sudoapt-getinstallopenssh-server
确认opensshserver是否启动?
ps-e|grepssh
[ps查看进程-e所有grep从检索结果中查找含有ssh字样的内容]
结果含有sshd字样内容则已经启动
netstat-tulp
另外还有一个方法.通过查看所有的端口来看openssh是否已经启动
启动openssh
sudo/etc/init.d/sshrestart
sudo/etc/init.d/sshstart
sudo/etc/init.d/sshstop
-------------------------------------------------------------------------------------------------------
6.上传软件安装包
在namenode节点/home/yarn目录下新建software目录,将软件上装包上传到该目录。
7.安装JDK
7.1解压jdk
[yarn@namenodesoftware]$tar-zxfjdk-7u67-linux-x64.tar.gz
[yarn@namenodesoftware]$mvjdk1.7.0_67/home/yarn
7.2配置jdk环境变量
[yarn@namenode~]$vi.bashrc
exportJAVA_HOME=/home/yarn/jdk1.7.0_67
exportPATH=$JAVA_HOME/bin:
$PATH
//添加上述两行后,保存退出vi
使环境变量生效:
[yarn@namenode~]$source.bashrc
[yarn@namenode~]$java-version
javaversion"1.7.0_67"
Java(TM)SERuntimeEnvironment(build1.7.0_67-b01)
JavaHotSpot(TM)64-BitServerVM(build24.65-b04,mixedmode)
配置jdk环境变量
方法一:
在Shell下设置变量(该方法只对当前的shell有效,如果打开另一个shell就需要重新配置)
exportJAVA_HOME=/usr/java/jdk1.7.0_40/
exportPATH=$JAVA_HOME/bin:
$PATH
exportCLASSPATH=.:
$JAVA_HOME/lib/dt.jar:
$JAVA_HOME/lib/tools.jar
(其中如果只配置exportPATH=/usr/java/jdk1.7.0_40/bin:
$PATH也可以)
方法二:
修改/etc/profile文件(该方法一劳永逸,设置一次,对所有用户有效)
用vim编辑器打开/etc/profile文件,在文件尾部加入环境变量的定义
JAVA_HOME=/usr/java/jdk1.8.0_25/
PATH=$JAVA_HOME/bin:
$PATH
CLASSPATH=.:
$JAVA_HOME/lib/dt.jar:
$JAVA_HOME/lib/tools.jar
exportJAVA_HOME
exportPATH
exportCLASSPATH
保存退出,查看java版本
[root@oraclecdrom]#java-version
javaversion"1.8.0_25"
Java(TM)SERuntimeEnvironment(build1.8.0_25-b17)
JavaHotSpot(TM)64-BitServerVM(build25.25-b02,mixedmode)
表示安装成功
方法三:
修改~/.bashrc文件(该方法修改后只对当前用户有效,对该用户的所有shell都有效)
用vim编辑器打开~/.bashrc文件
在文件尾部加入jdk环境变量的定义
setJAVA_HOME=/usr/java/jdk1.8.0_25/
exportJAVA_HOME
setPATH=$JAVA_HOME/bin:
$PATH
exportPATH
setCLASSPATH=.:
$JAVA_HOME/lib/dt.jar:
$JAVA_HOME/lib/tools.jar
exportCLASSPATH
2.修改.bash_profile文件
这种方法更为安全,它可以把使用这些环境变量的权限控制到用户级别,如果你需要给某个用户权限使用这些环境变量,你只需要修改其个人用户主目录下的.bash_profile文件就可以了。
·用文本编辑器打开用户目录下的.bash_profile文件
·在.bash_profile文件末尾加入:
exportJAVA_HOME=/usr/share/jdk1.6.0_14
exportPATH=$JAVA_HOME/bin:
$PATH
exportCLASSPATH=.:
$JAVA_HOME/lib/dt.jar:
$JAVA_HOME/lib/tools.jar
8.安装Hadoop
8.1解压hadoop
[yarn@namenodesoftware]$tar-zxfhadoop-2.5.0-cdh5.3.1.tar.gz
[yarn@namenodesoftware]$mvhadoop-2.5.0-cdh5.3.1/home/yarn
8.2配置hadoop环境变量
[yarn@namenode~]$vi.bashrc
exportHADOOP_HOME=/home/yarn/hadoop-2.5.0-cdh5.3.1
exportHADOOP_YARN_HOME=/home/yarn/hadoop-2.5.0-cdh5.3.1
exportPATH=$HADOOP_HOME/bin:
$HADOOP_HOME/sbin:
$PATH
//添加上述两行后,保存退出vi
使环境变量生效:
[yarn@namenode~]$source.bashrc
8.3修改hadoop配置文件
进入$HADOOP_HOME/etc/hadoop修改按下表修改配置文件。
[yarn@namenode~]$cd$HADOOP_HOME/etc/hadoop
需配置的文件有:
core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves和hadoop-env.sh。
该目录没有mapred-site.xml,使用以下命令生成:
[yarn@namenodehadoop]$cpmapred-site.xml.templatemapred-site.xml
文件名
文件内容
core-site.xml
//namenode:
8020
8485;datanode1:
8485;datanode2:
8485
hdfs-site.xml
8020
8020
50070
50070
//namenode:
8485;datanode1:
8485;datanode2:
8485/hadoop-asn
mapred-site.xml
--jobhistoryproperties-->
10020
19888
port
yarn-site.xml
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop 分布式 搭建 教程