书签分享收藏举报版权申诉 / 36

立即下载加入VIP,免费下载

当前位置：首页 > 人文社科 > 军事政治 > hadoop分布式搭建教程.docx

hadoop分布式搭建教程.docx

文档编号：5870137
上传时间：2023-01-01
格式：DOCX
页数：36
大小：585.30KB

hadoop分布式搭建教程.docx

《hadoop分布式搭建教程.docx》由会员分享，可在线阅读，更多相关《hadoop分布式搭建教程.docx（36页珍藏版）》请在冰豆网上搜索。

hadoop分布式搭建教程.docx

hadoop分布式搭建教程

Hadoop、Spark集群

安装过程记录

二○一五年二月

1.软件安装版本1

2.主机规划1

3.为每台主机创建用户yarn1

3.1、创建工作组hadoop1

3.2、新建用户yarn并添加至yarn组别2

3.3、为yarn用户设置密码2

4.修改并配置主机名2

4.1、在nomenode上配置hosts和network文件2

4.2、将nomenode上的hosts文件复制到在datanode1-13上2

4.3、在datanode1-13上分别修改network文件，将HOSTNAME值修改为主机规划中对应的host名称3

5.配置SSH3

5.1分别使用yarn用户登录各节点并生成密钥文件，以namenode节点为例：

3

5.2将namenode公钥文件添加认证文件，并复制到datanode1上3

5.3将datanode1公钥文件添加认证文件，并复制到datanode2-13上3

6.上传软件安装包3

7.安装JDK3

7.1解压jdk3

7.2配置jdk环境变量4

8.安装Hadoop4

8.1解压hadoop4

8.2配置hadoop环境变量4

8.3修改hadoop配置文件4

9.安装Zookeeper8

9.1解压zookeeper8

9.2修改zookeeper配置文件9

9.4将zookeeper复制到其他节点10

9.5创建myid文件10

9.6启动zookeeper10

10.安装Hbase10

10.1解压hbase10

10.2配置hbase环境变量10

10.3修改hbase配置文件11

11.安装Spark12

11.1解压spark12

11.3修改spark配置文件12

12.分发jdk、hadoop、hbase、spark及环境变量并启动hadoop12

12.1将jdk、hadoop、hbase、spark复制到其他节点12

12.1将.bashrc文件复制到其他节点13

12.2启动hadoop13

12.2.1journalnode服务13

12.2.2格式化nn1（即namenode），并启动namenode服务14

12.2.3在nn2（即datanode1）同步nn1的元数据信息，并启动namenode服务14

12.2.4将nn1切换为Active14

12.2.5在nn1上，启动所有datanode和yarn计算框架14

13.安装MySQL14

13.1卸载自带MySQL14

13.2安装MySQL14

14.安装Hive15

14.1解压hive15

14.2修改hive配置文件15

14.3复制MySQL驱动到lib目录16

14.3配置hive环境变量16

15.安装Sqoop17

15.1解压sqoop17

15.2配置sqoop环境变量17

16.集群测试17

16.1节点进程17

16.2hadoop18

16.3spark19

16.4hive20

16.4hbase21

16.5sqoop22

1.软件安装版本

组件名

版本

备注

操作系统

RedHatEnterpriseLinuxServerrelease5.8（Tikanga）

64位

JDK

jdk-7u67-linux-x64.tar.gz

64位

Hadoop

hadoop-2.5.0-cdh5.3.1.tar.gz

Hive

hive-0.13.1-cdh5.3.1.tar.gz

ZooKeeper

zookeeper-3.4.5-cdh5.3.1.tar.gz

HBase

hbase-0.98.6-cdh5.3.1.tar.gz

Sqoop

sqoop-1.4.5-cdh5.3.1.tar.gz

Spark

spark-1.2.0-cdh5.3.1.tar.gz

Mysql

MySQL-server-community-5.0.96-1.rhel5.x86_64.rpm

MySQL-client-community-5.0.96-1.rhel4.x86_64.rpm

JDBC驱动

mysql-connector-java-5.1.32-bin.jar

ojdbc6.jar

2.主机规划

IP

HOST

模块部署

192.168.62.82

namenode

ActiveNameNode、Hive、Hmaster、Zookeeper、SparkMaster、Sqoop

192.168.62.83

datanode1

StandbyNameNode、DataNode、Zookeeper、RegionServer、SparkWorker、Sqoop

192.168.62.84

datanode2

DataNode、RegionServer、SparkWorker、Zookeeper、JournalNode、MySql

192.168.62.85

datanode3

DataNode、RegionServer、SparkWorker、Zookeeper、JournalNode

3.为每台主机创建用户yarn

3.1、创建工作组yarn

[root@localhost~]#groupaddyarn

3.2、新建用户yarn并添加至yarn组别

[root@localhost~]#useradd-gyarnyarn

3.3、为yarn用户设置密码

[root@localhost~]#passwdyarn

//回车后根据提示输入密码，本次均设置为yarn

4.修改并配置主机名

4.1、在nomenode上配置hosts和network文件

[root@localhost~]#vi/etc/hosts

#Donotremovethefollowingline,orvariousprograms

#thatrequirenetworkfunctionalitywillfail.

127.0.0.1localhost.localdomainlocalhost

:

1localhost6.localdomain6localhost6

192.168.62.82namenode

192.168.62.83datanode1

192.168.62.84datanode2

192.168.62.85datanode3

[root@localhost~]#vi/etc/sysconfig/network

HOSTNAME=namenode

//将HOSTNAME修改为namenode，保存退出vi

[root@localhost~]#hostnamenamenode

以10.85.25.161为例，其他机器操作是一样的：

[root@localhost~]#vi/etc/sysconfig/network

HOSTNAME=datanode1

//将HOSTNAME修改为namenode，保存退出vi

[root@localhost~]#hostnamedatanode1

每个分别是：

namenode1namenode2namenode3（原）

:

datanode1datanode2datanode3

（/etc/init.d/networdrestart）是否是立即生效?

4.2、将nomenode上的hosts文件复制到在datanode1-3上

[root@namenode~]#scp/etc/hostsroot@192.168.62.83:

/etc

[root@namenode~]#scp/etc/hostsroot@192.168.62.84:

/etc

[root@namenode~]#scp/etc/hostsroot@192.168.62.85:

/etc

4.3、在datanode1-3上分别修改network文件，将HOSTNAME值修改为主机规划中对应的host名称

以10.85.25.161为例，其他机器操作是一样的：

[root@localhost~]#vi/etc/sysconfig/network

HOSTNAME=datanode1

//将HOSTNAME修改为namenode，保存退出vi

[root@localhost~]#hostnamedatanode1

5.配置SSH

5.1分别使用yarn用户登录各节点并生成密钥文件，以namenode节点为例：

[yarn@namenode~]$ssh-keygen

//按提示键入回车即可

5.2将namenode公钥文件添加认证文件，并复制到datanode1上

[yarn@namenode~]$cd.ssh

[hadoop@namenode.ssh]$catid_rsa.pub>>authorized_keys

[hadoop@namenode.ssh]$scpauthorized_keysyarn@datanode1:

/home/yarn/.ssh

5.3将datanode1公钥文件添加认证文件，并复制到datanode2-3上

[yarn@datanode1~]$cd.ssh

[yarn@datanode1.ssh]$catid_rsa.pub>>authorized_keys

[yarn@datanode1.ssh]$scpauthorized_keysyarn@datanode2:

/home/yarn/.ssh

[yarn@datanode1.ssh]$scpauthorized_keysyarn@datanode3:

/home/yarn/.ssh

~/.ssh权限设置为700

~/.ssh/authorized_keys的权限设置为600

首选.ssh目录权限是700，两个dsa和rsa的私钥权限是600，其余文件权限是644.

.ssh的父目录的权限问题（我的问题就出现在这里）：

.ssh的父目录文件权限应该是755，即所属用户的用户文件（/home下属的一个用户文件）。

chmod600authorized_keys（r=4w=2x=1）

.bash_profile

sshIP

butthisdoesnotmapbacktotheaddress-POSSIBLEBREAK-INATTEMPT

解决方法：

修改本机ssh_config文件

[root@h3~]# vim /etc/ssh/ssh_config

GSSAPIAuthenticationno

rm–rf

linux安装opensshserver

sudoapt-getinstallopenssh-server

确认opensshserver是否启动?

ps-e|grepssh

[ps查看进程-e所有grep从检索结果中查找含有ssh字样的内容]

结果含有sshd字样内容则已经启动

netstat-tulp

另外还有一个方法.通过查看所有的端口来看openssh是否已经启动

启动openssh

sudo/etc/init.d/sshrestart

sudo/etc/init.d/sshstart

sudo/etc/init.d/sshstop

-------------------------------------------------------------------------------------------------------

6.上传软件安装包

在namenode节点/home/yarn目录下新建software目录，将软件上装包上传到该目录。

7.安装JDK

7.1解压jdk

[yarn@namenodesoftware]$tar-zxfjdk-7u67-linux-x64.tar.gz

[yarn@namenodesoftware]$mvjdk1.7.0_67/home/yarn

7.2配置jdk环境变量

[yarn@namenode~]$vi.bashrc

exportJAVA_HOME=/home/yarn/jdk1.7.0_67

exportPATH=$JAVA_HOME/bin:

$PATH

//添加上述两行后，保存退出vi

使环境变量生效：

[yarn@namenode~]$source.bashrc

[yarn@namenode~]$java-version

javaversion"1.7.0_67"

Java（TM）SERuntimeEnvironment（build1.7.0_67-b01）

JavaHotSpot（TM）64-BitServerVM（build24.65-b04,mixedmode）

配置jdk环境变量

方法一：

在Shell下设置变量（该方法只对当前的shell有效，如果打开另一个shell就需要重新配置）

exportJAVA_HOME=/usr/java/jdk1.7.0_40/

exportPATH=$JAVA_HOME/bin:

$PATH

exportCLASSPATH=.:

$JAVA_HOME/lib/dt.jar:

$JAVA_HOME/lib/tools.jar

（其中如果只配置exportPATH=/usr/java/jdk1.7.0_40/bin:

$PATH也可以）

方法二：

修改/etc/profile文件（该方法一劳永逸，设置一次，对所有用户有效）

用vim编辑器打开/etc/profile文件，在文件尾部加入环境变量的定义

JAVA_HOME=/usr/java/jdk1.8.0_25/

PATH=$JAVA_HOME/bin:

$PATH

CLASSPATH=.:

$JAVA_HOME/lib/dt.jar:

$JAVA_HOME/lib/tools.jar

exportJAVA_HOME

exportPATH

exportCLASSPATH

保存退出，查看java版本

[root@oraclecdrom]#java-version

javaversion"1.8.0_25"

Java（TM）SERuntimeEnvironment（build1.8.0_25-b17）

JavaHotSpot（TM）64-BitServerVM（build25.25-b02,mixedmode）

表示安装成功

方法三：

修改~/.bashrc文件（该方法修改后只对当前用户有效，对该用户的所有shell都有效）

用vim编辑器打开~/.bashrc文件

在文件尾部加入jdk环境变量的定义

setJAVA_HOME=/usr/java/jdk1.8.0_25/

exportJAVA_HOME

setPATH=$JAVA_HOME/bin:

$PATH

exportPATH

setCLASSPATH=.:

$JAVA_HOME/lib/dt.jar:

$JAVA_HOME/lib/tools.jar

exportCLASSPATH

2.修改.bash_profile文件

这种方法更为安全，它可以把使用这些环境变量的权限控制到用户级别，如果你需要给某个用户权限使用这些环境变量，你只需要修改其个人用户主目录下的.bash_profile文件就可以了。

·用文本编辑器打开用户目录下的.bash_profile文件

·在.bash_profile文件末尾加入：

exportJAVA_HOME=/usr/share/jdk1.6.0_14

exportPATH=$JAVA_HOME/bin:

$PATH

exportCLASSPATH=.:

$JAVA_HOME/lib/dt.jar:

$JAVA_HOME/lib/tools.jar

8.安装Hadoop

8.1解压hadoop

[yarn@namenodesoftware]$tar-zxfhadoop-2.5.0-cdh5.3.1.tar.gz

[yarn@namenodesoftware]$mvhadoop-2.5.0-cdh5.3.1/home/yarn

8.2配置hadoop环境变量

[yarn@namenode~]$vi.bashrc

exportHADOOP_HOME=/home/yarn/hadoop-2.5.0-cdh5.3.1

exportHADOOP_YARN_HOME=/home/yarn/hadoop-2.5.0-cdh5.3.1

exportPATH=$HADOOP_HOME/bin:

$HADOOP_HOME/sbin:

$PATH

//添加上述两行后，保存退出vi

使环境变量生效：

[yarn@namenode~]$source.bashrc

8.3修改hadoop配置文件

进入$HADOOP_HOME/etc/hadoop修改按下表修改配置文件。

[yarn@namenode~]$cd$HADOOP_HOME/etc/hadoop

需配置的文件有：

core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves和hadoop-env.sh。

该目录没有mapred-site.xml，使用以下命令生成：

[yarn@namenodehadoop]$cpmapred-site.xml.templatemapred-site.xml

文件名

文件内容

core-site.xml

fs.defaultFS

hdfs:

//namenode:

8020

hadoop.tmp.dir

/home/yarn/tmp

ha.zookeeper.quorum

namenode:

8485;datanode1:

8485;datanode2:

8485

zookeeper集群的地址和端口,最好保持基数个至少3台

hdfs-site.xml

dfs.replication

3

dfs.namenode.name.dir

/home/yarn/dfs/name

dfs.datanode.data.dir

/home/yarn/dfs/data

dfs.nameservices

hadoop-asn

dfs.ha.namenodes.hadoop-asn

nn1,nn2

dfs.namenode.rpc-address.hadoop-asn.nn1

namenode:

8020

dfs.namenode.rpc-address.hadoop-asn.nn2

datanode1:

8020

dfs.namenode.http-address.hadoop-asn.nn1

namenode:

50070

dfs.namenode.http-address.hadoop-asn.nn2

datanode1:

50070

dfs.namenode.shared.edits.dir

qjournal:

//namenode:

8485;datanode1:

8485;datanode2:

8485/hadoop-asn

dfs.ha.automatic-failover.enabled

false

dfs.journalnode.edits.dir

/home/yarn/dfs/journal/

mapred-site.xml

mapreduce.framework.name

yarn

--jobhistoryproperties-->

mapreduce.jobhistory.address

namenode:

10020

mapreduce.jobhistory.webapp.address

namenode:

19888

MapReduceJobHistoryServerWebUIhost:

port

yarn-site.xml

yarn.r

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: hadoop 分布式搭建教程

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：hadoop分布式搭建教程.docx
链接地址：https://www.bdocx.com/doc/5870137.html

hadoop分布式搭建教程.docx

热门标签