书签分享收藏举报版权申诉 / 16

立即下载加入VIP,免费下载

当前位置：首页 > 高中教育 > 语文 > hadoop学习笔记一hadoop集群环境搭建.docx

hadoop学习笔记一hadoop集群环境搭建.docx

文档编号：3717890
上传时间：2022-11-24
格式：DOCX
页数：16
大小：402.50KB

《hadoop学习笔记一hadoop集群环境搭建.docx》由会员分享，可在线阅读，更多相关《hadoop学习笔记一hadoop集群环境搭建.docx（16页珍藏版）》请在冰豆网上搜索。

hadoop学习笔记一hadoop集群环境搭建.docx

hadoop学习笔记一hadoop集群环境搭建

Hadoop集群环境搭建

1、准备资料

虚拟机、Redhat6.5、hadoop-1.0.3、jdk1.6

2、基础环境设置

2.1配置机器时间同步

#配置时间自动同步

crontab-e

01***root/usr/sbin/ntpdatecn.pool.ntp.org

#手动同步时间

/usr/sbin/ntpdatecn.pool.ntp.org

1、安装JDK

安装

cd/home/wzq/dev

./jdk-*****.bin

设置环境变量

Vi/etc/profile/java.sh

exportJAVA_HOME=/home/wzq/dev/jdk1.6

exportPATH=$PATH:

$JAVA_HOME/bin

2.2配置机器网络环境

#配置主机名（hostname）

vi/etc/sysconfig/network

NETWORKING=yes#启动网络

NETWORKING_IPV6=no

HOSTNAME=master#主机名

#修第一台hostname为master

hostnamemaster

#检测

hostname

#使用setup命令配置系统环境

setup

#检查ip配置

cat/etc/sysconfig/network-scripts/ifcfg-eth0

#AdvancedMicroDevices[AMD]79c970[PCnet32LANCE]

DEVICE=eth0

BOOTPROTO=none

HWADDR=00:

0c:

29:

fc:

3a:

09

ONBOOT=yes

NETMASK=255.255.255.0

IPADDR=192.168.1.100

TYPE=Ethernet

#重新启动网络服务

/sbin/servicenetworkrestart

#检查网络ip配置

/sbin/ifconfig

2.3关闭防火墙

2.4配置集群hosts列表

vi/etc/hosts

#添加一下内容到vi中

192.168.1.100master

192.168.1.101node1#全分布式用到

192.168.1.101node2#全分布式用到

2.5创建用户账号和Hadoop部署目录和数据目录

#创建hadoop用户

/usr/sbin/groupaddhadoop

#分配hadoop到hadoop组中

/usr/sbin/useraddhadoop-ghadoop

#修改hadoop用户密码

Passwdhadoop

#创建hadoop代码目录结构

mkdir-p/opt/modules/hadoop/

#修改目录结构权限拥有者为为hadoop

chown-Rhadoop:

hadoop/opt/modules/hadoop/

2.6生成登陆密钥

#切换到Hadoop用户下

suhadoop

cd/home/hadoop/

#在master、node1、node2三台机器上都执行下面命令，生成公钥和私钥

ssh-keygen-q-trsa-N""-f/home/hadoop/.ssh/id_rsa

cd/home/hadoop/.ssh

#把node1、node2上的公钥拷贝到master上

scp/home/hadoop/.ssh/id_rsa.pubhadoop@master:

/home/hadoop/.ssh/node1_pubkey

scp/home/hadoop/.ssh/id_rsa.pubhadoop@master:

/home/hadoop/.ssh/node2_pubkey

#在master上生成三台机器的共钥

cpid_rsa.pubauthorized_keys

catnode1_pubkey>>authorized_keys

catnode2_pubkey>>authorized_keys

rmnode1_pubkeynode2_pubkey

#吧master上的共钥拷贝到其他两个节点上

scpauthorized_keysnode1:

/home/hadoop/.ssh/

scpauthorized_keysnode1:

/home/hadoop/.ssh/

#验证

sshmaster

sshnode1

sshnode2

没有要求输入密码登陆，表示免密码登陆成功

3、伪分布式环境搭建

3.1下载并安装JAVAJDK系统软件

#下载jdk

wgethttp:

//60.28.110.228/source/package/jdk-6u21-linux-i586-rpm.bin

#安装jdk

chmod+xjdk-6u21-linux-i586-rpm.bin

./jdk-6u21-linux-i586-rpm.bin

#配置环境变量

vi/etc/profile.d/java.sh

exportJAVA_HOME=/usr/java/jdk1.6.0_21/

exportPATH=$JAVA_HOME/bin:

$PATH

#手动立即生效

source/etc/profile

3.2Hadoop文件下载和安装

#切到hadoop安装路径下

cd/opt/modules/hadoop/

#从hadoop.apache.org下载Hadoop安装文件

wget

#如果已经下载,请复制文件到安装hadoop文件夹

cphadoop-1.0.3.tar.gz/opt/modules/hadoop/

#解压hadoop-1.0.3.tar.gz

cd/opt/modules/hadoop/

tar-xvfhadoop-1.0.3.tar.gz

#配置环境变量

vi/etc/profile.d/java.sh

exportJAVA_HOME=/usr/java/jdk1.6.0_21/

exportHADOOP_HOME=/opt/modules/hadoop/hadoop-1.0.3/

exportHADOOP_HOME_WARN_SUPPRESS=1

exportPATH=$JAVA_HOME/bin:

$HADOOP_HOME/bin:

$PATH

#手动立即生效

source/etc/profile

3.3配置hadoop-env.sh环境变量

#配置jdk。

#Thejavaimplementationtouse.Required.

exportJAVA_HOME=/usr/java/jdk1.6.0_21/

3.4HadoopCommon组件配置core-site.xml

#编辑core-site.xml文件

vi/opt/modules/hadoop/hadoop-1.0.3/conf/core-site.xml

xmlversion="1.0"?

>

xml-stylesheettype="text/xsl"href="configuration.xsl"?

>

--Putsite-specificpropertyoverridesinthisfile.-->

fs.default.name

hdfs:

//master:

9000

hadoopnamenode服务器地址和端口，以域名形式

3.5HDFSNameNode,DataNode组建配置hdfs-site.xml

vi/opt/modules/hadoop/hadoop-1.0.3/conf/hdfs-site.xml

xmlversion="1.0"?

>

xml-stylesheettype="text/xsl"href="configuration.xsl"?

>

--Putsite-specificpropertyoverridesinthisfile.-->

dfs.replication

2

HDFS数据保存份数，通常是3

3.6配置MapReduce-JobTrackerTaskTracker启动配置

vi/opt/modules/hadoop/hadoop-1.0.3/conf/mapred-site.xml

xmlversion="1.0"?

>

xml-stylesheettype="text/xsl"href="configuration.xsl"?

>

--Putsite-specificpropertyoverridesinthisfile.-->

mapred.job.tracker

master:

9001

JobTrackerrpc主机和端口

3.7格式化文件

#启动切换到hadoop用户

suhadoop

#格式化文件

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoopnamenode-format

3.8Hadoop单机系统,启动执行和异常检查

#启动Masternode：

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstartnamenode

#启动JobTracker：

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstartjobtracker

#启动secondarynamenode：

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstartsecondarynamenode

#启动DataNode&&TaskTracker：

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstartdatanode

/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstarttasktracker

停止，命令相同，将start换为stop

#出现错误可查看日志

tail-f/opt/modules/hadoop/hadoop-1.0.3/logs/*

#jps列出所有守护进程验证安装成功

3.9通过界面查看集群部署部署成功

#检查namenode和datanode是否正常

http:

//master:

50070/

1

#检查jobtracker和tasktracker是否正常

http:

//master:

50030/

1

3.10通过执行Hadooppi运行样例检查集群是否成功

cd/opt/modules/hadoop/hadoop-1.0.3

bin/hadoopjarhadoop-examples-1.0.3.jarpi10100

#集群正常效果如下

12/07/1510:

50:

48INFOmapred.FileInputFormat:

Totalinputpathstoprocess:

10

12/07/1510:

50:

48INFOmapred.JobClient:

Runningjob:

job_201207151041_0001

12/07/1510:

50:

49INFOmapred.JobClient:

map0%reduce0%

12/07/1510:

51:

42INFOmapred.JobClient:

map40%reduce0%

12/07/1510:

52:

07INFOmapred.JobClient:

map70%reduce13%

12/07/1510:

52:

10INFOmapred.JobClient:

map80%reduce16%

12/07/1510:

52:

11INFOmapred.JobClient:

map90%reduce16%

12/07/1510:

52:

22INFOmapred.JobClient:

map100%reduce100%

.....................

12/07/1510:

52:

28INFOmapred.JobClient:

Virtualmemory（bytes）snapshot=2155343872

12/07/1510:

52:

28INFOmapred.JobClient:

Mapoutputrecords=20

JobFinishedin100.608seconds

EstimatedvalueofPiis3.14800000000000000000

3.11安装部署常见错误

主机文件/etc/hosts中主机列表IP错误。

物理硬盘的权限均应为hadoop:

hadoop，执行启动也应su为hadoop用户。

比较常见是出现权限错误导致无法启动故障。

如果遇到服务无法启动。

请检查$HADOOP_HOME/logs/目录具体日志情况。

tail-n100$HADOOP_HOME/logs/*namenode*#检查namenode服务日志

tail-n100$HADOOP_HOME/logs/*datanode*#检查datanode服务日志

Tail-n100$HADOOP_HOME/logs/*jobtracker*#检查jobtracker服务日志

4、全分布式环境搭建

4.1配置master集群服务器地址stop-all.shstart-all.sh的时候调用

#设置hadoopsecondarynodehostname批量启动的地址

#配置secondary的地址

vi/opt/modules/hadoop/hadoop-1.0.3/conf/masters

master

#配置datanode和tasktracker的地址

vi/opt/modules/hadoop/hadoop-1.0.3/conf/slaves

node1

node2

4.2复制masterhadoop到node1node2节点服务器上

#切换到hadoop用户下

suhadoop

scp-r/opt/modules/hadoop/hadoop-1.0.3/node1:

/opt/modules/hadoop/

scp-r/opt/modules/hadoop/hadoop-1.0.3/node1:

/opt/modules/hadoop/

4.3格式化node1node2上的HDFS文件系统

hadoopnamenode–format

4.4批量启动和关闭集群

#全部启动

/opt/modules/hadoop/hadoop-1.0.3/bin/start-all.sh

#全部关闭

/opt/modules/hadoop/hadoop-1.0.3/bin/stop-all.sh

4.5通过界面查看集群部署部署成功

#检查namenode和datanode是否正常

http:

//master:

50070/

#检查jobtracker和tasktracker是否正常

http:

//master:

50030/

hadoopfs-ls/

hadoopfs-mkdir/data/

5自动化安装脚本

为加快服务器集群的安装和部署,会使用自动化安装脚本安装。

以下为自动化部署脚本样例。

脚本中#红色部分具体参考以上配置做具体修改。

本脚本里面的安装包用于64位服务器安装,32位安装包需要单独下载修改。

5.1master服务器自动安装脚本

#hadoop_install.sh,将以下放入shell脚本中并执行。

vihadoop_install.sh

#!

/bin/sh

yum-yinstalllrzszgccgcc-c++libstdc++-develntp#安装gcc基础环境

echo"01***root/usr/sbin/ntpdatecn.pool.ntp.org">>/etc/crontab#配置时间同步

/usr/sbin/ntpdatecn.pool.ntp.org#手动同步时间

/usr/sbin/groupaddhadoop#新增hadoop群组

/usr/sbin/useraddhadoop-ghadoop#新增Hadoop用户并绑定到hadoop群中

#安装依赖包并设置hadoop用户

mkdir-p/opt/modules/hadoop/

mkdir-p/opt/data/hadoop/

chownhadoop:

hadoop/opt/data/hadoop/

#配置/etc/hostsip对应主机名称

echo-e"127.0.0.1\tlocalhost.localdomainlocalhost

#:

:

1\tlocalhost6.localdomain6localhost6

#机架1

192.168.1.100\thadoopmaster

192.168.1.101\thadoopslave

192.168.1.101\thadoop-node-101

">/etc/hosts

#获取服务器外网IP并替换host中127.0.0.1collect-*

IP=`/sbin/ifconfigeth0|grep"inetaddr"|awk-F":

"'{print$2}'|awk-F""'{print$1}'`

sed-i"s/^127.0.0.1\tcollect/${IP}\tcollect/g"/etc/hosts

echo"----------------envinitfinishandpreparesuhadoop---------------"

HADOOP=/home/hadoop

cd$HADOOP

#生成密钥

sudo-uhadoopmkdir.ssh

ssh-keygen-q-trsa-N""-f$HADOOP/.ssh/id_rsa

Cd$HADOOP/.ssh/&&echo"#此处需要catmasterid_rsa.pub">$HADOOP/.ssh/authorized_keys

chmodgo-rwx$HADOOP/.ssh/authorized_keys#修改文件权限

cd$HADOOP

#下载已经配置好的Hadoop集群包

wgethttp:

//60.28.110.228/source/package/hadoop/hadoop_gz.tar.gz

wgethttp:

//60.28.110.228/source/package/hadoop/hadoop_rpm.tar.gz

mkdir$HADOOP/hadoop

mv*.tar.gz$HADOOP/hadoop

cd$HADOOP/hadoop

tarzxvfhadoop_rpm.tar.gz

tarzxvfhadoop_gz.tar.gz

rpm-ivhjdk-6u21-linux-amd64.rpm

rpm-ivhlrzsz-0.12.20-19.x86_64.rpm

rpm-ivhlzo-2.04-1.el5.rf.x86_64.rpm

rpm-ivhhadoop-gpl-packaging-0.2.8-1.x86_64.rpm

tarxzvflzo-2.06.tar.gz

cdlzo-2.06&&./configure--enable-shared&&make&&makeinstall

cp/usr/local/lib/liblzo2.*/usr/lib/

cd..

tarxzvflzop-1.03.tar.gz

cdlzop-1.03

./configure&&make&&makeinstall&&cd..

chown-Rhadoop:

hadoop/opt/modules/hadoop/

cphadoop-node-0.20.203.0.tar.gz/opt/modules/hadoop/

cd/opt/modules/hadoop/&&tar-xzvfhadoop-node-0.20.203.0.tar.gz

chown-Rhadoop:

hadoop/opt/modules/hadoop/

chown-Rhadoop:

hadoop/home/hadoop

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: hadoop 学习笔记集群环境搭建

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：hadoop学习笔记一hadoop集群环境搭建.docx
链接地址：https://www.bdocx.com/doc/3717890.html

hadoop学习笔记一hadoop集群环境搭建.docx

热门标签