hadoop学习笔记一hadoop集群环境搭建.docx
- 文档编号:3717890
- 上传时间:2022-11-24
- 格式:DOCX
- 页数:16
- 大小:402.50KB
hadoop学习笔记一hadoop集群环境搭建.docx
《hadoop学习笔记一hadoop集群环境搭建.docx》由会员分享,可在线阅读,更多相关《hadoop学习笔记一hadoop集群环境搭建.docx(16页珍藏版)》请在冰豆网上搜索。
hadoop学习笔记一hadoop集群环境搭建
Hadoop集群环境搭建
1、准备资料
虚拟机、Redhat6.5、hadoop-1.0.3、jdk1.6
2、基础环境设置
2.1配置机器时间同步
#配置时间自动同步
crontab-e
01***root/usr/sbin/ntpdatecn.pool.ntp.org
#手动同步时间
/usr/sbin/ntpdatecn.pool.ntp.org
1、安装JDK
安装
cd/home/wzq/dev
./jdk-*****.bin
设置环境变量
Vi/etc/profile/java.sh
exportJAVA_HOME=/home/wzq/dev/jdk1.6
exportPATH=$PATH:
$JAVA_HOME/bin
2.2配置机器网络环境
#配置主机名(hostname)
vi/etc/sysconfig/network
NETWORKING=yes#启动网络
NETWORKING_IPV6=no
HOSTNAME=master#主机名
#修第一台hostname为master
hostnamemaster
#检测
hostname
#使用setup命令配置系统环境
setup
#检查ip配置
cat/etc/sysconfig/network-scripts/ifcfg-eth0
#AdvancedMicroDevices[AMD]79c970[PCnet32LANCE]
DEVICE=eth0
BOOTPROTO=none
HWADDR=00:
0c:
29:
fc:
3a:
09
ONBOOT=yes
NETMASK=255.255.255.0
IPADDR=192.168.1.100
TYPE=Ethernet
#重新启动网络服务
/sbin/servicenetworkrestart
#检查网络ip配置
/sbin/ifconfig
2.3关闭防火墙
2.4配置集群hosts列表
vi/etc/hosts
#添加一下内容到vi中
192.168.1.100master
192.168.1.101node1#全分布式用到
192.168.1.101node2#全分布式用到
2.5创建用户账号和Hadoop部署目录和数据目录
#创建hadoop用户
/usr/sbin/groupaddhadoop
#分配hadoop到hadoop组中
/usr/sbin/useraddhadoop-ghadoop
#修改hadoop用户密码
Passwdhadoop
#创建hadoop代码目录结构
mkdir-p/opt/modules/hadoop/
#修改目录结构权限拥有者为为hadoop
chown-Rhadoop:
hadoop/opt/modules/hadoop/
2.6生成登陆密钥
#切换到Hadoop用户下
suhadoop
cd/home/hadoop/
#在master、node1、node2三台机器上都执行下面命令,生成公钥和私钥
ssh-keygen-q-trsa-N""-f/home/hadoop/.ssh/id_rsa
cd/home/hadoop/.ssh
#把node1、node2上的公钥拷贝到master上
scp/home/hadoop/.ssh/id_rsa.pubhadoop@master:
/home/hadoop/.ssh/node1_pubkey
scp/home/hadoop/.ssh/id_rsa.pubhadoop@master:
/home/hadoop/.ssh/node2_pubkey
#在master上生成三台机器的共钥
cpid_rsa.pubauthorized_keys
catnode1_pubkey>>authorized_keys
catnode2_pubkey>>authorized_keys
rmnode1_pubkeynode2_pubkey
#吧master上的共钥拷贝到其他两个节点上
scpauthorized_keysnode1:
/home/hadoop/.ssh/
scpauthorized_keysnode1:
/home/hadoop/.ssh/
#验证
sshmaster
sshnode1
sshnode2
没有要求输入密码登陆,表示免密码登陆成功
3、伪分布式环境搭建
3.1下载并安装JAVAJDK系统软件
#下载jdk
wgethttp:
//60.28.110.228/source/package/jdk-6u21-linux-i586-rpm.bin
#安装jdk
chmod+xjdk-6u21-linux-i586-rpm.bin
./jdk-6u21-linux-i586-rpm.bin
#配置环境变量
vi/etc/profile.d/java.sh
exportJAVA_HOME=/usr/java/jdk1.6.0_21/
exportPATH=$JAVA_HOME/bin:
$PATH
#手动立即生效
source/etc/profile
3.2Hadoop文件下载和安装
#切到hadoop安装路径下
cd/opt/modules/hadoop/
#从hadoop.apache.org下载Hadoop安装文件
wget
#如果已经下载,请复制文件到安装hadoop文件夹
cphadoop-1.0.3.tar.gz/opt/modules/hadoop/
#解压hadoop-1.0.3.tar.gz
cd/opt/modules/hadoop/
tar-xvfhadoop-1.0.3.tar.gz
#配置环境变量
vi/etc/profile.d/java.sh
exportJAVA_HOME=/usr/java/jdk1.6.0_21/
exportHADOOP_HOME=/opt/modules/hadoop/hadoop-1.0.3/
exportHADOOP_HOME_WARN_SUPPRESS=1
exportPATH=$JAVA_HOME/bin:
$HADOOP_HOME/bin:
$PATH
#手动立即生效
source/etc/profile
3.3配置hadoop-env.sh环境变量
#配置jdk。
#Thejavaimplementationtouse.Required.
exportJAVA_HOME=/usr/java/jdk1.6.0_21/
3.4HadoopCommon组件配置core-site.xml
#编辑core-site.xml文件
vi/opt/modules/hadoop/hadoop-1.0.3/conf/core-site.xml
xmlversion="1.0"?
>
xml-stylesheettype="text/xsl"href="configuration.xsl"?
>
--Putsite-specificpropertyoverridesinthisfile.-->
//master:
9000
3.5HDFSNameNode,DataNode组建配置hdfs-site.xml
vi/opt/modules/hadoop/hadoop-1.0.3/conf/hdfs-site.xml
xmlversion="1.0"?
>
xml-stylesheettype="text/xsl"href="configuration.xsl"?
>
--Putsite-specificpropertyoverridesinthisfile.-->
3.6配置MapReduce-JobTrackerTaskTracker启动配置
vi/opt/modules/hadoop/hadoop-1.0.3/conf/mapred-site.xml
xmlversion="1.0"?
>
xml-stylesheettype="text/xsl"href="configuration.xsl"?
>
--Putsite-specificpropertyoverridesinthisfile.-->
9001
3.7格式化文件
#启动切换到hadoop用户
suhadoop
#格式化文件
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoopnamenode-format
3.8Hadoop单机系统,启动执行和异常检查
#启动Masternode:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstartnamenode
#启动JobTracker:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstartjobtracker
#启动secondarynamenode:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstartsecondarynamenode
#启动DataNode&&TaskTracker:
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstartdatanode
/opt/modules/hadoop/hadoop-1.0.3/bin/hadoop-daemon.shstarttasktracker
停止,命令相同,将start换为stop
#出现错误可查看日志
tail-f/opt/modules/hadoop/hadoop-1.0.3/logs/*
#jps列出所有守护进程验证安装成功
3.9通过界面查看集群部署部署成功
#检查namenode和datanode是否正常
http:
//master:
50070/
1
#检查jobtracker和tasktracker是否正常
http:
//master:
50030/
1
3.10通过执行Hadooppi运行样例检查集群是否成功
cd/opt/modules/hadoop/hadoop-1.0.3
bin/hadoopjarhadoop-examples-1.0.3.jarpi10100
#集群正常效果如下
12/07/1510:
50:
48INFOmapred.FileInputFormat:
Totalinputpathstoprocess:
10
12/07/1510:
50:
48INFOmapred.JobClient:
Runningjob:
job_201207151041_0001
12/07/1510:
50:
49INFOmapred.JobClient:
map0%reduce0%
12/07/1510:
51:
42INFOmapred.JobClient:
map40%reduce0%
12/07/1510:
52:
07INFOmapred.JobClient:
map70%reduce13%
12/07/1510:
52:
10INFOmapred.JobClient:
map80%reduce16%
12/07/1510:
52:
11INFOmapred.JobClient:
map90%reduce16%
12/07/1510:
52:
22INFOmapred.JobClient:
map100%reduce100%
.....................
12/07/1510:
52:
28INFOmapred.JobClient:
Virtualmemory(bytes)snapshot=2155343872
12/07/1510:
52:
28INFOmapred.JobClient:
Mapoutputrecords=20
JobFinishedin100.608seconds
EstimatedvalueofPiis3.14800000000000000000
3.11安装部署常见错误
主机文件/etc/hosts中主机列表IP错误。
物理硬盘的权限均应为hadoop:
hadoop,执行启动也应su为hadoop用户。
比较常见是出现权限错误导致无法启动故障。
如果遇到服务无法启动。
请检查$HADOOP_HOME/logs/目录具体日志情况。
tail-n100$HADOOP_HOME/logs/*namenode*#检查namenode服务日志
tail-n100$HADOOP_HOME/logs/*datanode*#检查datanode服务日志
Tail-n100$HADOOP_HOME/logs/*jobtracker*#检查jobtracker服务日志
4、全分布式环境搭建
4.1配置master集群服务器地址stop-all.shstart-all.sh的时候调用
#设置hadoopsecondarynodehostname批量启动的地址
#配置secondary的地址
vi/opt/modules/hadoop/hadoop-1.0.3/conf/masters
master
#配置datanode和tasktracker的地址
vi/opt/modules/hadoop/hadoop-1.0.3/conf/slaves
node1
node2
4.2复制masterhadoop到node1node2节点服务器上
#切换到hadoop用户下
suhadoop
scp-r/opt/modules/hadoop/hadoop-1.0.3/node1:
/opt/modules/hadoop/
scp-r/opt/modules/hadoop/hadoop-1.0.3/node1:
/opt/modules/hadoop/
4.3格式化node1node2上的HDFS文件系统
hadoopnamenode–format
4.4批量启动和关闭集群
#全部启动
/opt/modules/hadoop/hadoop-1.0.3/bin/start-all.sh
#全部关闭
/opt/modules/hadoop/hadoop-1.0.3/bin/stop-all.sh
4.5通过界面查看集群部署部署成功
#检查namenode和datanode是否正常
http:
//master:
50070/
#检查jobtracker和tasktracker是否正常
http:
//master:
50030/
hadoopfs-ls/
hadoopfs-mkdir/data/
5自动化安装脚本
为加快服务器集群的安装和部署,会使用自动化安装脚本安装。
以下为自动化部署脚本样例。
脚本中#红色部分具体参考以上配置做具体修改。
本脚本里面的安装包用于64位服务器安装,32位安装包需要单独下载修改。
5.1master服务器自动安装脚本
#hadoop_install.sh,将以下放入shell脚本中并执行。
vihadoop_install.sh
#!
/bin/sh
yum-yinstalllrzszgccgcc-c++libstdc++-develntp#安装gcc基础环境
echo"01***root/usr/sbin/ntpdatecn.pool.ntp.org">>/etc/crontab#配置时间同步
/usr/sbin/ntpdatecn.pool.ntp.org#手动同步时间
/usr/sbin/groupaddhadoop#新增hadoop群组
/usr/sbin/useraddhadoop-ghadoop#新增Hadoop用户并绑定到hadoop群中
#安装依赖包并设置hadoop用户
mkdir-p/opt/modules/hadoop/
mkdir-p/opt/data/hadoop/
chownhadoop:
hadoop/opt/data/hadoop/
#配置/etc/hostsip对应主机名称
echo-e"127.0.0.1\tlocalhost.localdomainlocalhost
#:
:
1\tlocalhost6.localdomain6localhost6
#机架1
192.168.1.100\thadoopmaster
192.168.1.101\thadoopslave
192.168.1.101\thadoop-node-101
">/etc/hosts
#获取服务器外网IP并替换host中127.0.0.1collect-*
IP=`/sbin/ifconfigeth0|grep"inetaddr"|awk-F":
"'{print$2}'|awk-F""'{print$1}'`
sed-i"s/^127.0.0.1\tcollect/${IP}\tcollect/g"/etc/hosts
echo"----------------envinitfinishandpreparesuhadoop---------------"
HADOOP=/home/hadoop
cd$HADOOP
#生成密钥
sudo-uhadoopmkdir.ssh
ssh-keygen-q-trsa-N""-f$HADOOP/.ssh/id_rsa
Cd$HADOOP/.ssh/&&echo"#此处需要catmasterid_rsa.pub">$HADOOP/.ssh/authorized_keys
chmodgo-rwx$HADOOP/.ssh/authorized_keys#修改文件权限
cd$HADOOP
#下载已经配置好的Hadoop集群包
wgethttp:
//60.28.110.228/source/package/hadoop/hadoop_gz.tar.gz
wgethttp:
//60.28.110.228/source/package/hadoop/hadoop_rpm.tar.gz
mkdir$HADOOP/hadoop
mv*.tar.gz$HADOOP/hadoop
cd$HADOOP/hadoop
tarzxvfhadoop_rpm.tar.gz
tarzxvfhadoop_gz.tar.gz
rpm-ivhjdk-6u21-linux-amd64.rpm
rpm-ivhlrzsz-0.12.20-19.x86_64.rpm
rpm-ivhlzo-2.04-1.el5.rf.x86_64.rpm
rpm-ivhhadoop-gpl-packaging-0.2.8-1.x86_64.rpm
tarxzvflzo-2.06.tar.gz
cdlzo-2.06&&./configure--enable-shared&&make&&makeinstall
cp/usr/local/lib/liblzo2.*/usr/lib/
cd..
tarxzvflzop-1.03.tar.gz
cdlzop-1.03
./configure&&make&&makeinstall&&cd..
chown-Rhadoop:
hadoop/opt/modules/hadoop/
cphadoop-node-0.20.203.0.tar.gz/opt/modules/hadoop/
cd/opt/modules/hadoop/&&tar-xzvfhadoop-node-0.20.203.0.tar.gz
chown-Rhadoop:
hadoop/opt/modules/hadoop/
chown-Rhadoop:
hadoop/home/hadoop
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop 学习 笔记 集群 环境 搭建
![提示](https://static.bdocx.com/images/bang_tan.gif)