集群系统的管理与任务实验指导书.docx
- 文档编号:4381112
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:8
- 大小:19.90KB
集群系统的管理与任务实验指导书.docx
《集群系统的管理与任务实验指导书.docx》由会员分享,可在线阅读,更多相关《集群系统的管理与任务实验指导书.docx(8页珍藏版)》请在冰豆网上搜索。
集群系统的管理与任务实验指导书
集群系统的管理与任务实验指导书
1.XCAT简介
一个普通的小规模集群系统(节点小于10)在没有集群管理软件进行管理的情况下,通过手动安装、配置每台计算节点,其工作量的多少是可想而知的,以一个包含10个节点的集群系统为例,在每一台计算节点上安装操作系统、配置并行计算机环境、同步集群用户,在保证不出错的情况下,花费的时间大约是两个小时,10个计算节点一共需要20个小时左右,这还是一个比较小的集群系统,如果像石油勘探、天气预报等使用的动辄几百个节点的集群系统,照这种方法逐个配置计算节点,虽然耗费的时间太多,而且要重启计算节点也必须逐个进行,操作极其繁琐,因此需要集群管理软件来管理集群系统,提高工作效率。
XCAT(ExtremeClusterAdministrationToolkit)是由大型计算设备提供商IBM开发的一套集群管理套件,在IBM的刀片箱上集成了一个KVM的硬件模块,该模块控制着箱内的所有刀片,包括电源开关、启动顺序等,XCAT可以控制KVM模块,用户可以通过该套件实现集群计算节点的管理,使得集群管理更容易,用户只需要安装好管理节点,配置好XCAT的相关参数,就可以通过XCAT控制计算节点的安装(使用PXE网络启动和KickStart),配置、重启等操作,特别是使用XCAT安装计算节点,在管理节点上设置安装源以后,运行发送命令,计算节点就会自动从管理节点同步安装文件,自动将管理员设置好的软件包等安装到计算节点上,无需管理员诸葛安装和配置每台计算节点,为集群管理员节省了大量时间。
2.XCAT的配置
XCAT能帮助管理员有效地管理集群,避免了手动管理每一个集群计算节点的麻烦。
只需要载管理节点上安装和配置好XCAT的运行环境,就能使集群的管理更加简单,接下来介绍XCAT的安装与配置。
1)XCAT安装的前提条件
管理节点上至少要有两个网卡,一个对内部的计算节点进行管理,一个对外提供计算应用。
除此之外,还需要如下4个XCAT的软件包。
xcat-dist-core-1.2.0-RC3.tgz
xcat-dist-doc-1.2.0-RC3.tgz
xcat-dist-ibm-1.2.0-RC3.tgz
xcat-dist-oss-1.2.0-RC3.tgz
2)安装XCAT
1 解压缩前面列出的XCAT必须的4个软件包,如果将这4个软件包解压到/opt/xcat目录下则运行如下命令。
[root@manager]#tar-xzvpfxcat-dist-core-1.2.0-RC2.tgz-C/opt/xcat
[root@manager]#tar-xzvpfxcat-dist-oss-1.2.0-RC2.tgz-C/opt/xcat
[root@manager]#tar-xzvpfxcat-dist-ibm-1.2.0-RC2.tgz-C/opt/xcat
[root@manager]#tar-xzvpfxcat-dist-doc-1.2.0-RC2.tgz-C/opt/xcat
2 安装包解压完成后,会在/opt/xcat中生成安装脚本setupxcat,载生成的文件夹中进行XCAT的首次安装。
[root@manager]#./setupxcat
3 配置网络时间同步服务器(NTP)。
设置NTP的目的是为了使集群中的计算节点能自动管理节点上同步时间,避免了手动修改每台计算节点造成的时间不统一的问题,首先我们载管理节点上设置好NTP服务器端,编辑/etc/ntp.conf配置文件,载文件中输入如下内容。
#vi/etc/ntp.conf
server
server127.127.1.0
fudge127.127.1.0stratum10
driftfile/var/lib/ntp/drift
编辑ntp.conf完成后,需要载服务器开启NTP服务,使系统自动的时候自动加载NTP服务,命令如下。
#chkconfig--level345ntpdon
4 定义集群
XCAT对计算节点的管理主要依靠集群设备中硬件的定义信息表,这个表由管理员载集群管理节点上配置,表2-1列出了常用的几个表名及用途。
表2-1XCAT中的表
表名
用途
site.tab
xCAT住配置表,集群的全局定义表,是整个XCAT中最重要的一个表,它定义了rsh路径、rcp路径、安装计算节点需要的tftp目录、集群的域名解析服务器地址、管理节点的名称、使用的作业管理系统名称、资源调度器名称等
nodehm.tab
XCAT的计算节点硬件管理表,记录了节点名称、高级系统管理适配器、电源类型、终端类型等硬件信息
Nodelist.tab
定义集群中多有节点的名称、节点从属组、运行状态等
Nodepos.tab
记录了每个节点所安放的物理位置
noderes.tab
定义节点组名称、节点的启动方式、tftp服务器IP地址、nfs服务器IP地址、安装启动的网卡设备名称等
Nodetype.tab
定义节点的系统类型、构架,使用的镜像类型及从属的组名称
passwd.tab
定义各种管理设备使用的用户及密码
postscripts.tab
定义kickstar等安装结束后配置节点的相关脚本
Postdeps.tab
定义postscripts中脚本的相互依存关系
Networks.tab
定义节点所使用的网段、掩码、网关、DNS信息
conserver.tab
定义节点通过何种方式转发console信息
mp.tab
定义节点的管理设备及在插槽的位置
mpa.tab
定义管理设置的类型及使用何种方式进行管理等
定义好XCAT管理集群的表以后,就可以在系统管理节点上创建DNS服务、收集计算节点的MAC地址、创建DHCP服务等,按照传统的方式配置这些服务,不仅需要管理员非常熟悉DNS、DHCP服务器等的配置,还非常容易载配置中出现错误。
XCAT已经为管理员简化了这方面的配置,剩下的事情就交由XCAT自动执行安装配置,不仅简化了操作,还节约了时间,同时在保证所有表配置信息不出错的情况下,XCAT能将这些服务器安装、配置正确。
下面分别给出了创建DNS、收集MAC地址信息、创建DHCP服务的命令。
5 创建DNS服务。
#makedns
6 收集所有计算节点的MAC地址信息至mac.tab。
#getmacscompute
7 创建DHCP服务。
#makedhcp--new--allmac
8 第二次运行setupxcat,完成CAT的安装。
#./setupxcat\
3.使用XCAT安装计算节点
XCAT配置完成后,就可以通过XCAT安装计算节点了,在安装计算节点前,还需要设置系统安装镜像及NFS、TFTP服务等。
首先要利用Linux的安装光盘建立安装计算节点需要的操纵系统下载源,这样当所有的计算节点来时安装系统时会自动到管理节点上下载安装包到本地执行安装。
这需要在管理节点上打开TFTP服务,XCAT整合了这些繁琐的操作,只需要运行一个命令copycds就可以实现,运行完这个命令后,会在根目录下生成install文件夹,在这个文件夹下生成系统的安装源文件,以64位的RedHatEnterpriseLinux为例,生成目录为/install/rhel-SERVER5.3/x86_64,拷贝安装源文件这个过程会耗费约10分钟,具体时间根据管理节点的性能而有差异。
拷贝完安装源文件,接下来再复制XCAT目录下保存的系统安装完成后额外需要安装的软件,命令如下。
#cd/opt/xcat
#findpost-print|cpio-dump/install
安装源和额外安装的软件配置完成后,需要建立计算节点启动的镜像文件,以便于计算节点从网卡启动时,自动从管理节点上下载启动镜像文件,命令如下。
#cd/opt/xcat/stage
#./mkstage
完成上面的设置以后,为确保XCAT正常控制计算节点,可以先进行电源管理命令的测试,以查看XCAT是否正常检测计算节点的状态,在管理节点的终端输入如下命令。
#rpowercomputestat
若返回如下计算节点的状态信息,则表示XCAT已能正常控制计算节点,否则应根据错误提示,重新配置XCAT。
Bc1n1:
on
Bc1n2:
on
Bc1n3:
on
Bc1n4:
on
......
Bc1n12:
on
Bc1n13:
on
Bc1n14:
on
当XCAT所有的配置完成以后,接下来要进行计算节点的系统安装,采用XCAT来安装计算节点不仅能节省大量的时间,而且所有的计算节点的环境都是一样的,XCAT安装计算节点非常简单,只需要运行几个命令即可。
剩下的事缴费XCAT处理就可以了,首先要通过XCAT设置计算节点的启动顺序,由于计算节点是采用网卡引导安装的,因此需要将网卡的启动顺序设置在最前面,命令如下。
#rbootseqcomputen,c,f,h
该命令的作用是设置计算节点的启动顺序为network、cdrom、floppy、harddisk。
接下来执行节点的安装命令。
#nodesetbladeinstall
其中blade为计算节点所属的组,安装的目标为blade组中所有的计算节点,也可以用范围来表示,如要安装bc1n1至bc1n14的计算节点,可以用命令nodesetbc1n1-bc1n14install,执行完nodeset命令后,XCAT中的nodeset表的状态会发生改变,只要重启计算节点,从网卡启动计算节点,就可以开始计算节点的安装,可以用tabdumpnodeset命令来查看该状态,表中的内容如下。
#node,groups,status,appstatus,comments,disable
"unknown","compute,mm,maths,blade,all",,,,"1"
"bc1","mm,all","alive",,,
"bc1n8","compute,blade,all","installing",,,
"bc1n4","compute,maths,blade,all","installing",,,
"bc1n7","compute,blade,all","installing",,,
"bc1n12","compute,blade,all","installing",,,
"bc1n2","compute,maths,blade,all","installing",,,
"bc1n14","compute,blade,all","installing",,,
"bc1n9","compute,blade,all","installing",,,
"bc1n13","compute,blade,all","installing",,,
"bc1n1","compute,blade,all","installing",,,
"bc1n6","compute,blade,all","installing",,,
"bc1n10","compute,blade,all","installing",,,
"bc1n3","compute,maths,blade,all","installing",,,
"bc1n5","compute,maths,blade,all","installing",,,
"bc1n11","compute,blade,all","installing",,,
然后重新启动所有的计算节点,剩下的工作就是等待XCAT控制所有计算节点完成系统的安装,重启计算节点的命令如下。
#rpowerbladereset
安装完所有节点以后,需要配置管理节点上的资源,包括生成SSH密钥、建立NFS服务等,具体步骤如下。
1 生成root的SSHkeys。
#gensshkeysroot
在/opt/xcat/etc/下将生成一个gkh文件
2 更新/etc/exports文件。
#vi/etc/exports
/opt/xcat*(ro,no_root_squash,sync)
/usr/local*(ro,no_root_squash,sync)
/install*(ro,async,no_root_squash)
/home*(rw,no_root_squash,sync)
3 启动NFS服务或使用exportfs。
#servicenfsstart
或
#exportfs-rv
exporting*:
/xcatdata/install
exporting*:
/xcatdata/local
exporting*:
/xcatdata/home
exporting*:
/xcatdata/xcat
4 安装结束后,收集SSHhostkeys。
#makesshgkhcompute
5 测试psh,查看各节点时间是否正常。
#pshcomputedate;date
4.使用XCAT管理计算节点
XCAT安装配置完成计算节点的安装后,需要添加集群的用户,与单独的服务器不同,这不仅需要在管理节点上建立集群用户,管理节点上的用户还必需在计算节点上存储一份镜像,以便于集群用户能使用所有的节点。
首先在管理节点添加集群用户和用户组。
[root]#groupaddibm
[root]#addclusteruser
Enterusername:
hpcuser
Entergroup:
hpcuser
EnterUID(returnfornext):
501
Enterabsolutehomedirectoryroot:
/home
Enterpassed(blankforrandom):
redbook
Changingpasswordforuseribm.
passwd:
allauthenticationtokensupdatedsuccessfully.
在集群管理节点上完成了用户和组的建立,然后将所有集群用户同步到所有计算机节点上,利用命令pushuser执行。
[root]#pushuserallhpcuser
在没有安装XCAT的集群上,计算节点间的文件拷贝是比较费力的,必须重复地使用scp命令拷贝文件到各个计算节点上,虽然可以使用脚本编程语言用循环实现,但其工作量也不小,另外,有些需要在每个计算节点上依次执行的命令,如果按照传统的方式登录到计算节点上去执行,工作的难度可想而知。
针对节点间文件拷贝和命令执行不方便这两个问题,XCAT提供了pscp和psh命令,使用它们可以实现计算节点文件的并行拷贝和命令的并行执行,只需一个命令就可以向所有的节点拷贝文件或执行命令,另外,XCAT还提供了并行网络检测命令pping、节点电源控制命令rpower等,大大减轻了管理员的工作负担,命令如下。
1 并行执行psh命令可以在管理节点上并行执行计算节点上的命令。
[root]#pshbc1n1-bc1n3uname-r
Bc1n2:
2.6.9-34.EL
Bc1n1:
2.6.9-34.EL
Bc1n3:
2.6.9-34.EL
2 并行远程拷贝命令pscp可以并行拷贝文件到计算节点上。
[root]#pscp-r/usr/localbc1n1,bc1n3:
/usr/local
[root]#pscppasswdgroupall:
/etc
3 并行网络连接测试命令pping可以并行测试集群计算节点的网络状态。
[root]#ppingbc1n4-bc1n6
Bc1n4:
ping
Bc1n6:
ping
Bc1n5:
noping//表示网络不能到达
4 远程电源控制命令rpower。
rpower[noderange][on|off|state|reset|boot|cycle]
[root]#rpowerbc1n4,bc1n4stat
Bc1n14:
on
Bc1n5:
off
[root]#rpowerbc1n5on
Bc1n5:
on
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 集群 系统 管理 任务 实验 指导书