HACMP配置前的准备工作.docx
- 文档编号:6245939
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:19
- 大小:23.31KB
HACMP配置前的准备工作.docx
《HACMP配置前的准备工作.docx》由会员分享,可在线阅读,更多相关《HACMP配置前的准备工作.docx(19页珍藏版)》请在冰豆网上搜索。
HACMP配置前的准备工作
HACMP配置前的准备工作:
1、HACMP配置表的准备:
与客户协商完成下表:
网络配置参数:
节点名设备名网卡标识名功能名IP地址
En0boot
Node1En0service
En1standby
En0boot
Node2En0service
En1standby
注意:
系统的主机名只能唯一的对应一个IP地址,并且为了保证X-Windows的正常启动,一般将系统的主机名和127.0.0.1对应起来
Cluster的配置参数:
参数名称参数值
ClusterID
ClusterName
NodeName
ResourceGroupName
NodeRelationshipCascadingcascading
ParticipatingNodeNames
ServiceIPlabel
Filesystems
FilesystemsConsistencyCheckfsckfsck
FilesystemsRecoveryMethodSequentialsequential
VolumeGroups
ApplicationServers
StartScript
StopScript
注意:
以上表格中的Filesystems项中仅列出了属于由HACMP管理的共享VG的部分
FS,而不是全部的FS。
在创建属于由HACMP管理的共享VG时,应将创建VG菜单中的Activatevolume
groupAUTOMATICALLYatsystemrestart选项设置为no。
当需要创建属于由HACMP管理的共享VG的FS时,应将创建FS的菜单中的
MountAutomaticallyatSystemRestart选项设为no。
2、共享磁盘阵列的准备:
A)、创建共享卷组:
#smitty
选择系统存储管理菜单:
选择逻辑卷管理器菜单:
选择卷组菜单:
选择创建卷组菜单(下图演示的在安装了PowerPath软件的EMC共享磁盘阵列上创建共享卷组):
输入卷组的名称,选择该卷组包含的物理卷名称,将在系统启动时自动激活该卷组的选项设置为No(下图显示共创建了两个共享卷组:
dbvg和lotusvg):
引用回复
2004-12-0800:
40:
14
B)、安装用户要求的应用,并且建立位于共享卷组上的文件系统和逻辑卷(一般数据库系统要求创建罗设备,此时只须建立逻辑卷,并指定逻辑卷的类型为raw,同时不允许这些在共享卷组上的文件系统在系统启动时自动挂载)。
创建位于卷组上的逻辑卷
#smittylv
选择增加逻辑卷菜单:
指定此逻辑卷所属的共享卷组卷组(这里所示的卷组是前面创建的共享卷组):
指定逻辑卷的名称和大小(如果是裸设备,需在逻辑卷类型域中输入raw):
如果此逻辑卷上含有文件系统,则创建相应的文件系统:
选择文件系统菜单:
选择增加、修改、显示和删除文件系统菜单:
选择创建日志文件系统菜单:
选择在已有逻辑卷的基础上创建文件系统菜单(一般应用程序中有超过2GB大小
的文件时,或用户要求文件系统能够支持超过2GB大小的文件时,最好先创建逻
辑卷再在逻辑卷的基础创建文件系统):
选择创建支持大文件的文件系统菜单:
指定逻辑卷的名子和文件系统的挂载点(注意系统启动时自动挂载文件系统域应设
置为no):
C)、同步逻辑卷信息:
在A机上:
#varyoffvgdbvg
#varyoffvglotusvg
在B机上:
#importvg ydbvg fhdiskpower2
#importvg ylotusvg fhdiskpower3
在B机上修改卷组的属性(由于每次运行importvg命令时,系统会自动将卷组的属性该为在系统启动时自动激活,因此每次运行完importvg命令后都必须修改卷组的属性,然后再将两台主机上的共享卷组俊处于未激活状态):
#smittyvg
选择设置卷组特性菜单:
选择更改卷组菜单
将在系统启动时自动激活卷组属性该为no:
3、网络的配置:
#smitty
选择通讯应用和服务菜单:
选择TCP/IP菜单:
选择最小的配置和启动菜单:
配置的Service卡的IP地址(一般选择en0网卡的IP地址作为Service的IP地址,en1的IP地址为Standby的IP地址):
输入主机名、ServiceIP地址,如果有网关,还需要输入缺省路由的IP地址(下图所示的缺省网关地址没有用到。
):
引用回复
2004-12-0800:
40:
39
选择配置Standby卡IP地址:
输入StandbyIP地址(需要注意的是,ServiceIP地址和StandbyIP地址不能在同一个网段):
配置Boot地址:
#smittychinet
选择Service卡,这里是en0:
将Service地址修改为Boot地址:
运行netstat命令查看系统网络配置状况(此时en0网卡的IP地址应为Boot地址,en1网卡的IP地址应为Standby地址):
编辑/etc/hosts文件:
#vi/etc/hosts
输入A机的Service地址、Standby地址、Boot地址和B机的Service地址、Standby地址和Boot地址,以及各个卡对应的卡标识(这里的卡标识不是系统的主机名):
编辑/.rhosts文件:
#vi/.rhosts
在此文件中只需要输入各个卡的卡标识就可以了,不需要输入IP地址:
测试两系统间是否可以建立相互信任:
4、配置心跳线:
#smitty
选择设备菜单:
选择TTY菜单:
选择增加一个TTY设备菜单:
选择该设备使用的通讯协议RS232:
选择该设备与系统连接的串口位置:
指定该设备的端口号:
测试心跳线是否可以正常工作:
在A机上:
#stty
在B机上:
#stty
如果在两台主机上均出现了该TTY的配置信息,则说明心跳线设置正确。
三、HACMP安装和配置:
1、HACMP的安装:
#smittyinstallp
选择安装最新的软件菜单:
选择安装媒体:
安装HACMP时,一般不选择全部安装,只安装一部分关键的软件,如cluster.adt、cluster.base、cluster.cspoc和cluster.doc.en_US:
如果安装成功,没有报错,则可以开始进行HACMP的配置,如果安装过程中遇到问题(一般提示你有些系统软件没有安装),则需要根据提示,安装某些必须的系统软件后,再重新进行HACMP的安装直至成功。
2、HACMP的配置:
引用回复
2004-12-0800:
40:
55
A)、HACMP拓扑结构的配置
#smittyhacmp
选择集群配置菜单:
选择集群拓扑结构配置菜单:
选择配置集群菜单:
选择增加一个集群的定义菜单:
输入集群的ID和集群名称:
选择集群节点菜单:
选择增加集群节点菜单:
输入所有属于该集群的节点名:
选择集群适配卡菜单:
选择增加适配卡菜单:
输入所有节点上所有卡的信息(包括Service、Boot、Standby和心跳线,其中只有Service卡需要输入修改后的硬件地址,修改后的硬件地址是指将该卡的原硬件地址的最后两位该为11后的硬件地址):
所有卡信息配置完成后,可以用显示拓扑结构菜单检查一下:
检查完毕后,需要同步配置信息,使所有节点上的集群拓扑结构均相同:
选择同步机群拓扑结构菜单:
所有选项均保持缺省:
如果同步时系统报错,需要从新检查系统的与HACMP有关的网络配置和集群的拓扑结构配置,直至同步能够顺利完成。
B)、HACMP资源组的配置:
选择集群资源组配置菜单:
选择定义资源组菜单:
选择增加一个资源组菜单:
输入资源组名、节点间的关系(如果每个节点上都运行一个不同的应用,两个节点互为备份,则需要定义两个不同的资源组,并且对应每个资源组的节点级别也不同,在前面的节点,节点的级别较高):
针对用户的应用,需要编写相应的HACMP启动和停止脚本,这些脚本负责在HACMP启动时,自动的启动应用,或在HACMP停止时,自动的停止应用(缺省的启动和停止脚本在/usr/sbin/cluster/local目录下)。
HACMP运行脚本编写好后,需要将对应不同资源组的脚本定义在不同的应用服务器中:
引用回复
2004-12-0800:
41:
14
选择增加一个应用服务器:
输入应用服务器名和HACMP启动、停止脚本的位置:
选择显示/更改资源组中的资源菜单,选择一个已定义的资源组名:
输入属于此资源组的文件系统(为与共享卷组中)、共享卷组名、应用服务器名:
选择另一个资源组名,输入相应的数据:
定义完资源组后,可以使用显示集群资源组菜单检查资源组的的配置是否正确:
左后选择同步集群资源组配置菜单,使所有节点的配置一致:
选择缺省选项:
如果同步时系统报错,需要从新检查系统的与HACMP有关的LVM配置和集群的资源组配置,直至同步能够顺利完成。
四、HACMP的测试:
1、HACMP的启动和停止:
在所有HACMP的配置结束之后需要启动HACMP:
#smittyhacmp
选择集群服务菜单:
选择启动集群服务菜单:
将启动集群信息后台守护进程域设置为true:
HACMP启动过程中可以使用tail命令监控HACMP的启动过程:
2、HACMP的测试:
HACMP正常启动后,就可以开始进行测试:
在集群中的某个节点上停止HACMP的运行,并将HACMP的关闭模式设置为takeover,如果HACMP正常运行,则在此节点上的应用会切换到另一个节点:
HACMP的停止过程也可以用tail命令进行监控:
切换完成后,可以通过netstat、lsvg命令查看HACMP切换是否正常(此时应在一个节点上看到被接管的共享卷组和被接管的Service地址):
五、HACMP的常用命令:
1、查看Cluster的运行情况:
#/usr/sbin/cluster/clinfo a
#/usr/sbin/cluster/clstat
/usr/sbin/cluster/clstat可以帮助你查看当前HACMP的节点状态。
屏幕会如下显示:
clstat-HACMPforAIXClusterStatusMonitor
----------------------------------------------------------------
Cluster:
cluster1
(1)TueJul2009:
52:
03CDT1999
State:
UPNodes:
2
SubState:
STABLE
引用回复
2004-12-0800:
41:
33
Node:
j50aState:
UP<--节点A状态
Interface:
j50_a_srv(0)Address:
192.9.200.1<--服务IP地址
State:
UP<--服务IP状态
Interface:
j50_a_tty1
(1)Address:
0.0.0.0
State:
UP<--心跳线状态
Node:
j50bState:
UP<--节点B状态
Interface:
j50_b_srv(0)Address:
192.9.200.2<--服务IP地址
State:
UP<--服务IP状态
Interface:
j50_b_tty1
(1)Address:
0.0.0.0
State:
UP<--心跳线状态
************************f/forward,b/back,r/refresh,q/quit*****************
2、启动HACMP:
#smittyclstart
注:
有两种启动HACMP的方式:
now:
手工启动HACMP
restart、both:
在系统启动时自动启动HACMP
3、停止HACMP:
#smittyclstop
注:
有三种停止方式:
graceful:
只停止本节点上HACMP的运行,并释放由本节点管理的资源,但不
允许其它节点接管。
gracefulwithtakeover:
停止本节点上HACMP的运行,释放资源,让其他节
点接管。
forced:
停止本节点上HACMP的运行,但不释放资源。
4、查看Cluster的进程状态:
#ps ef|grepcluster
注:
应有三个HACMP进程:
clstrmgr、clinfo、clsnuxpd
5、查看Cluster的日志及错误信息:
#more/tmp/hacmp.out
#more/var/adm/cluster.log
注:
可以在启动HACMP时使用#tail f/tmp/hacmp.out命令,以查看HACMP的
启动是否正常或跟踪启动时的错误信息。
6、查看Cluster运行的历史记录:
#cd/usr/sbin/cluster/history
注:
此目录下存放着每天的Cluster运行记录
7、查看Cluster运行时的网络情况及资源组的使用情况:
HACMP启动之前:
#netstat i
此时应可以看到boot和standby地址
#lsvg o
此时只能看到本地的VG
HACMP启动之后:
#netstat i
此时应可以看到service和standby地址
#lsvg o
此时应可以看到本地的VG及共享VG
8、存储和恢复Cluster的配置:
存储cluster的配置:
#smittyhacmp
引用回复
2004-12-0800:
42:
27
选择:
ClusterConfiguration→ClusterSnapshots→AddaClusterSnapshot
键入Snapshot文件名(ClusterSnapshotName)
恢复cluster的配置:
#smittyhacmp
选择:
ClusterConfiguration→ClusterSnapshots→ApplyaClusterSnapshot
键入Snapshot文件名(ClusterSnapshotName)
注:
菜单中各项的意义:
ClusterSnapshotName:
指定ClusterSnapshot的文件名
ClusterSnapshotDescription:
对ClusterSnapshot地描述
Un/ConfigureClusterResource:
是否重新配置Cluster资源
ForceApplyifverifyfails:
当Cluster校验失败时,是否强制恢复配置
9、注意:
向由HACMP管理的共享VG中增加FS时的具体步骤为:
1)、#smitty
选择:
Systemstoragemanagement
Filesystems
Add/change/show/deletefilesystems
Journaledfilesystems
Addajournaledfilesystem
Addastandardjournaledfilesystem
选择共享VG
指定FS的大小,Mountpoint
2)、#smittyclstop
停止HACMP的运行
3)、在增加FS的节点上作:
#varyoffvgSHARE_VG_NAME
#exportvgSHARE_VG_NAME
在另一个节点上作:
#importvg ySHARE_VG_NAME fhdiskX
#varyonvgSHARE_VG_NAME
作此步的目的是将新加入的FS的定义取过来
4)、#smittyhacmp
选择:
clusterconfiguration
clusterresources
defineresourcegroup
change/showresourcesforaresourcegroup
将增加的FS加入到Cluster资源组的定义中
5)、#smittyhacmp
选择:
clusterconfiguration
clusterresources
synchronizeclusterresources
同步Cluster的资源组的配置
6)、#smittyhacmp
选择:
clusterconfiguration
clusterverification
进行Cluster配置的校验
引用回复
2004-12-0800:
42:
58
六、HACMP的测试:
1、网卡故障:
网络接口故障:
用命令:
#ps ef|grepcluster,确认所有节点上的HACMP已启动。
用命令:
#errclear0,清空系统错误日志。
用命令:
#tail f/tmp/hacmp.out,监控HACMP的运行状态。
用命令:
#ifconfigen0down,宕掉Service网卡。
用命令:
#netstat in,查看Standby网卡是否接管了宕掉的Service网卡
的IP地址和MAC地址。
用命令:
#ifconfigen1down,宕掉接管了Service网卡IP地址和MAC地
址后的Standby网卡。
用命令:
#netstat in,查看Service网卡是否将IP地址和MAC地址接管
回来。
网卡连接电缆故障:
用命令:
#ps ef|grepcluster,确认所有节点上的HACMP已启动。
用命令:
#errclear0,清空系统错误日志。
用命令:
#tail f/tmp/hacmp.out,监控HACMP的运行状态。
断开与Service网卡连接的网线。
用命令:
#netstat in,查看Standby网卡是否接管了Service网卡的IP地
址和MAC地址。
重新连接上与原Service网卡连接的网线。
用命令:
#netstat in,查看此时原Service网卡的IP地址和MAC地址是
否为原Standby网卡的IP地址和Service地址。
断开与原Standby网卡连接的网线。
用命令:
#netstat in,查看Service网卡的IP地址和MAC地址是否恢复
为原来的Service网卡的IP地址和MAC地址。
重新连接上与Standby网卡连接的网线。
用命令:
#netstat in,查看Standby网卡的IP地址和MAC地址是否恢复
为原来的Standby网卡的IP地址和MAC地址。
引用回复
2004-12-0800:
43:
26
2、节点故障:
模拟操作系统崩溃:
用命令:
#ps ef|grepcluster,确认所有节点上的HACMP已启动。
用命令:
#errclear0,清空系统错误日志。
用命令:
#tail f/tmp/hacmp.out,监控HACMP的运行状态。
用命令:
#cat/etc/hosts>/dev/kmem,模拟操作系统崩溃状态。
用命令:
#netstat in、#lsvg o、#ps efAPP_PID,查看备份节点是否接
管了故障节点的Service地址、共享卷组和应用程序。
重新启动故障节点,并启动HACMP。
用命令:
#netstat in、#lsvg o、#ps efAPP_PID,查看该节点是否将原
属于他的Service地址、共享卷组和应用程序接管回来了。
模拟CPU故障:
用命令:
#ps ef|grepcluster,确认所有节点上的HACMP已启动。
用命令:
#errclear0,清空系统错误日志。
用命令:
#tail f/tmp/hacmp.out,监控HACMP的运行状态。
直接断开某个节点的电源,模拟CPU故障。
用命令:
#netstat in、#lsvg o、#ps efAPP_PID,查看备份节点是否接
管了故障节点的Service地址、共享卷组和应用程序。
重新启动故障节点,并启动HACMP。
用命令:
#netstat in、#lsvg o、#ps efAPP_PID,查看该节点是否将原
属于他的Service地址、共享卷组和应用程序接管回来了。
七、HACMP常见故障解决:
1、导致集群中节点失效的无反映开关(DeadmanSwitch)
问题现象:
集群中的节点经历着极端的性能问题,如:
大量的I/O传输、过多的错误记录、内存不足等,导致集群管理器(clstrmgr)没有得到足够的CPU处理时间,而引起无反映开关在分配的时间被重置。
某个应用程序运行权限高过集群管理器时,会导致此问题。
解决方法:
术语“DeadmanSwitch”指的是在特定集群条件下,未能及时重置该开关,引起系统宕机和转储的内核扩展部分。
无反映开关在超过了特定的时间限制后会宕掉处于挂起状态的节点。
此过程导致集群中的其它节点接管处于挂起状态节点的资源。
要解决此问题需要解决与之相关的几个性能问题:
1、调整系统I/Opacing
2、增加信息同步(syncd)的频率
引用回复
2004-12-0800:
44:
00
3、增加通信子系统使用的内存量
4、更改错误探测速率
1、调整
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HACMP 配置 准备工作