IBMRS6000小型机质量检查标准V10评估版.docx
- 文档编号:30599560
- 上传时间:2023-08-18
- 格式:DOCX
- 页数:13
- 大小:31.69KB
IBMRS6000小型机质量检查标准V10评估版.docx
《IBMRS6000小型机质量检查标准V10评估版.docx》由会员分享,可在线阅读,更多相关《IBMRS6000小型机质量检查标准V10评估版.docx(13页珍藏版)》请在冰豆网上搜索。
IBMRS6000小型机质量检查标准V10评估版
资料编码
产品名称
业务与软件产品
使用对象
技术支援
产品版本
编写部门
集成产品部
资料版本
V0.9
业务与软件产品
IBMRS6000小型机日维检查指导(评估版)
拟制:
卢山
日期:
2004-12-29
审核:
日期:
审核:
日期:
批0准:
日期:
修订记录
日期
修订版本
作者
描述
华为技术有限公司
版权所有XX
IBMRS6000小型机日维检查步骤
评估版
IBMRS6000小型机日维检查步骤
评估版
日维检查目的:
其出发点是从常见问题入手,对常见的、可预测问题,提供一种简单可行的对照原则。
检测系统中出现的明显瓶颈或故障,通过常用的命令和维护方法,建立尽早发现问题的途径。
.
日检
检查系统错误报告
当IBM小型机出现重要告警事件时会通过errdemon上报错误消息,可以使用errpt查看消息内容。
#errpt|more根据TIMESTAMP字段看是否有新增的事件输出,注:
某些重要的系统维护操作也会产生新记录,可以结合errpt–aj详细输出结果判断是否属于错误信息。
#errpt–TPERM–dH查看是否有新增的硬件故障
#errpt–aj
参考:
需要进一步定位故障时,使用errpt–aj指定IDENTIFIER号码查看故障详细信息,重点关注ResourceName、Description、ProbableCauses、FailureCauses、RecommendedActions了解故障产生的原因以及建议的处理方法
参考值:
errpt无近期输出,errpt–TPERM–dH无新内容显示
是否有给root发送的mail,并关注内容
原因同上
参考值:
无近期的mail输出
检查磁盘剩余空间
磁盘空间满会引发各种莫名其妙的问题,需要关注
df–k查看磁盘空间使用率Used%是否有大于70-90%,根据需要删除没有用的文件或扩展文件系统
参考值:
无使用率大于70-90%的文件系统
忙时/闲时磁盘、CPU、内存、swap区的使用情况
CPU、内存/swap、磁盘几个子系统的使用情况,与业务运行息息相关,重点关注其各项指标超出正常范围的规律,配合业务应用解决或解释出现的各类瓶颈问题。
同时也可以根据长期观测积累经验,判断当前系统是否正常,其连续观察结果可以作为后续系统升级的依据。
监测磁盘、CPU、内存、swap的使用情况,分为业务忙、闲两个时间段进行。
可以打开多个终端窗口同时执行下列操作,两个时段各取十分钟数据进行观测或记录。
忙时/闲时十分钟CPU实时观测
#vmstat2300持续观测us、sy、id、wa的使用情况,查找资源瓶颈
参考值:
id>30,wa<30参考1.4.4
忙时/闲时十分钟DISK实时观测
#iostat2300|grep–v0.0持续观测热点盘的使用情况,查找资源瓶颈
参考值:
%tm_act<70
忙时/闲时十分钟MEM实时观测
#vmstat2300持续观测内存换页操作pi、po,查找资源瓶颈
参考值:
pi=0,po=0尽可能保证pi/po趋向于零
忙时/闲时十分钟CPU平均数据
#sar–PALL1060对cpu进行六十次的十秒钟采样,计10分钟,最后一组数据为平均值
参考值:
%idle>30%,%wio<30%此项监测等同于1.4.1,重点关注最后一组数据,%wio<30是一个临界参考值,当wio超过10%,就应该予以关注。
如果wio超过40-50%,则系统处于瘫痪边缘。
忙时/闲时十分钟DISK平均数据
#sar–d1060对disk进行六十次的十秒钟采样,计十分种,最后一组数据为平均值
参考值:
%busy<70%当%busy长期处于90上时,磁盘IO处于临界值,需要分析业务或进行硬件扩容。
SWAP空间使用率检测
Swap空间使用率过高代表着内存不足,同时当swap空间满时,系统会出现异常或完全失去功能。
可以结合pi、po进一步观察。
#lsps–s查看PercentUsed项
参考值:
PersentUsed<50%对系统性能要求高时,程序多会在物理内存上运行,该值应该尽量接近1%
检查hacmp状态
clstat可以用来观测cluste各节点通讯,它的信息来源需要hacmp的三个服务进程支持。
每日检查cluster是否处于稳定状态,各接口状态是否为UP,进而保证资源的正常切换。
/usr/es/sbin/cluster/clstat-a检查输出结果是否正常(hacmp5.1)
/usr/sbin/cluster/clstat–a检查输出结果是否正常(hacmp4.4)
参考值:
1、cluster的state为UP,SubState为STABLE(稳定)
2、所有节点状态为UP
3、所有接口状态为UP(bootip可以出现down状态:
cluster的serviceip地址有两种配置模式ipaliasORnoipalias.非定制的hacmp4.5以下的版本只支持noipalias一种配置方式,hacmp4.5及hacmp5.1支持ipalias与noipalias两种配置方式.当使用noipalias配置方式配置serviceip时,当拥有资源组的节点启动后,bootip地址将被serviceip地址替换,具体表现为down)
4、所有ResourceGroup为UP
clstat命令位置随hacmp版本不同而不同,如与上述目录有出入,请在/usr/下查找该文件
检查hacmp进程
HACMP按照我司规范运行时可以看到三个进程,分别控制资源和信息传递。
同时也可以根据hacmp服务进程的状态观测cluster是否已经启动或停止。
#lssrc–gcluster可以看到info、mux、mgr三个服务进程,服务进程的名称随hacmp版本不同而不同
参考值:
三个服务进程状态应该为active,如果没有特殊要求,不应该出现其他进程
检查cluster日志/usr/es/sbin/cluster/history/*;/usr/es/adm/cluster.log;/tmp/hacmp.out;
查看是错误信息提示,无error、fail、switch、down等字样,根据行的内容判断是否正常。
(日检中只需要检查新增的记录即可)
因为hacmp.out的日值信息非常多,日常维护可以重点关注history目录下的文件(日期结尾)以及cluster.log文件。
当发现异常后再仔细核查hacmp.out文件。
参考值:
日志中无错误信息关键字出现,无例外事件产成,该项监测较为复杂,同时难度较高,需要日常维护中逐步熟悉,对比系统正常时的日值文件结构做判断。
重点关注项:
✓history目录下产生的新文件
✓
✓cluster.log文件中的FAILED(注意大小写)以及新增记录
✓
✓hacmpr.out文件中的ERROR(注意大小写)
✓
history以及cluster.log的位置随hacmp版本不同而不同,如与上述目录有出入,请在/usr/下查找该目录或文件
月检
系统备份
a)卸载不需要进行系统备份的根盘文件系统,减少备份所需空间
b)
umount
c)#mksysb-i/dev/rmt0系统备份,假设/dev/rmt0为磁带机设备
d)
参考值:
备份结束时查看屏幕打印结果,无错误信息提示
检查系统硬件指示灯
指示灯随设备的不同有多种定义方法,原则上系统中不应该出现黄色或红色的告警灯出现。
正常指示灯多为常亮绿灯(网卡以及特殊定义的指示灯除外)
参考值:
无异常指示灯
检查系统启动信息alog–otboot
#alog–otboot检查最近一次系统启动时记录的信息。
该检查项目应该在系统重启后完成,但是为了避免遗忘,所以放在月检中。
此项内容很难给出关键字进行指导,可以根据具体英文内容判断是否异常(出现异常时日志中所显示的内容格式与正常时有所不同)。
参考值:
无异常信息
错误信息:
Failurereplayinglog:
0
mount:
0506-324Cannotmount/dev/bsclv202on/usr1/sjz:
Themediaisnotformat
tedortheformatisnotcorrect.
0506-342Thesuperblockon/dev/bsclv202isdirty.Runafullfscktofix.
mount:
0506-324Cannotmount/dev/bsclv801on/usr1/zz:
Afileordirectoryint
hepathnamedoesnotexist.
mount:
0506-326+Bisnotavalidflag.
mount:
0506-326+Bisnotavalidflag.
mount:
0506-324Cannotmount/dev/lviinscuon/tellin/iinscu:
Afileordirector
yinthepathnamedoesnotexist.
SWAP分区大小检测
#lssp–s查看TotalPagingSpace项,很难说pagingspace空间到底多大才适合,可以根据业务要求设定。
小的pagingspace在出现大量异常pageout时很容易被迅速填满(如运行了错误的命令或内存溢出),pagingspace填满后系统将无法建立新的进程,导致系统崩溃。
当业务无具体要求,同时,系统磁盘空间足够的情况下,pagingspace可以取实际物理内存的1-1.5倍或以上,更多的pagingspace会给异常情况处理提供更多的时间。
参考值:
pagingspace可以取实际物理内存的1-1.5倍或以上,更多的pagingspace会给异常情况处理提供更多的时间。
操作系统时间以及cluster各节点之间的时间一致性
#date查看各节点日期、时间是否一致。
查看各节点日期、时间是否与当前标准时间相符
参考值:
时间正确、各节点时间一致
注:
根据不同的业务需要,对于时间的监测可以作为日监测或周监测内容
季检
增加操作系统配置参数检测
/etc/environment中的TZ不能有夏时制
#date方法1:
运行date命令,查看命令输出是否有"DT"字样。
#grepDT/etc/environment方法2:
查看enviromnentTZ一行是否有"DT"字样
此参数由smitchtz设定
检查AIO是否被启用
#lsdev-Ccaio查看aio状态应该是avaliable
aio0AvailableAsynchronousI/O
此参数由smittyaio设定
检查HACMP中I/Opacing:
HighWaterMark/LowWaterMArk:
33/24
#lsattr-Elsys0|grepwater查看maxoutminout的值是否为33、24
maxpout33HIGHwatermarkforpendingwriteI/OsperfileTrue
minpout24LOWwatermarkforpendingwriteI/OsperfileTrue
此参数由smittychgsys设定
检查系统Syncd:
10
#ps-ef|grepsyncd查看syncd的同步间隔,建议值为10
root930010Dec08-428:
54/usr/sbin/syncd10
此参数由/sbin/rc.boot中的nohup/usr/sbin/syncd10>/dev/null2>&1&行设定
检查sysdumpdev
#sysdumpdev–l运行sysdumpdev命令检查sysdumpdev的状态
primary/dev/lg_dumplvprimarydumpdev不得与pagingspace重叠
secondary/dev/sysdumpnull
copydirectory/var/adm/ras
forcedcopyflagTRUE
alwaysallowdumpTRUEalwaysallowdump为TRUE
dumpcompressionOFF
#sysdumpdev–esysdump大小<主dump设备大小*80%
0453-041Estimateddumpsizeinbytes:
160432128单位:
byte
主dump设备空间估算=PPSIZE*LPs单位:
M
lslv
ulimit检查
#ulimit
ulimit-a
time(seconds)unlimited
file(blocks)unlimited
data(kbytes)unlimited
stack(kbytes)132768
memory(kbytes)unlimited
coredump(blocks)unlimited
nofiles(descriptors)2000
WIN产品的特殊要求:
2)Ulimit参数修改:
/etc/security/limits文件中的stack(kbytes)参数为-1。
1.nofiles修改为-1。
修改完重起机器后,cluster软件clinfo进程不能起来,把参数值调整为默认的nofiles=2000后重起机器问题解决
2.limits文件中默认rss=-1应修改为rss=65536否则,双机不能正常切换,文档中没有有关此参数的修改说明
3.limits文件中应设置为core=2097151,否则双机切换后主机appspy进程为不可用状态。
vmtune检查
#bootinfo–K查看操作系统的内核位数,显示的结果可能有两种:
32或64,分别代表当前操作系统运行在32位内核或64位内核
#grepvmtune/etc/显示如下结果:
/usr/samples/kernel/vmtune–p10–P20当操作系统内核是32位时显示该内容
/usr/samples/kernel/vmtune64–p10–P20当操作系统内核是64位时显示该内容
WIN产品线的特殊要求
minperm/maxperm参数修改
该参数建议为:
/usr/samples/kernel/vmtune-p2-P5
逻辑卷stale检测
lsvg–l
通信检测
a)ping命令检测属于同一网络的各网卡运行状态
b)
c)#entstat-den0|grep-y'MediaSpeedRunning'检测网卡运行速率与交换机速率是否匹配
d)
e)netstat–rn检测路由是否与原设计要求相符
f)
g)rlogin检测
h)
年检(或半年检)详见《华为IBM联合巡检指导书》
增加CLUSTER切换检测
增加机房环境检测
增加硬件诊断
补丁微码检测
ROOTVG镜像检测
HOTspare磁盘检测
Snap信息收集
清洁设备
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IBMRS6000 小型机 质量 检查 标准 V10 评估