IBM小型机巡检手册.docx
- 文档编号:3565306
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:9
- 大小:19.82KB
IBM小型机巡检手册.docx
《IBM小型机巡检手册.docx》由会员分享,可在线阅读,更多相关《IBM小型机巡检手册.docx(9页珍藏版)》请在冰豆网上搜索。
IBM小型机巡检手册
河南建行IBM小型机日常维护
第一篇:
日常维护部分
第二篇:
故障处理部分
第1章AIX系统管理日常工作(检查篇)
1.1常用的命令
CPU
Memory
Disk
Network
标准UNIX命令(包括HP、SUN等)
vmstat,sar,ps
vmstat,ps
iostat,sar,vmstat,
netstat,nfsstat
AIX详细输出
Tprof
svmon,rmss
filemon,fileplace
entstat
AIX非常详细输出
syscalls,trace,emstat
trace
trace
trace,iptrace
分析工具
topas
topas
topas
topas
1.2语法介绍
1.2.1vmstat:
检查内存、CPU、进程状态
#vmstat26
kthrmemorypagefaultscpu
---------------------------------------------------------------
rbavmfrerepipofrsrcyinsycsussyidwa
10281328127700000013237567651340
20281328127700000012733813199000
20281328127700000013231613199000
20281328127700000012031712699000
20281328127700000014631612799000
20281328127700000013031712599000
20281328127700000013531612799000
20281328127700000012931712499000
20281328127700000013330412799000
r:
正在运行的进程
b:
被阻挡的进程
avm:
活动的虚内存,单位4kb
fre:
自由列表,位4kb
po:
页换出
pi:
页换入
sy:
系统占用CPU
id:
空闲CPU
wa:
等待的CPU
1.2.2sar:
检查CPU、IO
例如:
sar-u130
sar-PALL110
语法:
sar-[abckmqruvwyA]intevalrepetition
-bbuffer活动
-c系统调用
-k内核进程统计.
-m消息及信号量活动
-q正在运行的队列数及等待队列数
-r页交换统计
-uCPU利用
-PCPU负载.
1.2.3PS:
检查进程状态命令
ps:
显示当前SHELL重所有进程
ps-ef:
显示系统中所有进程,-f显示更详细信息
ps-uoracle:
显示oracle用户进程
ps–emoTHREAD:
显示线程信息
psau;psvg:
按使用时间显示进程(最近一次调用)
psaux:
按使用时间显示进程(进程启动)
1.2.4svmon:
显示进程占用内存
svmon–G:
显示系统占用内存
svmon-Ccommand_name:
显示某个用户进程占用内存
svmon-Ppid
显示某个进程占用内存
svmon–S:
显示段占用内存
1.2.5iostat:
显示磁盘IO
tty:
tintoutavg-cpu:
%user%sys%idle%iowait
0.04.00.91.395.42.5
Disks:
%tm_actKbpstpsKb_readKb_wrtn
hdisk058.4218.341.2172920
hdisk116.885.621.44280
hdisk250.6223.955.6110020
hdisk316.885.621.44280
hdisk40.00.00.000
hdisk543.4279.169.813960
hdisk60.00.00.000
hdisk716.427.220.20136
hdisk80.00.00.000
hdisk99.4156.011.40780
hdisk1016.427.220.20136
cd00.00.00.000
1.2.6netstat,entstat:
显示网卡信息
netstaten0:
显示en0信息
netstat–s:
显示网络信息
netstat-m
显示网络buffers.
netstat-i
显示网卡状态
netstat-Ien01
显示eno网卡塞(1秒间隔)
1.2.7no:
显示tcpip参数设置
no–a:
显示tcpip所有参数当前设置
no-otcp_keepalivetime=7200000
设置tcp_keepalivetime等于3600000秒
no-d恢复默认值
注:
该方法在重启后失效
1.2.8其它命令
检查文件系统
df-k
检查设备
lsdev-C
检查物理卷
lspv
检查交换区
lsps–alsps-s
检查系统硬件配置
lscfg–vpprtconf
检查软件
lslpp-l
操作系统版本检查
oslevel–runame-a
操作系统补丁检查
Instfix–i|grepML
检查系统盘的镜像
lspv–lrootvg
检查逻辑卷
lsvg–o|lsvg–il|more
系统dump分区检查
sysdevdump–l
sysdumpdev-e
系统引导顺序检查
bootlist–mnoraml-o
AIO参数检查
lsattr-Elaio0
IO参数设置
smittychgsys
syncddaemon的数据刷新频率
more/sbin/rc.boot
IBM双机检查
lssrc–gcluster
/usr/sbin/cluster/clstat-a
系统日志检查
errpt|more
errpt–dHerrpt-dS
系统关键进程检查
Ps–ef|grepsrcmst
Ps–ef|greperrdemon
操作系统备份与恢复
1.3用SMIT备份
#smittymksysb进行系统备份
当COMMANDSTATUS页面中Command:
OK出现后,表示备份成功。
取出制作完毕的磁带,在磁带上的标签上注明备份机器的名称和序列号
1.4手工备份
#mksysb–i/dev/rmt0
1.5恢复系统
#bootinfo–e
检查系统所带的磁带机是否能启动系统,如果返回值是1,表示该磁带机支持启动系统,如果返回值是0,就是不支持。
插入备份带,检查设备启动顺序:
#bootlist-mservice-o
如果需要,将启动顺序改为从磁带启动:
#bootlist-mservicermt0
重启机器,系统从磁带读数据,根据提示恢复系统。
故障处理部分
1.6收集故障信息对于判断诊断故障原因修复系统非常重要
1.7系统故障记录(errorlog)
errdemon进程在系统启动时自动运行
记录包括硬件软件及其他操作信息
故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析
errpt命令的使用(普通用户权限也可使用)
#errpt|more列出简短出错信息
ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION
192AC0710723100300T0errdemonErrorloggingturnedoff
0E017ED10720131000PHmem2Memoryfailure
9DBCFDEE0701000000T0errdemonErrorloggingturnedon
038F25800624131000UHscdisk0UNDETERMINEDERROR
AA8AB2410405130900TOOPERATOROPERATORNOTIFICATION
TIMESTAMP:
MMDDHHMMYY(月日时分年
T类型:
P永久;T临时;U未知永久性的错误应引起重视
C分类:
H硬件;S软件;O用户;U未知
#errpt-dH列出所有硬件出错信息
#errpt-dS列出所有软件出错信息
#errpt-ajERROR_ID列出详细出错信息
#errpt-aj0502f666<---ERROR_ID用大小写均可
例
LABEL:
SCSI_ERR1
ID:
0502F666
Date/Time:
Jun1922:
29:
51
SequenceNumber:
95
MachineID:
123456789012
NodeID:
host1
Class:
H
Type:
PERM
ResourceName:
scsi0
ResourceClass:
adapter
ResourceType:
hscsi
Location:
00-08
VPD:
<---VirtalProductData
DeviceDriverLevel00
DiagnosticLevel00
DisplayableMessageSCSI
ECLevelC25928
FRUNumber30F8834
ManufacturerIBM97F
PartNumber59F4566
SerialNumber00002849
ROSLevelandID24
Read/WriteRegisterPtr0120
Description
ADAPTERERROR
ProbableCauses
ADAPTERHARDWARECABLE
CABLETERMINATORDEVICE
FailureCauses
ADAPTER
CABLELOOSEORDEFECTIVE
RecommendedActions
PERFORMPROBLEMDETERMINATIONPROCEDURES
CHECKCABLEANDITSCONNECTIONS
DetailData
SENSEDATA
000000000000000000000000000000000000000000000000
1.8控制面板上的LED代码
8位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代
码
4位代码通常是Exxx
3位代码通常为0yyy只看后3位
8位和4位代码可查看系统服务手册(ServiceGuide)
3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBus
System)
闪动的888,系统崩溃硬件或软件原因造成按reset键会显示更多内容
888-102一般为软件故障888-102-207例外
系统会产生一个dump
888-102-xxx-0C9系统正在做dump,请等待
888-102-xxx-0C0系统dump完成可关电重启
888-103或105
硬件故障一般有SRN代码及位置代码
1.9SMS(SystemManagementService)故障记录
如何进入SMS菜单
当主控台出现键盘图标后(LED显示E1F1时)按1键
选择"Utilities"
选择"ErrorLog",抄下8位故障代码
在SMS中还可以更改系统启动顺序表
1.10MAIL
系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查
修复系统会定时提醒root
1.11运行故障诊断程序(Diagnostic)对系统硬件进行检查和诊断
当发现有硬件故障时应立即使用diag
#diag
>选高级诊断AdvanceDiagnostic)
>选问题诊断ProblemDetermination)或
选系统检查SystemVerification)
(选PD会对系统错误记录进行分析)
diag运行后会给出SRN代码故障设备名称及百分比地址代码等
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IBM 小型机 巡检 手册