IBM小型机日常维护.docx
- 文档编号:10566071
- 上传时间:2023-02-21
- 格式:DOCX
- 页数:44
- 大小:106.76KB
IBM小型机日常维护.docx
《IBM小型机日常维护.docx》由会员分享,可在线阅读,更多相关《IBM小型机日常维护.docx(44页珍藏版)》请在冰豆网上搜索。
IBM小型机日常维护
IBM小型机日常维护
第一篇:
日常维护部分
第二篇:
故障处理部分
第一篇日常维护部分
目录
第1章AIX系统管理日常工作(检查篇)1
1.1常用的命令1
1.2语法介绍1
1.2.1vmstat:
检查内存、CPU、进程状态1
1.2.2sar:
检查CPU、IO2
1.2.3PS:
检查进程状态命令3
1.2.4svmon:
显示进程占用内存3
1.2.5iostat:
显示磁盘IO4
1.2.6netstat,entstat:
显示网卡信息4
1.2.7no:
显示tcpip参数设置5
1.2.8其它命令5
第2章AIX系统管理日常工作(LV篇)6
2.1IBMAIX系统管理的日常工作6
2.1.1开关机步骤6
2.1.2用户组及用户管理6
2.1.3文件系统维护6
2.1.4系统日常管理7
2.1.5系统备份7
2.1.6定时检查设备指示灯状态7
2.1.7简单故障的判断7
2.1.8熟悉ibmaix操作系统7
2.2关于IBMAIX的逻辑卷管理7
2.3LVM命令8
第3章AIX系统管理日常工作(关键参数检查篇)10
3.1AIO参数检查10
3.2磁盘阵列queue_depth参数检查11
3.3用户参数检查11
3.4激活SSAFast-WriteCache12
3.5IO参数设置12
3.6syncddaemon的数据刷新频率12
3.7检查系统硬盘的镜像12
第4章AIX系统管理日常工作(性能分析篇)13
4.1性能瓶颈定义13
4.2性能范围14
第5章AIX系统管理日常工作(SHUTDOWN篇)14
5.1概念14
5.2关机命令14
第6章AIX系统管理日常工作(备份与恢复篇)15
6.1手工备份15
第7章HACMP的双机系统的管理和维护15
7.1HACMP双机系统的启动15
7.2HACMP双机系统的关闭16
7.3察看双机系统的当前状态16
7.4HACMP环境下的排错17
7.4.1了解问题的存在17
7.4.2判断问题的出处18
AIX系统管理日常工作(检查篇)
常用的命令
CPU
Memory
Disk
Network
标准UNIX命令(包括HP、SUN等)
vmstat,sar,ps
vmstat,ps
iostat,sar,vmstat,
netstat,nfsstat
AIX详细输出
Tprof
svmon,rmss
filemon,fileplace
entstat
AIX非常详细输出
syscalls,trace,emstat
trace
trace
trace,iptrace
分析工具
topas
topas
topas
topas
语法介绍
vmstat:
检查内存、CPU、进程状态
#vmstat115
20281328127700000013330412799000
r:
正在运行的进程
b:
被阻挡的进程
avm:
活动的虚内存,单位4kb
fre:
自由列表,位4kb
po:
页换出
pi:
页换入
sy:
系统占用CPU
id:
空闲CPU
wa:
等待的CPU
sar:
检查CPU、IO
例如:
sar-u130
sar-PALL110
语法:
sar-[abckmqruvwyA]intevalrepetition
-bbuffer活动
-c系统调用
-k内核进程统计.
-m消息及信号量活动
-q正在运行的队列数及等待队列数
-r页交换统计
-uCPU利用
-PCPU负载.
PS:
检查进程状态命令
ps:
显示当前SHELL重所有进程
ps-ef:
显示系统中所有进程,-f显示更详细信息
ps-uoracle:
显示oracle用户进程
ps–emoTHREAD:
显示线程信息
psau;psvg:
按使用时间显示进程(最近一次调用)
psaux:
按使用时间显示进程(进程启动)
svmon:
显示进程占用内存
svmon–G:
显示系统占用内存
svmon-Ccommand_name:
显示某个用户进程占用内存
svmon-Ppid
显示某个进程占用内存
svmon–S:
显示段占用内存
iostat:
显示磁盘IO
tty:
tintoutavg-cpu:
%user%sys%idle%iowait
0.04.00.91.395.42.5
Disks:
%tm_actKbpstpsKb_readKb_wrtn
hdisk058.4218.341.2172920
hdisk116.885.621.44280
hdisk250.6223.955.6110020
hdisk316.885.621.44280
hdisk40.00.00.000
hdisk543.4279.169.813960
hdisk60.00.00.000
hdisk716.427.220.20136
hdisk80.00.00.000
hdisk99.4156.011.40780
hdisk1016.427.220.20136
cd00.00.00.000
netstat,entstat:
显示网卡信息
netstaten0:
显示en0信息
netstat–s:
显示网络信息
netstat-m
显示网络buffers.
netstat-i
显示网卡状态
netstat-Ien01
显示eno网卡塞(1秒间隔)
no:
显示tcpip参数设置
no–a:
显示tcpip所有参数当前设置
no-otcp_keepalivetime=7200000
设置tcp_keepalivetime等于3600000秒
no-d恢复默认值
注:
该方法在重启后失效
其它命令
检查文件系统
df-k
检查设备
lsdev-C
检查物理卷
lspv
检查交换区
lsps-a
检查配置
lscfg-vp
检查软件
lslpp-l
检查用户
who
AIX系统管理日常工作
IBMAIX系统管理的日常工作
系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面:
开关机步骤
在系统管理员控制下进行正确的操作。
文件系统维护
发现文件系统已满,应及时删除无用文件或扩大文件系统。
查看文件系统使用率命令:
df–k,查看%Used和%Iused
Filesystem1024-blocksFree%UsedIused%IusedMountedon
/dev/hd4327682018039%207013%/
/dev/hd22293760123098447%330456%/usr
/dev/hd9var327681583252%3675%/var
/dev/hd3327682330029%1102%/tmp
/dev/hd132768313845%721%/home
/dev/informixlv52428819906063%35213%/home/informix
注意系统文件系统中的//var/tmp使用率不要超过90%
系统日常管理
系统管理员最好用smit来进行系统管理。
Smit是以菜单方式工作的工具包,它包括了日常管理工作的所有命令,操作简便。
系统备份
备份是保护用户数据不丢失的重要手段。
一般系统备份的要求如下:
A.每一台机器的操作系统至少有一个全备份。
B.每天备份用户数据。
C.操作系统配置修改后重新备份操作系统。
定时检查设备指示灯状态
小型机出现硬件故障时,系统前面板上会亮一个橙色的告警灯。
液晶面板上面会有显示错误代码
简单故障的判断
详细信息见“第二部分:
故障处理指导书”
关于IBMAIX的逻辑卷管理
IBMAIX存储管理的五个基本概念:
物理卷PhysicalVolume,称为PV:
指物理上硬盘,一个硬盘就是一个PV,名字为HDISK0、HDISK1。
物理分区(PhysicalPartitions):
物理卷被划分成大小一样的物理分区PPs
逻辑卷组LogicalVolumeGroup,称为VG:
一个VG包含整数个PV,可理解为一个大硬盘。
逻辑卷LogicalVolume,称为LV:
相当于对大硬盘进行逻辑分区,一个VG里可有若干个LV,对用户讲,LV上的数据是连续的,但PV上的数据可能是分散的。
逻辑分区(LogicalPartitions):
每个LV有若干逻辑分区(LPs)组成,每个逻辑分区至少有一个PV组成。
文件系统FileSystem:
在逻辑卷的基础上,可建立文件系统JFS,然后MOUNT到一个目录下,这样就可以文件存取的方式来使用这块硬盘了。
当然,您也可以不建文件系统,而直接把LV当作裸设备,以TRUNK方式来存取数据,许多数据库都是用这种方式存取数据。
LVM命令
一般采用smit命令可对PV、VG、LV、JFS等进行图形化管理,命令如下:
smitlvm
屏幕显示如下:
AddaLogicalVolume
LogicalvolumeNAME[scratch]
*VOLUMEGROUPnametestvg
*NumberofLOGICALPARTITIONS[64]#
PHYSICALVOLUMEnames[hdisk1hdisk2hdisk3]+
LogicalvolumeTYPE[jfs]
POSITIONonphysicalvolumemiddle+
RANGEofphysicalvolumesminimum+
MAXIMUMNUMBERofPHYSICALVOLUMES[]#
touseforallocation
NumberofCOPIESofeachlogical2+
partition
MirrorWriteConsistency?
yes+
Allocateeachlogicalpartitioncopyyes+
onaSEPARATEphysicalvolume?
RELOCATEthelogicalvolumeduringyes+
reorganization?
LogicalvolumeLABEL[]
MAXIMUMNUMBERofLOGICALPARTITIONS[512]#
EnableBADBLOCKrelocation?
yes+
SCHEDULINGPOLICYforreading/writingparallel+
logicalpartitioncopies
EnableWRITEVERIFY?
no+
FilecontainingALLOCATIONMAP[]
StripeSize?
[64K]
行命令:
.lsvg:
查看vg名字
查看vg详细信息:
lsvg
查看vg内的LVs:
lsvg-l
查看vg内的PV:
lsvg-p
查看激活的VG:
lsvg–o
lspv:
查看物理卷组pg名字
查看PV详细信息:
lspvhdiskN
查看PV内的LVslspv-lhdiskN
查看PV内的PP:
lspv-phdiskN
lslv:
查看LV的信息
查看LV名字:
lsvg-l
查看LV详细信息:
lslv
查看PV内的LVs:
lslv-l
查看PV内的PP:
lslv-p
查看镜像的LV:
lslv-m
AIX系统管理日常工作(关键参数检查篇)
AIO参数检查
#lsattr-Elaio0
minserversXMINIMUMnumberofserversTrue
maxservers80MAXIMUMnumberofserversTrue
maxreqs4096MaximumnumberofREQUESTSTrue
kprocprio39ServerPRIORITYTrue
autoconfigavailableSTATEtobeconfiguredatsystemrestartTrue
fastpathenableStateoffastpathTrue
MaxServers=10*numberofdisks
MinServers=MaxServers/2
其中MaxServers最大为80
可用命令#smittyaioChange/ShowCharacteristicsofAsynchronousI/O
修改相应的值。
磁盘阵列queue_depth参数检查
假设DATAVG的RAID盘为hdisk2
#lsattr-Elhdisk2
pvid00019081a0dc91ea0000000000000000PhysicalvolumeidentifierFal
queue_depth8QueuedepthTrue
queue_depth值设置为7133硬盘个数
可用命令#chdev–lhdisk2–aqueue_depth=x修改,但VG必须为VARYOFF状态。
用户参数检查
#smittychlicense
修改MaximumnumberofFIXEDlicenses为10
#lsattr-Elsys0|grepmaxuproc
maxuproc200MaximumnumberofPROCESSESallowedperuserTrue
用#smittychgsys修改
利用lsattr-Elsys0检查maxuproc,minpout,maxpout等参数的大小。
maxuproc为每个用户的最大进程数,当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将maxpout设为33,minpout设为16,利用smittychgsys来设置。
激活SSAFast-WriteCache
利用smittyssafastw来激活每一个逻辑盘hdiskn的Fast-WriteCache:
选择硬盘后,把EnableFast-Write一项改为Yes后回车即可。
对于OPS必须关闭,对于GAILOVER或单机必须打开。
IO参数设置
HighwatermarkforpendingwriteI/Osperfile(maxpout)和LowwatermarkforpendingwriteI/Osperfile
它们缺省值为0,在双机环境中一般应设Highwatermark为33,Lowwatermark为24,这两个参数可用smittychgsys来设置。
syncddaemon的数据刷新频率
该值表示刷新内存数据到硬盘的频率,缺省为60,一般可改为20,也可根据实际情况更改。
该参数通过vi/sbin/rc.boot更改,其中一行如下:
nohup/usr/sbin/syncd60>/dev/null2>&1&
改为:
nohup/usr/sbin/syncd20>/dev/null2>&1&
检查系统硬盘的镜像
#lsvg–lrootvg
rootvg:
LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINT
hd5boot122closed/syncdN/A
hd6paging48962open/syncdN/A
paging00paging32642open/syncdN/A
hd8jfslog122open/syncdN/A
hd4jfs122open/syncd/
hd2jfs32642open/syncd/usr
hd9varjfs5102open/syncd/var
hd3jfs482open/syncd/tmp
hd1jfs122open/syncd/home
注意:
PPs为LPs的两倍,PVs为2
如果系统盘未镜像,而系统盘为18G盘,用命令镜像
#mirrorvgrootvghdisk0hdisk1
(对rootvg进行镜像)
#bosboot–a
(在两块盘上重建bootimage)
#bootlist–mnormalhdisk0hdisk1
(设置机器的启动顺序)
AIX系统管理日常工作(性能分析篇)
性能瓶颈定义
项目检查命令判断标准
CPUvmstat%user+%sysgreater大于75%
DiskI/Ovmstat%iowait大于30%
应用程序磁盘iostat%tm_act大于60%
交换区lsps-a大于60%
页交换数量iostatvmstat大于10×CPU数量
性能范围
好坏极差
CPU60%75%90%+
Disk<30%<40%<50%+
Memory010pages/秒CPU>50
AIX系统管理日常工作(SHUTDOWN篇)
概念
IBMAIX的启动分为多用户(normal)和单用户(service)模式,在正常情况下,一般选择多用户模式。
关机命令
快速关机,不警告用户
shutdown-F;halt
快速关机并重启
shutdown–Fr;reboot
警告一分钟后关机并重启
shutdown-r
发送关机命令,但不关机
shutdown-k
关机并警告用户推出
Shutdownnow
关机到单用户模式
Shutdown-m;inits;telinits
AIX系统管理日常工作
手工备份
#mksysb–i/dev/rmt0
HACMP的双机系统的管理和维护
HACMP双机系统的启动
要启动HACMP双机系统必须要有root用户的特权分别进入到系统各节点主机在命令行上执行下述命令即可。
#smitclstart或
#/usr/sbin/cluster/etc/rc.cluster-boot-N-i
注:
在双机系统中HACMP双机软件先启动的节点将成为主节点拥有资源,后启动的节点将成为备用节点。
HACMP双机系统的关闭
要关闭某节点上的HACMP双机软件必须要有该节点root用户的特权,以root用户进入到该节点主机在命令行上执行下述命令即可。
#smitclstop
或
#clstop-gr
说明:
若该节点是主节点并且备节点上的HACMP软件亦正常运行,则clstop关闭模式的三种选项行为不同。
。
forced:
是指立即关闭双机软件不调用任何客户应用的善后处理例程。
。
graceful是指在关闭双机软件时将调用客户应用预定义的善后处理例程。
。
takeover是指该节点将关闭双机软件并释放资源请求备节点进行接管。
检查HACMP双机软件在该节点是否已启,动命令如下:
#lssrc-gcluster
若是系统显示出下面类似的信息则说明HACMP双机软件已正常启动.
SubsystemGroupPIDStatus
Clstrmgrcluster22500active
Clsmuxpdcluster23674active
Clinfocluster28674active
察看双机系统的当前状态
#/usr/sbin/cluster/clstat-a
如果双机系统一切工作正常则系统将显示下述类似信息:
clstat-HACMPforAIXClusterStatusMonitor
-------------------------------------------------------------------------------------
Cluster:
cluster(80)ThuJan2008:
45:
17TAIST2000
State:
UPNodes:
2
SubState:
STABLE
Node:
oracle1State:
UP
Interface:
oracle1_svc(0)Address:
10.75.9.41
State:
UP
Interface:
oracle1_tty
(1)Address:
0.0.0.0
State:
UP
Node:
oracle2State:
UP
Interface:
oracle2_svc(0)Address:
10.75.9.41
State:
UP
Interface:
oracle2_tty
(1)Address:
0.0.0.0
State:
UP
HACMP环境下的排错
在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的
技巧是很重要的.需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP
的正常运作.
一般地,HACMP环境下的排错包括:
.了解问题的存在.
.判断问题的出处.
.解决问题.
了解问题的存在
您可以通过以下途径了解到一个CLUSTER环境下出现了问题.
.最终用户的投诉,他们无法访问应用程序.
.控制台上出现一些HACMP的信息.
1.应用服务无法访问
最终用户的抱怨通常预示CLUSTER出现了问题.他们无法正常执行应用或是无
法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错误
的信息提示?
如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在
自己的系统上重复.要知道用户应用不可用并不代表HACMP有问题.问题可能出现在
应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应
是HA排错的一部分.
2.控制台上出现一些HACMP的信息
在HACMP启动,终止或出错时,控制台上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IBM 小型机 日常 维护