系统日常维护.docx
- 文档编号:2153980
- 上传时间:2022-10-27
- 格式:DOCX
- 页数:11
- 大小:109.18KB
系统日常维护.docx
《系统日常维护.docx》由会员分享,可在线阅读,更多相关《系统日常维护.docx(11页珍藏版)》请在冰豆网上搜索。
系统日常维护
系统日常维护
1.1系统启动
系统启动正常顺序如下:
首先对外设(磁盘阵列、磁带库等)加电。
交换机――网络交换机、SAN交换机
待所有外设加电自检完成后,主机加电正常起机。
为了深入检查CPU和内存等关键部件,可以在某些型号的主机上通过服务处理器菜单选择“慢”启动方式。
观察液晶显示屏代码的变化直至显示C32/C33,最后代码显示结束,液晶显示屏变为背光常亮,此时主机起机正常。
启动主机HACMP,smittyclstart,启动后可用命令tail-f/tmp/hacmp.out来检查启动情况,在HACMP未完全启动前不要进行下一步。
检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,lsvg-o等)。
检查各项业务是否工作正常。
1.2系统关闭
停应用
停止HACMP(smittyclstop),关闭后可用命令tail-f/tmp/hacmp.out来检查关闭的情况,
查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,lsvg-o等)。
在HACMP未完全停止前不要进行下一步。
关闭主机(shutdown–F)。
如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。
1.3查看系统的错误记录
在系统运行时,一些系统错误会记录在errlog中,其中有些错误还会在终端上显示。
检查错误日志可用以下命令:
#errpt|pg查看系统所有的记录
IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION
E85C5C4C0426104399PSCFGLFTSOFTWAREPROGRAMERROR
2BFA76F60426104099TSSYSPROCSYSTEMSHUTDOWNBYUSER
9D4CF6E70426104399TOerrdemonERRORLOGGINGTURNEDON
1E2AC07E0426103999TOerrdemonERRORLOGGINGTURNEDOFF
1E5EER4T0423132999TOclstrmgrOPERATORNOTIFICATION
其中IDENTIFIER为错误编号,当需要检查详细信息时常会用到。
TIMESTAMP为时间标签,它记录的是出错时间,其格式:
月月日日时时分分年年
T为Type,它记录的是错误类型
P:
为永久错误,需引起注意
T:
为临时错误。
C为Class,它记录的是错误种类,如
H:
Hardware
S:
Software
O:
Errlogercommandmessages
U:
undetermined
RESOURCE_NAME为错误来源
DESCRIPTION为错误描述
#errpt-aj
其中IDENTIFIER为错误编号,如#errpt-aj0426104399
#errpt-dH查看系统所有的硬件出错记录
1.4系统与数据备份
有效及时的系统备份是系统管理的非常重要的一环。
当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。
在以下情况下应做系统备份:
1、新装机。
在硬件及系统软件安装完成后,应做系统备份。
2、软件改动。
系统软件或应用软件有改动时,应做系统备份。
3、定期备份。
对系统进行定期备份,最好每两或三个月做一次备份。
系统备份操作介绍:
在命令行中输入smittymksysb,可见到以下画面:
mksysb–miX/dev/rmt0
按F4键,见到以下画面:
通过上下键选择备份的目标设备(选/dev/rmt0磁带机),
按回车,见到以下画面:
再按回车,开始备份,直到见到以下画面,表示备份完成:
备份注意事项:
进行系统备份无须停止业务,业务可以继续进行。
建议客户进行定期的系统备份(使用命令smittymksysb)。
客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。
smittymksysb只备份rootvg中mount起来的文件系统,其它文件系统或数据并没有做备份,所以数据备份需要另外完成(建议客户使用TAR格式)
在条件允许的情况下,最好有一盘以上备份带,以防止磁带损坏。
系统备份过程中有时候会提示有些/tmp目录下的文件无法备份,显示如下:
Creatinglistoffilestobackup...
Backingup34025files..............................
1694of34025files(4%)..............................
2733of34025files(8%).........backup:
0511-449Anerroroccurredaccessing./
tmp/sh34736.1:
Afileordirectoryinthepathnamedoesnotexist.
backup:
0511-449Anerroroccurredaccessing./tmp/sh34736.2:
Afileordirector
yinthepathnamedoesnotexist.
backup:
0511-449Anerroroccurredaccessing./tmp/sh34736.3:
Afileordirector
yinthepathnamedoesnotexist.
.....................
15458of34025files(45%)..............................
31920of34025files(93%)...........
0512-003mksysbmaynothavebeenabletoarchivesomefiles.
ThemessagesdisplayedontheStandardErrorcontainedadditional
information.
这是正常现象,备份成功。
1.5系统恢复
当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,在与客户进行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。
至此,系统可恢复正常运行。
此后,客户应当与IBM工程师再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。
1.6DUMP
当系统运行出现软件故障导致系统down机时,机器的液晶显示器会出现888102xxx0c0(xxx可能为700或其它),AIX常会将当时系统的运行情况记录下来,这就是DUMP。
当DUMP产生后,请将磁带放入磁带机,用命令#snap-a-o/dev/rmt0将DUMP文件拷贝到磁带设备/dev/rmt0中。
注明磁带机的blocksize,DUMP产生的日期和机器的型号及序列号。
同时,请用#errpt-a>/tmp/err.log将errorlog记在/tmp/err.log中,并将/tmp/err.log和/tmp/hacmp.*拷贝到软盘或磁带上。
将磁带和软盘交给IBM工程师。
1.7日常检查服务器状态的项目及其相关命令
1运行lsdev命令配以各种参数,所列各种设备状态都应为Available。
#lsdev–C–H–Sa列出系统中可用设备。
#lsdev–Ccprocessor列出系统中的所有CPU。
#lsdev–Ccmemory列出系统中的所有内存。
#lsdev–Ccdisk列出系统中的所有硬盘。
#lsdev-Ccadapter|grepent列出系统中的所有网卡
#lsdev-Ccadapter|grepscsi列出系统中的所有SCSI卡。
#lsdev-Ccadapter|grepssa列出系统中的所有SSA卡。
2lspv命令
#lspv显示系统中可用的PV。
#lspvhdiskn显示hdiskn的具体信息。
#lsdev–Ccpdisk显示磁盘阵列的硬盘的具体信息。
对SSA硬盘的检测:
在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“lsdev–Ccpdisk“,应该可以看到所有SSA硬盘,并且状态应为Available.。
3lsattr命令
#lsattr–E–lmem0列出系统中内存mem0的大小,本项目中内存有4GB。
4lsvg命令
#lsvg列出系统中所有的vg。
#lsvgrootvg列出rootvg的详细信息。
5oslevel命令
#oslevel显示操作系统版本信息。
6netstat命令
#netstat–in显示系统中各网卡的配置。
可查看网卡的IP配置好了没有。
7通过运行#diag命令运行硬件诊断程序检测主机内所有硬件,检测结果为“Notroublefound”显示各部分工作正常。
8对SSA硬盘链路连接的校验,可以通过SSA工具里的LinkVerification来检测。
如有必要,可以用#diag运行硬件诊断程序的硬盘诊断部分进行硬盘的表面分析测试,由1%至100%,检测结果显示主机内置硬盘的所有扇区均读写正常。
lspg–a查看PAGINGSPACE的使用情况,如果使用率超过70%,就需要采取措施。
lsvg–o|lsvg–il|grep–i
查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施
检查系统硬件情况:
设备故障灯是否有亮,有无其他否异常情况。
有否发给root用户的错误报告(mail)。
检查hacmp.out,smit.log等系统文档。
用vmstat,topas命令检查系统性能,检查有否性能瓶颈。
检查能否顺利进入CDE界面,如果不能进入的话,要检查/etc/hosts表中有否错误的项目。
用smittyssaraid查看磁盘阵列RAID盘的状态是否是Good。
用sysdumpdev–l查看系统的DUMP设置是否正常。
用instfix–ik|grepML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。
用lscfg–vp|grepalter查看微代码(Microcode)是否满足稳定运行的需要。
1.8AIX维护常用命令简介
1、关机
shutdown[-option][+timemessage]
当shutdown不带任何参数时,机器会向连在其上的所有终端发出一条关机信息,接着在一分钟后关闭所有终端,杀掉所有在系统上运行的进程,卸除所有文件系统,最后关闭系统。
你也可以在shutdown后加上一些参数,它们分别是:
-F:
快速
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统 日常 维护