redhat操作系统故障分析与解决手册.docx
- 文档编号:7544517
- 上传时间:2023-01-24
- 格式:DOCX
- 页数:18
- 大小:508.01KB
redhat操作系统故障分析与解决手册.docx
《redhat操作系统故障分析与解决手册.docx》由会员分享,可在线阅读,更多相关《redhat操作系统故障分析与解决手册.docx(18页珍藏版)》请在冰豆网上搜索。
redhat操作系统故障分析与解决手册
redhat操作系统
故障分析与解决手册
更改前版本号
更改后版本号
更改人
生效日期
备注
1
1.1
薛煜昆
2015-3-2
修改内存故障检查方法
1.1
1.2
张德帅
2015-7-3
修改CPU故障检查方法
1.2
1.3
张德帅
2015-10-4
修改磁盘阵列链接方法
第一章
Linux常用命令
1.1常规查询命令
1.1.1查看修改主机IP地址命令
查看IP方法一:
[root@ahdx-yqzl~]#ifconfig
查看IP方法二:
[root@ahdx-yqzl~]#cat/etc/sysconfig/network-scripts/ifcfg-eth0
修改主机IP
[root@ahdx-yqzl~]#vi/etc/sysconfig/network-scripts/ifcfg-eth0
修改IPADDR,NETMASK,GATEWAY的值
[root@ahdx-yqzl~]#servicenetworkrestart重启network服务来使IP生效
在一块网卡上生成多个IP
[root@ahdx-yqzl~]ifconfigeth0:
1134.64.101.98netmks255.255.255.224
注:
用ifconfig新增的IP保存在内存中,重启network或者重启主机以后,地址就失效了,如果长期使用建议采用新增网卡配置文件的方法
在/etc/sysconfig/network-scripts目录里面创建一个名为ifcfg-eth0:
1的文件
内容样例为:
DEVICE=eth0:
1
IPADDR=172.16.170.2
BROADCAST=172.16.170.254
NETMASK=255.255.255.0
ONBOOT=yes
保存退出后,重启network后生效
1.1.2.查看主机网卡速率和全半双工设置
[root@ahdx-yqzl~]#ethtooleth0
1.1.3.查看修改主机路由表
查看路由表方法一:
[root@ahdx-yqzl~]#netstat-rn
查看路由表方法二:
[root@ahdx-yqzl~]#route–n
增加路由:
增加某一个IP的路由
routeadd-host192.168.198.34gw172.29.97.1deveth0
增加某一段IP路由
routeadd-host192.168.198.0netmask255.255.255.0gw172.29.97.1deveth0
删除某一条路由
routedel–host192.168.198.34
1.1.4.查看主机序列号
[root@ahdx-yqzl~]#dmidecode-ssystem-serial-number
注:
在某些刀片机安装的Redhat需要使用下面的命令查看序列号
[root@ahdx-yqzl~]#dmidecode-schassis-serial-number
1.1.5.查看操作系统发行版本和内核版本
查看操作系统发行版本方法一:
[root@ahdx-yqzl~]#head-n1/etc/issue
查看操作系统发行版本方法二:
注:
在一些主机上安装oracle时会修改/etc/redhat-release中的发行版本号,所以有时候用方法二看到的操作系统发行版本并不一定是真实的。
查看操作系统内核版本:
[root@ahdx-yqzl~]#uname–a
1.1.6.查看主机网卡&HBA卡
查看网卡&HBA型号
[root@crmnmdb~]#lspci–tv
查看网卡mac地址
[root@ahdx-yqzl~]#ifconfig-a
查看HBA卡WWN号
[root@crmnmdb~]#cat/sys/class/fc_host/host2/port_name
注:
/sys/class/fc_host/下的每一个hostX代表一块HBA卡
查看HBA卡当前的链接速率
[root@crmnmdbhost2]#cat/sys/class/fc_host/host2/speed
1.1.7.查看主机系统盘和文件系统
文件系统使用率
[root@ahdx-yqzl~]#df–h
系统所在磁盘
[root@ahdx-yqzl~]#fdisk–l
如果是LVM格式可以使用pvdisplay来查看
1.1.8.用户、组相关操作
增加一个用户
[root@ahdx-yqzl~]#useraddbossnmv3
注:
默认情况下增加的用户的主目录会在/home目录下,如果要修改可以使用如下参数
[root@ahdx-yqzl~]#useraddbossnmv3–d/opt/bossnmv3
注:
默认情况下useraddusername以后会自动新建一个与username名称一样的groupname,如果要加入到别的组可以使用如下参数
[root@ahdx-yqzl~]#useraddbossnmv3–d/opt/bossnmv3–gbossnm
注:
默认情况下新增用户使用的是bsh,如果想使用其他sh,可以使用如下参数
[root@ahdx-yqzl~]#useraddbossnmv3–d/opt/bossnmv3–gbossnm–s/bin/ksh
注:
在vsftp环境下想新建用户,但不需要新增的用户能够登陆主机,所以就不需要这个用户在主目录生成它自己的环境变量,可以使用如下参数
[root@ahdx-yqzl~]#useraddbossnmv3–d/opt/bossnmv3–gbossnm–M
修改某用户的密码
[root@ahdx-yqzl~]#passwdbossnmv3
1.1.9.修改主机名
方法一:
[root@ahdx-yqzl~]hostnameoratest
注:
用命令修改主机名只在重启network前或重启主机前生效,如果需要长期修改建议修改配置文件
方法二:
[root@ahdx-yqzl~]vi/etc/sysconfig/network
修改HOSTNAME字段,重启network生效
配置主机hosts
[root@ahdx-yqzl~]vi/etc/hosts
增加IPhostname
1.1.10.网络链路聚合的设置
1、在/etc/sysconfig/network-scripts/目录下新建ifcfg-bond0文件并按照如下编辑
[root@ahdx-yqzl~]vi/etc/sysconfig/network-scripts/ifcfg-bond0
DEVICE=bond0
BOOTPROTO=static
IPADDR=172.31.0.13
NETMASK=255.255.252.0
BROADCAST=172.31.3.254
ONBOOT=yes
TYPE=Ethernet
2、按照如下修改/etc/sysconfig/network-scripts/下的ifcfg-eth0,ifcfg-eth1(本例假设是将eth0和eth1聚合)
[root@ahdx-yqzl~]vi/etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
BOOTPROTO=none
HWADDR=D8:
D3:
85:
FC:
89:
42
ONBOOT=yes
MASTER=bond0
SLAVE=yes
TYPE=Ethernet
USERCTL=no
[root@ahdx-yqzl~]vi/etc/sysconfig/network-scripts/ifcfg-eth1
DEVICE=eth1
BOOTPROTO=none
HWADDR=D8:
D3:
85:
FC:
89:
52
ONBOOT=yes
MASTER=bond0
SLAVE=yes
TYPE=Ethernet
USERCTL=no
3、修改modules.conf文件新增如下内容
[root@ahdx-yqzl~]vi/etc/modules.conf
aliasbond0bonding
optionsbond0miimon=100mode=1
说明:
miimon是用来进行链路监测的。
比如:
miimon=100,那么系统每100ms监测一次链路连接状态,如果有一条线路不通就转入另一条线路;
mode的值表示工作模式,他共有0,1,2,3四种模式,常用的为0,1两种。
mode=0表示loadbalancing(round-robin)为负载均衡方式,两块网卡都工作。
mode=1表示fault-tolerance(active-backup)提供冗余功能,工作方式是主备的工作方式,也就是说默认情况下只有一块网卡工作,另一块做备份.
4、重启主机后生效
第二章Linux系统检查
2.1主机硬件检查
方法一:
到机房现场查看主机有没有告警灯提示
方法二:
有的主机配置了管理口IP,可以远程通过web登陆查看主机状态
方法三:
查看系统日志,关键看日志中有没有IOerror等字样
[root@ahdx-yqzl~]more/var/log/messages
方法四:
根据不同的机型(IBM,DELL,HP)可以去官网或者找800索要硬件诊断工具,收集相关信息后发到800后台,定位硬件故障
2.2操作系统关键日志检查
查看系统日志
[root@ahdx-yqzl~]more/var/log/messages
查看系统最近100条登陆日志
[root@ahdx-yqzl~]last-100
查看用户mail(如果主机关闭sendmail可能没有mail日志)
[root@ahdx-yqzl~]mail
2.3操作系统性能检查
2.3.1主机当前整体负载情况
[root@ahdx-yqzl~]top
利用top可以获得以下关键数据
主机启动至今的时间:
up625days
主机当前进程数:
Tasks257
CPU使用率:
用户进程us1.5%,系统进程sy11.1%,空闲进程id87.4%
内存(Mem)使用率:
总共内存total16432976k,已使用used1294344k,空闲free3489532k,缓冲池buffers2101412k
交换区(Swap):
总共交换区total16383992k,已使用used212k,空闲free16383780k,缓存cached9753692k
在top运行后,可以输入“-A”可以分列显示
2.3.2CPU使用率
[root@ahdx-yqzl~]sar-u15#每一秒一个输出,5秒内的CPU使用率
注:
重点关注%idleCPU空闲
2.3.2内存使用率
[root@ahdx-yqzl~]free–m
注:
剩余内存为free+buffers+cached
2.3.3磁盘I/O
[root@ahdx-yqzl~]#iostat15
注:
重点关注%iowait
2.3.4网卡流量
[root@ahdx-yqzl~]#sar-nDEV13#每一秒一个输出,3秒内的网卡流量
2.3.5当前主机端口监听情况
[root@ahdx-yqzl~]#netstat-an|greptcp
可以加-p参数得到监听端口对应的进程名和PID
[root@ahdx-yqzl~]#netstat-anp|grepLISTEN|greptcp
第三章Linux参数调整
5.1ulimit参数调整
5.1.1修改主机最大进程数,最大文件打开数
修改主机进程最大数,文件打开数
vi/etc/security/limits.conf
#添加如下的行
*softnoproc11000
*hardnoproc11000
*softnofile4100
*hardnofile4100
说明:
*代表针对所有用户
noproc是代表最大进程数
nofile是代表最大文件打开数
5.1.2限制用户创建文件大小
#ulimit–f1000#限制当前用户创建文件大小在1000个block以内
说明:
在Linux系统下一个block的默认大小是512bytes。
例子中所能创建的文件size的最大值为512x1000=512000bytes。
5.1.3限制用户的管道缓冲区大小
#ulimit–p512#限制管道缓冲区的大小为512Kbytes
5.1.4限制进程最大可用的虚拟内存
#ulimit–v200000#限制最大可用的虚拟内存为200000Kbytes
5.2修改系统内核参数
修改系统内核参数多数用于oracle数据库的安装,修改值参考oracle安装手册的要求
#vi/etc/sysctl.conf
kernel.shmall=2097152#系统一次可以使用共享内存总量,一般不需修改
kernel.shmmax=4294967296#共享内存段最大尺寸,这里设为4G
kernel.shmmni=4096#共享内存段最大数量,默认即可,不需修改
kernel.sem=25032000100128#信号量
fs.file-max=6815744#可以打开的文件数量
fs.aio-max-nr=1048576
net.ipv4.ip_local_port_range=900065500
net.core.rmem_default=262144#默认接收窗口大小
net.core.rmem_max=4194304#接收窗口最大大小
net.core.wmem_default=262144#默认发送窗口大小
net.core.wmem_max=1048586#发送窗口最大大小
执行以下命令使设置生效:
/sbin/sysctl-p
第四章Linux故障处理
6.1主机网络故障处理
模拟场景一:
用户申告服务器连不上,ping不通
处理过程:
1、先用安全平台或者SecureCRT看能否登陆,排除用户地址限制或者操作不当。
2、登陆到与故障估计相同网段的主机上去ping故障主机,判断是否是网络限制。
3、远程无法连接的情况下,去现场连显示器登陆主机,排除是否是主机宕机导致。
4、无宕机的情况下,在图形界面打开终端窗口,ping网关是否ping通。
5、网关ping不通情况下,重启network服务,跟踪后台日志,看网卡启动过程中有没有报错信息,排除网卡故障和链路故障
6、观察主机网线接口指示灯闪烁是否正常,如不闪烁,拔插网线,观察是否恢复;如网卡灯不闪烁,换一个网线接交换机,排除网线和交换机端口问题。
7、以上步骤都完成后仍然无法恢复网络,可以联系网络维护人员一起协查。
模拟场景二:
服务器无法和指定IP通信
处理过程:
1、在服务器上ping对端IP,看是否能ping通。
2、利用tracerouteIP命令跟踪主机到对端IP的路由,看在哪一段路由无法到达。
3、观察路由最后一跳和指定IP是否一致或同一网段。
4、如果路由不可达,可以联系网络管理员协查
模拟场景三:
无法访问服务器某端口
处理过程:
1、在同网段的其他主机上telnet故障主机的IP+端口(telnetIPport),排除端口是否处于监听状态。
2、利用netstat–an查看端口是否在正确的网卡上处于LISTEN状态
3、如果端口监听正常,联系网络管理员查看端口是否在防火墙上被屏蔽;如果端口监听不正常,建议用户重启应用进程。
6.2主机宕机故障
模拟场景一:
用户申告服务器连不上,ping不通
处理过程:
1、先用安全平台或者SecureCRT看能否登陆,排除用户地址限制或者操作不当。
2、登陆到与故障估计相同网段的主机上去ping故障主机,判断是否是网络限制。
3、远程无法连接的情况下,去现场连显示器登陆主机,排除是否是主机宕机导致。
4、如果主机宕机,观察主机有没有告警灯,排除硬件故障。
5、如果连显示器没有显示,键盘鼠标没有反应,基本上主机已经宕机。
长按主机电源开关键强制重启主机。
6、跟踪观察主机重启过程,尤其是主机硬件自检过程中有没有报错信息。
7、主机硬件自检通过后,启动操作系统时,观察操作系统启动中有没有报错信息。
8、系统启动完毕后,查看/var/log/messages中在宕机时间段内有没有错误信息。
9、通过ITSM的历史性能分析,观察主机在宕机时间段的交换区负载是不是过高。
6.3HBA卡光纤链路故障
模拟场景一:
主机一条链路丢失
1、通过multipath–ll观察聚合路径中哪些多路径的盘的状态时ghost
2、通过pvscan观察有没有device是failed状态
3、根据multipath–ll可以看到device对应的路径4:
0:
3:
3有ghost状态,路径第一个数字4代表了host4的光纤卡,去机房观察host4的光纤卡指示灯闪烁是否正常。
4、如果HBA接有SAN环境,检查SAN到存储的光路是否正常。
5、登陆存储检查存储的光纤卡是否正常。
注:
本例中是两块HBA卡接入SAN环境,SAN到存储有4条路径,所以当存储一端有问题的时候,会有两条路径不可用。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- redhat 操作系统 故障 分析 解决 手册