IDC日常运维操作.docx
- 文档编号:10518543
- 上传时间:2023-02-17
- 格式:DOCX
- 页数:21
- 大小:228.79KB
IDC日常运维操作.docx
《IDC日常运维操作.docx》由会员分享,可在线阅读,更多相关《IDC日常运维操作.docx(21页珍藏版)》请在冰豆网上搜索。
IDC日常运维操作
一IDC日常运维操作
1服务器及设备日常维护与故障诊断处理
1.1硬盘故障
●XX根据第三方提供的《《IDC在线服务器巡检故障表》》,信息如下:
服务器机架位:
服务器SN号:
服务器型号:
故障类型:
xxx-xxx-xxxx
XXXXXXX
xxxx
硬盘
XX工程师根据周五的第三方巡检信息在星期一对硬盘故障进行处理。
处理过程,XX通过AOS发起外包任务,第三方在备件放置地点取出相应型号硬盘备件进行更换。
IDC的备件和坏件放置地点详见《IDC备件&坏件放置地点》,将换下来的坏件统一在每周四进行报修。
●将处理结果反馈给发起的XX工程师,并回复完成邮件。
●XX确认无误以后,结束任务。
1.2内存故障:
●第三方根据巡检报告提供给XX给内存故障的服务器信息,要素如下:
服务器机架位:
服务器SN号:
服务器型号:
故障类型:
xxx-xxx-xxxx
XXXXXXX
xxxx
内存
●XX工程师根据第三方巡检信息来判断是否可以对硬盘故障进行处理。
●如果可以处理,在备件放置地点取出相应型号内存备件进行更换,不同型号的机器有不同,如:
DELL2850更换故障内存后需要用光盘清楚错误日志信息。
●启动服务器,将结果反馈给发起任务的XX工程师,结束任务。
●XX确认无误以后,结束外包任务
第三方内存更换时间约定:
第三方更换内存过程所需时间(如30分钟),和工作区间时间(早上9点到晚上7点),如有特殊时间XX优先通知第三方。
1.3Flash卡故障:
●XX发起更换flash卡外包任务给第三方
●第三方根据任务单提供的详细信息进行确认停机
●从备件库取出新Flash卡进行更换,更换完毕将处理结果反馈给发起的XX工程师,并回复完成邮件。
●XX确认无误以后,结束外包任务
注:
故障Flash卡和新Flash卡需要记录SN号并提供给XX
1.4服务器重启
●第三方接到XX重启服务器任务单
●根据任务单提供的SN、主机名、机架位、IP进行核对
●找到机器进行重启操作,直到服务器进入系统登陆界面,将结果反馈给发起任务的XX工程师,结束任务,过程中有异常情况应及时反馈给XX工程师,
●XX确认无误以后,结束外包任务
1.5服务器其它硬件故障,如CPU故障、主板、电源
需要第三方严格按照如下操作步骤进行操作
第三方CPU更换时间约定:
第三方更换CPU过程所需时间(如30分钟),和工作区间时间(早上9点到晚上7点)
●XX给第三方提供存在CPU故障的服务器信息,要素如下:
故障服务器机架位:
故障服务器SN号:
备用服务器机架位:
备用服务器SN号:
xxx-xxx-xxxx
XXXXXXX
xxx-xxx-xxxx
XXXXXXX
服务器型号:
开始操作时间:
xxx
18:
00
●第三方根据巡检报告给XX提供存在CPU故障的服务器信息,
●第三方联系厂家报修,通报XX上面维修时间
●XX根据上门维修时间联系停机
●第三方确认停机以后由厂商来维修直至修好。
●第三方确认故障服务器已经停机,拔出电源线,按照顺序取出故障服务器里的硬盘
●将指定备机替换故障机器,并取出备机中的硬盘,清掉备机的raid卡里的raid信息(该操作步骤只限于DELL2850服务器)
●按顺序在备机中插入故障机中硬盘
●启动服务器
●将处理结果回复给发起的XX工程师
●主板故障:
同CPU故障处理
●电源故障:
同内存故障
硬盘rebuild时间标准
●73G硬盘在线rebuild-3个小时,离线rebuild-1个小时;
●146G硬盘在线rebuild-6个小时,离线rebuild-2个小时;
●300G硬盘在线rebuild-9个小时,离线rebuild-3个小时;
2服务器上线
●第三方根据XX要求把服务器上架到指定位置并反馈服务器SN
2.1自动安装
●XX配置安装文件
●第三方用指定的安装服务器进行安装,安装完成后进入到login状态,如下面
●中途如有安装存在问题的情况,联系发起人。
发起人远程进行单独安装
●安装完毕以后邮件反馈XX工程师
●XX确认完成以后,结束外包任务
2.2手动安装(光盘安装、保留/home分区安装)
光盘安装
●根据任务单要求安装指定的光盘系统
●根据任务单要求配置IP和安装指定的工具包
●确认安装完成后反馈信息,等XX方确认
●XX确认无误后,结束任务
手动安装
●用网线直接连接被安装机器和安装服务器的eth0端口(标记为NIC1)
●注意:
DELL2950,引导时需要用NIC1连接安装服务器的eth0端口,引导完之后换到NIC2。
pxe引导如有问题,需要检查机器的BIOS设置中的网卡设置。
●引导服务器,当出现PXE引导时,按F12进行pxe引导,引导过程中会看到加载linux.1linux.2
●引导结束,会出现-bash提示符输入命令
●install-i172.18.250.xxx-nfs172.18.250.10-nbaidu-123
●如果记不住可以通过install-h获取帮助
●命令行解释:
●install是一个安装脚本,他会自动通过NFS方式连接到安装服务器上获取配置信息以及安装包共有6个参数,其中-i-nfs-n固定
●例子中的172.18.250.xxx为本机临时IP,目的是与安装服务器建立连接,必需为安装服务器eth0IP的同网段IP
●172.18.250.1为安装服务器eth0IP
●baidu-123为被安装机器的主机名,install脚本会根据这个主机名在install.conf里面取配置信
回车执行命令开始安装.
●当再次出现bash提示符后,安装完毕。
3.服务器迁移操作流程
●由发起人发邮件确认可以迁移,并电话联系第三方现场人员确认开始迁移
●第三方现场人员接显示器确认系统已经关闭并进行迁移,把服务器迁移到指定机架位。
如果是跨机房迁移需把设备交给XX指定接收人(需出示有效证件证明身份),送达目的地点。
运送过程中需保证设备的物理完整性,不得随意拆开机箱并插拔或变更硬盘位置,如果有系统的,以能够进入grub界面为准.见图1
●将服务器接上电源线、网线,异地迁移需要根据新机架位的ip重新配置远程控制口的ip。
●按电源按钮,启动服务器,确保进入如下类似界面:
见图1
图1
●如果遇到异常情况,需立即通知发起人,由发起人决定处理方式
●第三方操作完毕回复
●发起人或指定复查人员进行检查,确保没有问题后,结束操作任务。
4.服务器配置变更
4.1改变内存配置
●第三方在接到发起人停机通知后,将服务器电源线、网线、控制线拔掉并从机架上拿下放置在地上
●取得要更换或添加的备件。
●内存容量、大小、数量信息请查看发起人发出的任务单
●参照《服务器硬件更换方法》来对内存进行添加、减少、更换
●把替换下来的内存放回指定位置
●把服务器放回原位置,接好电源线、网线、控制线,按电源按钮启动服务器
4.2改变硬盘配置
●第三方在接到发起人任务后,参照《IDC备件&坏件放置地点》取得要更换或添加的硬盘。
●硬盘容量、大小、数量信息请查看发起人发出的任务单
●参照《服务器硬件更换方法》按指定要求更换硬盘。
●具体要求请查看任务发起人发出的任务单
●如果需要重装系统,参照《服务器上线方法》安装系统
●参照《IDC备件&坏件放置地点》把替换下来的硬盘放回指定位置
操作完毕回复
●第三方操作完毕后,需马上通过邮件或电话通知任务发起人(如果电话通知的需要在之后补充邮件通知)
检查
●由发起人或指定复查人员进行检查,确保没有问题后,向第三方邮件确认操作完毕,结束任务。
注:
换下配件不算成备件,需要单独记录并通报。
发起外包出库流程。
5.增加/去除外网(对网线及设备连通性进行操作和排查)
5.1外网变内网
●在得到XX工程师确认后,第三方按任务中的接线方法,
●拔掉指定外网网线,插上指定内网网线
5.2.内网变外网
●在得到XX工程师确认后,第三方按任务中的接线方法,
●拔掉指定内网网线,插上指定内外网线
注:
FEX424外网边缘交换机的1、2、3、4、24不能连接网线
●操作完毕回复
第三方操作完毕后,需马上通过邮件、电话通知发起人(如果电话通知的需要在之后补充邮件通知),
●检查
由发起人或指定复查人员进行检查,确保没有问题后,第三方邮件向XX确认操作完毕,结束任务。
6.接收和发送服务器,设备及配件
6.1接收设备
●外包将收到的服务器、设备及配件清点以后,将信息反馈给XX方并更新外包资产数据库,信息如下:
接收时间
设备名称
序列号
存放位置
09.01.12
xxxx
xxxxxxx
xxx-xxx-xxx
6.2发送设备
●外包方根据任务单要求发送服务器及配件
●联系物流
●XX办理设备出入手续
●发出设备及配件,结束任务
●更新外包资产数据
7.根据XX需求进行操作
7.1根据需求反馈信息
●XX发起外包任务,如:
查看机器状态、SN、IP等
●第三方将查看信息反馈给XX方
●XX方确认以后,结束任务
7.2重启服务器等
●XX发起重启服务器的任务单
●第三方根据任务单提供的信息进行确认
●确认无误重启服务器,有异常情况及时反馈信息,重启以后通知XX方
●XX确认无误,结束任务
8.根据XX需求增加操作的内容
●根据XX需求增加IDC操作的内容
二.日常网络操作
1.常见模块或交换机端口故障
●网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人员相关机架位、网络设备名称、板卡槽位、端口号及模块型号,外包人员按照操作要求进行更换
●故障处理时间(10分钟-20分钟)
2.光纤或链路故障
●网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人员故障光纤的类型,两端机架位,对应网络设备名称,板卡槽位、端口号,外包人员在进行光纤更换时应该优先选用冗余光纤资源,如果没有冗余光纤资源则应立即按照【XXIDC布线标准】进行部署,并根据发起人要求进行标签标记。
●本机房光纤部署,故障处理时间,(10分钟-20分钟)
●跨机房光纤部署,故障处理时间,(15分钟-30分钟)
3.外网边缘交换机整机
●外网边缘交换机(FoundryFEX424)故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并必须提供外包人员故障交换的机架位,之后外包人员根据如下步骤进行更换:
1)记录以下信息:
A.交换机的5端口至23端口的网线标签;
B.交换机的24口管理网线标签;
C.25口、26口对应的光纤标签;
2)初始化欲使用的FoundryFEX424配置;
●初始化FoundryFEX424配置过程
A.通过Console接入交换机
B.enable进入#号提示符下
C.Erasestartup-config清除配置
D.Reload重启交换机,选择不保存配置文件
3)根据操作发起人提供的管理IP进行配置;
●配置管理IP
A.使用enable进入#号提示符下;使用configureterminal进入配置模式
B.使用如下命令配置管理IP
interfaceethernet24
port-namenetadmin
route-only
ipaddress<管理IP>255.255.255.0(管理IP由发起人提供)
4)经发起人确认后进行更换;
A.将故障交换机断电,并去掉所有光纤及网线,
B.将新的交换机上架加电,并先接好网管网线。
5)外包人员经操作发起人同意后,依据要求进行光纤及网线互联;
A.接入光纤时,光纤与端口对应关系必须与之前相同;
B.原网线接入5口至23口时没有顺序要求,
故障处理时间(20分钟-40分钟)
本节中的故障处理时间指的是外包人员完成指定操作的时间,不包括发起人的故障定位时间,以确认开始操作计算时间。
4.交换机板卡、引擎、电源故障
4.1板卡故障
●说明:
网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人员对应网络设备名称,板卡槽位,外包工作人员应首先记录故障板卡上的网线和光纤标签及端口的对应关系,具体,然后将板卡更换后检查板卡是否有自检闪烁,最后按照之前的记录恢复所有网线或光纤。
●常见情况及处理时间如下:
4.2光口板卡故障
●一般互联光纤数量不超过六条,更换前必须正确记录所有光纤与端口的对应关系。
板卡更换后,必须按照之前的记录顺序进行恢复。
●故障处理时间:
(10分钟-30分钟)
4.3电口板卡故障
●一般互联网线的数量比较多,更换前必须正确记录所有网线与基于端口划分的VLAN的对应关系,板卡更换后必须按照之前记录的网线与基于端口划分的VLAN对应关系进行恢复。
●如板卡的前24个端口属于VLAN100,后24个端口属于VLAN200,板卡更换后根据端口和VLAN的对应关系进行恢复。
●故障处理时间:
(20分钟-40分钟)
4.4没有相应型号的板卡
●需要使用多台FoundryFEX424用万兆口级联后再互联至该交换机的指定端口(由发起人提供)
A.外包人员初始化FoundryFEX424配置,并通过万兆端口进行级联,级联的数量由发起人给出;
B.根据发起人提供的指定端口,将已经级联的FoundryFEX424与这个指定端口进行互联;
C.经发起人同意后,将故障板卡的网线迁移到FoundryFEX424上。
D.最多级联两台FEX424。
如果超过2台FEX424,时间可以合理延长。
故障处理时间:
(20分钟-60分钟)
4.5引擎、电源故障
●说明:
网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人员故障网络设备名称,引擎或电源槽位。
●故障处理时间:
(20分钟-40分钟)
5操作规范说明
5.1模块的拆卸与安装过程说明:
1.确定需要卸载的模块。
2.若卸载业务模块,请注意先拔下模块拉手条上的以太网电缆、串口电缆或者光纤接头并放置在安全的地方并做好标记以便复原。
操作有光口的线路接口模块时,请不要直视光模块的TX端口和光纤线缆末端,以免激光烧伤眼睛。
3.平行方向取出或插入模块,参加下图3-1。
图3-1
5.2板卡的拆卸与安装过程说明:
板卡拆卸过程:
1.确定需要卸载的业务板卡。
2.若卸载业务板卡,请注意先拔下模块拉手条上的以太网电缆、串口电缆或者光纤接头并放置在安全的地方并做好标记以便复原。
操作有光口的线路接口模块时,请不要直视光模块的TX端口和光纤线缆末端,以免激光烧伤眼睛。
3.用螺丝刀松开拉手条两端的紧固螺丝。
4.双手抓住拉手条两端的扳手,朝相反的方向用力,模块会自动脱出机箱少许。
5.双手抓住扳手将模块垂直拉出大约10cm。
6.右手抓住模块拉手条的中上部,左手托住模块下边缘将模块从机箱中完全拉出并放置在安全的地方。
7.如果需要重新装入包装盒,请首先将业务模块装入防静电袋,再装入外包装盒。
板卡安装过程与拆卸过程相反,参考下图3-2。
图3-2
6、板卡槽位及端口顺序
6.1FoundryFEX424,参加下图4-1
图3-2
三.机房巡检及通报机制
1.服务器故障巡检
●巡检范围:
IDC内所有的服务器;
●报警设备包括:
服务器、交换机、路由器、传输设备等。
●完成时间:
在每天上午11点前整理出当天《XX**IDC每日巡检报告》发到指定邮件组
●巡检频率:
每天
2.动力环境巡检
2.1电力情况巡检
对各个IDC的用电情况,精确到每个机架进行巡检记录,需要区别单路用电量(安培)双路用电量(安培)。
并将超过用电预警值(见日报模板)的机架做好记录。
巡检频率:
1天1次。
2.2温度情况巡检
对各个IDC温度情况,精确到每个温度采集点进行巡检记录。
将超过温度预警值的机架做好记录。
巡检频率:
4小时1次,每天至少2次。
并巡检时间由XX根据季节情况进行制定。
2.3湿度情况巡检
对各个IDC湿度情况,精确到每个湿度采集点进行巡检记录。
并将超过温度预警值的机架做好记录。
巡检频率:
4个小时,每天至少两次。
注:
在日报中对超出警戒值的记录用其他颜色区别展示;温度警戒值默认为33摄氏度,并由XXARP根据季节情况进行调整;
3.IDC机架使用规范巡检
●确保设备的摆放正确;
●确保服务器的上架符合规范;
●确保网线,电源线的布放符合规范;
●确保IDC内没有纸质,技术文档及其他易燃物品;
4.IDC基础设施故障情况的通报和响应机制
4.1机架掉电
●在发现机架单路掉电或双路掉电情况后立即联系营运商现场值班人员进行处理,并在10分钟内通报XX第一紧急响应人;无法联系到第一紧急响应人立即联系第二紧急响应人;
4.2空调故障
●在发现空调故障情况后立即联系营运商现场值班人员进行处理,并将处理的过程或结果15分钟通报XX第一紧急响应人;无法联系到第一紧急响应人立即联系第二紧急响应人;
4.3温度异常
●在发现温度采集点实测温度达到温度警戒值的情况后,15分钟内通报当天XX该机房负责人,并联系营运商现场值班人员进行处理。
该内容需要在日&周报告中体现;
4.4其他IDC异常情况
●其他可能影响XX业务正常工作的IDC基础设施故障问题,需要及时进行通报;
●注:
紧急响应人:
第一紧急响应人:
第二紧急响应人:
四附录
1.IDC机房环境巡检记录模板
IDC机房环境巡检记录模板
城市
北京
IDC名称
编号
提交人
提交日期
2008-12-16
联系电话
巡检内容
前日15时
机房号
单路最高/机架
双路最高/机架
温度最高/空调
湿度/空调
空调是否正常
[√]是[]否
[√]是[]否
巡检人
巡检时间
2008-12-1515:
00
本日10时
机房号
单路最高/机架
双路最高/机架
温度最高/空调
湿度/空调
空调是否正常
[√]是[]否
[√]是[]否
巡检人
巡检时间
2008-12-1610:
00
备注
2.IDC在线服务器故障巡检记录模板
IDC在线服务器故障巡检记录模板
故障发现时间
服务器型号
机架
机器的SN号
IP
故障类型
具体报警信息
故障发现人
故障核查人
3.XX服务器坏件报修统计模板
服务器型号
坏件名称
坏件件型号
坏件序列号
数量
对应的服务器SN
xxxxx
硬盘
XXX-300GB-00K
XX-XXX-1253-7X-0296
1
xxxxx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IDC 日常 操作