基础设施维护方案.docx
- 文档编号:12034356
- 上传时间:2023-04-16
- 格式:DOCX
- 页数:26
- 大小:35.61KB
基础设施维护方案.docx
《基础设施维护方案.docx》由会员分享,可在线阅读,更多相关《基础设施维护方案.docx(26页珍藏版)》请在冰豆网上搜索。
基础设施维护方案
基础设施维护方案
一、概述
运行维护,由维护及定检两部分内容组成。
维护定检不仅是在问题出现时能迅速地定位、解决问题;而更重要的是在故障产生前,能够通过例行的巡检工作及时发现故障隐患、消除故障隐患,使设备长期稳定地运行。
对设备良好、有效的维护,不仅能够减少设备的故障率,并且可以延长设备的使用寿命。
维护定检的基本原则就是在例行维护定检工作中及时发现、解决问题,防患于未然。
如果维护人员能在故障发生之前,在例行巡检之中,及时检测到故障的先兆,将故障解决在萌芽期,这样不但可以避免故障发生后,由于抢修的慌乱、业务中断所造成的经济损失;而且还可以避免故障严重化对整个设备所造成的损伤,从而降低板件更换等维护费用,延长设备的使用寿命。
而这一切,不但要求维护人员有深厚的功底,丰富的维护经验,还要有洞察秋毫的高度敏感性。
二、总则
为基础设施的连续性和信息安全性,制定有效的运行维护策略来保证服务交付的质量,兼顾运行维护过程(及时和规范)和运行维护结果(可用和安全),实现“事前防范,
风险前移;事中控制,快速响应;事后改进,持续评估”的持续改进原则。
2.1可用性
采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合SLA的可用性要求。
括:
a)在服务实施时,建立相关的作业流程和响应机制,必要时按需方要求制定系统冗余和备份规范,以满足需方对可用性的要求;
b)进行合理的人员岗位设置和职责定义,保证专人专岗并设置人员备份;
c)配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服务可用性。
人员能力具体要求;
d)选择适用的运行维护技术,以保证服务的可用性;
e)根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,并配备相应的运行维护工具,以保证服务水平。
运行维护工具等级;
f)根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。
2.2安全性
采取各种安全手段或措施,有效控制数据中心运行维护服务的各个环节,保护数据中心运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。
包括:
a)建立适当的信息安全管理机制,以规范数据中心运行维护服务人员的信息安全行为;
b)对运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议等;
c)对运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员了解并遵守数据中心安全、保密相关规定;
d)充分关注数据中心业务安全需求,结合信息安全技术与管理标准,进行适当的安全评估,提供相应的安全建议,并对服务对象进行适当的监控和保护;
e)对数据中心安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发生;
f)建立有效的安全通报机制,以及时通报安全事件相关
情况和相应防范处理措施等。
2.3及时性
采取适当的手段确保提供满足SLA时间指标要求的运
行维护服务。
包括:
a)对事件、问题、变更建立明确的分级策略,并与服务
窗口时间、响应时间等指标相匹配;
b)建立可确保满足需方要求的沟通联络机制,保持沟通
渠道通畅,以实现对服务需求的及时响应;
c)建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以提供及时的服务保障;
d)特殊时间段(如法定节假日或重大事件等),应提升响
应级别,提供必要的现场支持;
e)建立有效机制,周期性对事件级别定义进行更新,以确保定义准确有效。
2.4规范性
建立适当的服务管理流程、服务活动指导文件或实施规则,以保证服务过程的规范运作。
包括:
a)建立有效的服务管理流程文件,以保证服务过程实施规范性;
b)建立或遵循需方的数据中心相关管理制度,如出入场管理制度、安保控制制度等;
c)对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;
d)对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,制定详细的实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手段;
e)在服务过程中进行的任何活动,应建立服务档案,可形成服务报告,保留完整的服务记录。
三、服务对象与交付说明
3.1服务对象及内容
(1)定期对硬件设备进行巡检、保养,以保障设备运行正常(具体设备范围因合同而异,基本包括电力系统、空调系统、安防系统、网络系统、监控系统以及综合布线系统等);
(2)定期升级配套软件的版本;
(3)协助米购人制订安全策略,定期检查、排除风险,保障设备及网络环境安全;
(4)针对重要设备,实时监控运行状况,及时发现故障、排除故障;
(5)针对周期性巡检发现的安全隐患进行防范和处理;
(6)提供配件维修、更换服务
(7)系统重部署及调试:
新机上架协助及系统移位协
助。
(8)协助采购人,规范硬件管理维护标准化工作。
3.2交付内容
服务交付内容包括调研评估、例行操作、响应支持和优化改善四类,其中:
a)调研评估服务:
根据需方、服务相关方或系统运行的需求,对服务对象的运行状况、运行环境进行现状调研、系统分析和评估并提出相应的建议和服务方案;
b)例行操作服务:
按照约定条件触发或预先规定的常态服务,分为监控、预防性检查和常规作业;
1)监控:
指采用各类工具和技术,对服务对象的动态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警;
2)预防性检查:
保证服务对象的持续正常运行,根
据服务对象的监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以便消除或改进;
3)常规作业:
对数据中心服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定期重启
等活动,以保证服务对象的稳定运行。
C)响应支持服务:
根据响应的前提不同,分为事件驱动
响应、服务请求响应和应急响应;
1)事件驱动响应:
由于不可预测原因导致服务对象
整体或部分性能下降、功能丧失,触发将服务对象恢复
到正常状态的服务活动。
事件驱动响应的处理过程首先争取在最短的时间内恢复服务或启用备份资源,维持服务的持续提供,并应对事件做出分析、明确诱发事件的原因和影响的范围,采取有效的防控措施,减少类似事件的再次发生。
事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;
2)服务请求响应:
由于需方提出各类服务请求,引
发的需要针对服务对象、服务等级做出调整或修改的响
应型服务。
服务请求响应需要根据总体服务策略并参考已有的SLA/SOW做出判断,对服务的实施进行影响评估,制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。
变更型响应服
务实施完成后,应进行总结,确认已达到预期的目标。
此类响应可能涉及服务等级变更、服务范围变更、技术
资源变更、服务提供方式变更等;
3)应急响应:
指在出现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、由于政府部门发出行政指令或需方提出要求时,应当启动应急处理程序。
d)优化改善服务:
包括适应性改进、增强性改进和预防性改进三种类型;
1)适应性改进:
为保持服务对象在已变化或正在变化的环境中可持续运行而实施的改造;
2)增强性改进:
根据运行需求或由于服务对象的缺陷,采取相应改进措施增强数据中心的安全性、可用性和可靠性;
3)预防性改进:
检测和纠正服务对象运行过程中潜在的问题或缺陷,以降低系统风险,满足未来可靠运行
的需求。
四、运行维护交付内容
4.1服务对象
服务对象包括空调系统(精密空调系统、新风系统)、
电力系统(供配电系统、UPS系统、发电机系统)、安防系
统(防雷接地系统、消防系统、视频监控系统和门禁系统)、网络系统及设备、PC服务器、小型机等服务器以及综合布线系统。
4.2调研评估
基础设施调研评估服务内容包含但不限于:
a)空调系统(精密空调系统、新风系统):
机房环境指标分析及改进建议、机房热点分析及布置改进建议、机房送
风、回风方式改进建议,新风风量、风压指标分析及改进建议;辅助制冷单元配置建议等;
b)电力系统(供配电系统、UPS系统、发电机系统):
机柜供电分析及改进建议、机房回路调整分析调整建议、机
房扩容建议等;发电机负荷分析及调整建议等;UPS运行分
析及扩容建议,超过设计使用寿命的电池更换建议、整流直
流电容、逆变交流电容等;
C)安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统):
防雷接地系统分析及改进建议、消防系统现状分析和改进建议(按照当地消防管理部门管理要求)、
视频监控系统的分析和改进建议、门禁系统的分析和改进建议等;
d)综合布线系统等:
光纤、铜缆容量、使用效率分析;应用环境及性能分析;数量、路由改进或扩容建议;级别提升建议等。
e)机房电源使用效率:
通过对机房PUE连续监测分析,
提供机房能效改进建议,包括但不限于:
空调系统优化(消除机房热点、冷热通道遏制、改善送回风、使用节能型设备等)、电力系统优化(回路优化、使用节能型设备等)、实施
容量管理(对机柜的电力容量、制冷容量及空间容量进行统筹管理,以充分利用资源)等。
f)网络及网络设备调研评估:
(整体或局部)网络实际负荷与承载能力分析;(整体或局部)网络预期负荷与承载
能力分析与建议;(整体或局部)网络架构分析与建议;(整
体或局部)网络路由策略分析与建议;(整体或局部)网络
安全策略分析与建议;(整体或局部)网络配置调优分析与建议等。
g)服务器调研评估:
服务器负载情况分析;服务器安全策略分析;服务器的高可用性分析;服务器性能分析及调整建议。
4.3例行操作
基础设施的例行操作服务包括:
监控、预防性检查、常
规作业。
4.3.1监控对基础设施的监控内容参见表1,包括但不限于:
表1基础设施监控内容表
服务对象
监控内容
空调系统(精
环境温度、环境湿度、出风温度、回风温度,
密空调系统、
新风系统)
告警情况等
电力系统(供配电系统、
UPS系统、
发电机系统)
供配电系统:
电流、电压、功率因数、有功
功率、无功功率、谐波等
发电机:
启停情况、电流、电压、负载率、
控制系统供电情况等
UPS:
输入电流电压、输出电流电压、频率、负载率、温度、报警情况、电池充电/放电电压等
电源使用效率:
PUE值(通过监控软件监测
或计算得出)
安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)
防雷接地系统:
浪涌保护器、避雷器状态等
消防系统:
消防控制系统状态、气体火火钢
瓶压力、灭火器有效期检查
视频监控系统:
告警情况、监控录像等
门禁系统:
门禁状态、告警情况
网络及网络
设备
网络设备的健康状况、整体运行状态、各项硬件资源开销状况
链路健康状况如端到端时延变化、链路端口工作稳定性、链路负载百分比、部署路由策略情况下端到端选路变化、路由条目变化管理权限用户的行为审计
设备软件配置变动审计
设备日志审计
安全事件审计
服务器
服务器整体运行状态
服务器电源工作状态
服务器CPU工作状态
服务器内存工作状态
服务器硬盘工作状态
服务器网络端口工作状态
432预防性检查
在监控服务的基础上对基础设施进行预防性检查。
包括:
性能检查和脆弱性检查。
基础设施预防性检查内容参见表2,包括但不限于:
表2基础设施预防性检查内容表
服务对象
性能检查内容
脆弱性检查内容
高压压力、低压压力(风
机房热点情况、室
冷系统),冷冻水压力、温
内机漏水检查、室
精密空
空
调
度,冷却水压力、温度(水
外风机运转情况、
调
冷系统),风机运行情况,
加湿罐阳极棒检
系
灰尘情况等
查、过滤网检查等
统
新风系
风机运行情况、风速,预
过滤网检查、风压
处理系统工作状态,上下
统
水情况等
差检查
电
配电系
接地电阻、零序电流、器
导线、器件发热情
力
统
件发热情况等
况,防浪涌器件情
系
况等
统
发电机
转速、发热情况等
油位,吸气、排烟
通道等
器件发热情况、电池情况
(外观、非免维护电池检
器件、导线发热情
UPS系
查液位、接线柱)、检查通
况,电池放电时
统
风情况(风扇、入气口、
间、通风情况等
出气口)等
防雷接
接地电阻测试
引下线检查、接地
地系统
汇接排检查
消防系
钢瓶压力、有效期、探头
启动瓶、管道开
安
防
统
污染等
关、气体压力等
视频监
画面清晰度(不同照度情
监控系统运行状
系
况下)、录像硬盘(磁带)
态、监控死角问题
统
控系统
容量、云台运行等
等
门禁系
服务器、控制器、读卡器、
门禁系统与消防
统
门磁等工作状态
系统和视频监控
系统的联动检查
(如果有此功
能),异常情况报
警检查
线缆两端应贴有
综合布线系
光纤、铜缆链路测试,性
识别标签,标志要
统
能测试等
与实际拓扑图完
全致
设备机身、板卡或模块的
是否需要升级系
工作情况
统微码
CPU使用峰值情况
设备链路的冗余
网络及网络
内存使用峰值情况
度要求
设备
主要端口的利用率
安全事件周期性
链路的健康状态,包括IP
整理分析
包传输时延、IP包丢失率、
设备生命周期评
IP包误差率、无效IP包(包
估
括攻击性IP包、欺骗性IP
包、垃圾IP包等)检查其它的关键指标项,例如各类关键表项、会话连接数等
备件可用性周期
性检查
服务器资源分配
服务器的资源分配情况和
是否超过预定阀
策略
值
CPU使用峰值情况
服务器关键部件
内存使用峰值情况
是否满足运行冗
服务器
文件系统空间使用情况
余度要求
10读写情况
服务器关键部件
网络流量情况等
的微码版本是否
与存储的链路性能测试
需要升级
服务器关键部件
链路的冗余度要
求
服务器硬盘是否
RAID保护
服务器文件空间使用是否达到预定阀值
433常规作业
基础设施的常规作业包括基础类操作、测试类操作和数据类操作,其中:
a)基础类操作:
按服务管理手册的有关规定,执行设备的日常运行、维护和保养;
b)测试类操作:
按服务管理手册的有关规定,对基础设施各系统功能、性能进行测试;
c)数据类操作:
按事先规定的程序,对基础设施运行日志、记录等数据进行操作。
基础设施常规作业内容参见表3,包括但不限于:
表3基础设施常规作业内容表
服务对
象
基础类操
作
测试类操作
数据类
操作
空
调系统
精密
空调
启停机、清洗更换滤网、清洗更换加湿系统、清洁冷凝器等
漏水报警测试、
周期性主备切换
/应急演练等
运行日志备份,报警记录备份、清除等
新风
系统
启停机、清洗
更换滤网等
消防联动测试
运行记录备份(如果有)
电力系统
配电
系统
除尘、合闸、
分闸等
互投测试等
运行记录备
份
发电
机
更换三滤、清
洁等
空载测试、带载
测试、切换演练
等
运行日志备份,报警记录备份、清除等
服务对
象
基础类操
作
测试类操作
数据类
操作
UPS
系统
旁路、清洁等
旁路测试、电池
放电测试、周期性主备切换/应
急演练等
运行日志备份,报警记录备份、清除等
安防系统
防雷接地系统
接地端子、汇流排紧固,浪涌、防雷保护器复原等
接地电阻测试
运行记录备份(如果有)
消防
系统
探头清洗等
启动测试、探头
测试等
报警记录备
份、清除
视频
监控
系统
视频监控头清洁,云台保养
器件灵敏度、画面清晰度(不同照度情况下)、云台运行等
出入记录导出、备份,监控图像记录备份、清
服务对
象
基础类操
作
测试类操作
数据类
操作
除,报警记
录备份、清
除等
门禁
系统
门禁授权等
门禁系统与消防系统和视频监控系统的联动检查测试(如果有此功能),掉电测试
运行日志备份,报警记录备份、清除等
综合布线系
统
线路跳接等
链路测试、性能
测试
布线系统拓
扑图数据更
新
网络及网络
设备
设备操作系统软件备份及存档
系统微码升级
设备软件配置备份及存档
服务对
象
基础类操
作
测试类操作
数据类
操作
监控系统日志备份及存档
监控系统日志数据分析与报告生成网络配置变更文件的审核
网络配置变更的操作
网络配置变更的记录
服务器
系统微码升级
配置文件备份
过期日志和文件系统空间清理
服务器硬盘RAID配置检查(如有RAID控制
器)
更换控制器电池(如有RAID控制器)
4.4响应支持
4.4.1事件驱动响应
针对设备的软、硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:
a)空调系统:
故障排查、关闭部分机组以维持机房最低温湿度指标、关闭新风系统等;
b)电力系统:
配电系统包括故障排查、投入备用电源回路、关闭非重要回路等;发电机系统包括故障排查、启动发电机、油料补充等;UPS系统包括故障排查、旁路系统、关闭非重要输出等;
c)安防系统:
防雷接地系统包括浪涌保护器复原、更换,接地电阻降阻等;消防系统包括故障排查、系统启动、报警联动、疏散警示等;视频监控系统包括故障排查、监控头或硬盘更换、检查告警、数据恢复等;门禁系统包括故障排查、手动开启或关闭门禁系统、检查告警或监控记录等;
d)综合布线系统:
线缆更换等。
e)网络及网络设备事件驱动响应
故障定位;
停止、启动进程;
中断、连通网络连接;
关闭、启动端口;
网络备件更换;
更改、恢复配置。
f)服务器事件驱动响应
服务器重启;
更换故障部件,包括主板、电源、CPU、内存、硬盘
等;
服务器关键部件微码升级;
服务器硬盘RAID配置修复。
442服务请求响应
根据应用系统运行需要或需方、服务相关方的请求,而
进行的响应服务,包括但不限于:
a)空调系统:
调整温度、湿度参数等,调整新风量等;
b)电力系统:
配电系统包括增减回路、增减供电类型
(如直流、110V)等;分支回路相位调整等;发电机为指定
负载供电等;UPS系统包括旁路操作、为指定负载供电等;
C)安防系统:
防雷接地系统包括新设备接地等;消防系统包括增减终端设备、检查及提供告警及监控记录、备份或清除记录等;视频监控系统包括调整摄像机位置、增加摄像机,增加录像机容量等;门禁系统包括增加、删减、变更门禁权限等;
d)综合布线系统:
链路跳接、跳线更换,布线扩容等
e)网络及网络设备服务请求响应
增加、降低网络接入的数量或速度;
更改网络设备配置;
启动、关闭端口或服务;
更换、更新或升级设备硬件或软件。
f)服务器服务请求响应
服务器设备搬迁;
服务器设备停机演练;
服务器设备清洁维护等。
4.5优化改善
4.5.1适应性改进
根据应用系统特点和运行需求,对基础设施进行调整,包括但不限于:
a)空调系统:
调整温湿度参数等、调整机组位置、增减新风风量等;
b)电力系统:
配电系统包括更换开关、导线以适配负载容量等,发电机包括调整启动方式等;
c)安防系统:
调整防雷接地系统、消防系统、视频监控系统和门禁系统,以适应应用系统的变化;
d)综合布线系统:
调整综合布线系统,以适应应用系统的变化。
e)网络及网络设备适应性改进
路由策略调整;
设备或链路负载调整;
安全策略调整;
监控对象覆盖范围调整;
局部交换优化;局部冗余优化
f)服务器适应性改进
服务器硬盘RAID配置调整;
服务器网络、光纤链路冗余调整;
服务器电源供电接入冗余调整。
4.5.2增强性改进
根据应用系统的特点和运行需求,通过对基础设施的运行记录、趋势的分析,对基础设施进行调整、扩容或升级,包括但不限于:
a)空调系统:
增减精密空调机组、增减APU单元,
增加新风机组、预处理装置等;
b)电力系统:
配电系统包括增加回路、增加ATS设备等;UPS系统包括增加主机数量、增加电池数量等;
c)安防系统:
防雷接地系统包括增加冗余引下线、接地装置,降低接地电阻阻值等;消防系统包括增加传感器和喷头数量,更换高性能控制主机;视频监控和门禁系统包括增加报警联动、增加终端数量、增加存储容量等;
d)综合布线系统:
线路扩容、更换高性能布线等。
e)网络及网络设备增强性改进
硬件容量变化,如网络设备硬件、软件升级、带宽
升级等;
整体网络架构变动;
网络架构容量变化,如网络子系统的增减等;
系统功能变化,如新增功能区、新增安全系统、新
增审计系统等;
路由协议应用及部署调整;
整体安全策略收紧;
交换优化;
冗余优化。
f)服务器增强性改进
为本服务器从存储系统上分配更大空间;
服务器CPU个数增加;
服务器内存容量增加;
服务器磁盘空间扩容;
服务器网卡和HBA接口卡增加等。
4.5.3预防性改进
根据对基础设施的运行记录、趋势的分析,结合应用系统的需求,发现基础设施的脆弱点,有针对性地进行改进性作业,包括但不限于:
a)空调系统:
调整机组位置,调整出回风方式等;
b)电力系统:
配电系统包括更换开关、更换导线、调整回路等;发电机包括更换或添加高标号油料等;
c)安防系统:
防雷接地系统包括焊接点加固、防腐处理等;消防系统包括消防系统预防性改进(按照当地消防管理部门管理要求);视频监控和门禁系统包括门禁系统支持与消防系统和视频监控系统的联动;
d)综合布线系统:
弱电线缆与强电线缆的物理隔离,鼠患排查等。
e)网络及网络设备增强性改进
配置参数优化,例如关闭不必要的服务、打开缺省的增强功能、加快三层网络路由收敛速度、加快二
层网络生成树收敛速度等;
安全优化,例如密码加密,TELNET控制等;
提高软件配置命令可读性。
f)服务器预防性改进
检查服务器硬盘RAID配置,及时修复或更换故障
硬盘;
增加服务器网卡、光纤卡以及链路冗余情况;
增加服务器电源供电模块冗余。
五、服务管理制度规范
5.1服务时间
(1)接收服务请求和咨询:
在5*8小时工作时间内设置由专人职守的热线电话,接听内部的服务请求,并记录服务台事件处理结果。
(2)在非工作时间设置有专人7*24小时接听的移动电
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基础设施 维护 方案