信息网络运行维护管理系统要求规范文档格式.docx
- 文档编号:16483889
- 上传时间:2022-11-24
- 格式:DOCX
- 页数:53
- 大小:1.23MB
信息网络运行维护管理系统要求规范文档格式.docx
《信息网络运行维护管理系统要求规范文档格式.docx》由会员分享,可在线阅读,更多相关《信息网络运行维护管理系统要求规范文档格式.docx(53页珍藏版)》请在冰豆网上搜索。
4.负责建立健全本级运维与上级运维部门、本级运维与下级运维之间高级技术支持之间的顺畅沟通机制。
5.负责本级运维队伍的管理、培训工作。
6.负责落实上级运维部门提出的运行维护任务。
7.管理运行维护部门员工的工作。
8.通过呼叫中心事件管理报告,监控事件管理的效率,改善运维服务质量。
9.负责系统重大故障及紧急事件的处理,并负责组织进行相关事故原因的调查分析,形成事故分析报告和相应的解决方案。
10.在业务部门,信息中心领导,以及信息中心内部维持良好的沟通渠道。
11.完善和维护事件管理系统。
2
支持受理人
1.负责接收用户反映的信息系统问题,并对问题记录、整理。
2.负责对事件分类和提供初始的支持。
3.将问题的解决步骤文档化。
4.将服务请求分派给适当的工作组。
5.跟踪服务请求的处理过程以确保在规定的时间内解决问题,同时在系统里更新相应信息。
6.对于无法解答的技术问题,及时转送其他相关人员;
对于无法解答的业务问题,及时提交运维负责人。
7.与服务请求的提交者进行直接的沟通,通报事件的处理情况。
8.在结束事件之前要确认服务请求的提交者对事件的解决过程及结果是否满意。
9.作为事件的责任人,监控,跟踪所有的事件处理过程,并作为和客户沟通的唯一联系点。
10.编制管理信息报告。
3
问题反应人
1.对于本级运维解决有困难的问题,负责向上级运维中心、高级技术支持或国家电网运维部门及时准确地上报。
2.对于紧急、重大故障问题,负责向上级运维中心、高级技术支持或国家电网运维部门及时准确地上报。
3.负责全程配合、协助国家电网解决上报问题,并跟踪问题的进展、解决、落实过程。
4
系统管理员
1.在规定的时间内解决服务请求。
2.对利用“临时方案"
解决的服务需求,在资源及时间允许时应找到问题根源。
3.在需要时(有重大故障及升级需求时),及时利用其它资源(开发商或供应商)帮助用户解决问题。
4.将服务请求的解决方案的步骤文档化,并录入系统。
5.更新文档记录。
6.和主机管理人、存储管理人、数据库管理人、中间件管理人一道,对业务系统实行全方位的管理。
1.4工作流程与活动
参与事件管理、服务请求管理、重大故障处理、事件升级、一般事件处理、服务报告管理流程涉及的系统运维工作。
具体工作内容如下:
1.3.1事件管理
运维事件管理的总体流程如图1《问题响应管理总体流程》所示:
1.支持受理人接受来自各种渠道的服务请求、告警、故障事件等;
2.通过服务请求管理系统将事件进行记录、分类、确定优先级;
3.根据预定义的重大故障分类,判断是否启动《重大故障处理流程》(见图3);
4.如遇紧急事件,则直接执行《升级流程》(见图4),由运维负责人直接调用适当资源尽快处理;
一般事件则执行《一般事件处理流程》(见图5)。
(图1问题响应管理总体流程)
1.3.2服务请求管理
1.支持受理人接受来自各种渠道提交的有关信息系统运维的服务请求、告警、故障事件等;
2.确认事件请求人是否属于服务对象。
如果不是,则拒绝服务转交其它部门处理;
问题概要需要在《服务请求记录表》(见附录1)中进行详细的记录,如详细情况描述;
1)按照预定义的“系统服务分类”对事件涉及的系统进行分类,如:
网络系统,主机系统、营销系统等;
2)根据预定义的配置管理数据库的相关内容,将事件与配置项联系起来;
3)选择事件的影响程度:
低:
造成个别用户不能正常访问。
中:
局域网内超过5%的用户不能正常访问。
高:
营销系统、“95598”系统等核心业务系统大面积瘫痪,不能正常对公众提供服务,造成负面的社会影响。
4)选择优先级:
无优先级:
无时限要求,在方便的时候排除故障。
24小时内排除故障。
8小时内排除故障。
4小时内排除故障。
最高:
2小时内排除故障。
服务请求管理流程如图4所示。
(图2服务请求流程)
1.3.3重大故障管理
支持受理人完成服务请求流程后,如果事件是属于影响程度最高的故障,则即刻启动《重大故障处理流程》;
1.向最终用户发出服务中断通知;
2.支持受理人同时要尽快将故障情况向运维负责人汇报;
3.运维负责人应立刻通知相关领导以及灾难恢复领导小组(由主要业务部门领导,信息中心领导,主管领导等组成),决定本故障是否通过上级运维部门才能解决,如果是,则由问题反映者联系上级运维中心,上级运维部门根据有关流程予以解决;
4.如果不用上级运维部门解决,则根据恢复时间标准确定是否启动应急预案;
确定需要启动应急预案后,由应急预案小组执行恢复计划,使系统尽快恢复运作;
5.同时运维负责人要召集所有相关技术专家(项目组技术负责人,服务商,厂商以及各系统管理员)进行集中诊断,制定系统修复方案。
并由相关系统管理人联合服务商一起执行系统修复方案;
6.系统修复并经测试成功后,支持受理人发布系统服务恢复通告;
7.联合系统管理员在服务请求系统中将故障的所有信息进行更新,如解决方案,关闭代码,如果在呼叫登记阶段录入的配置项目,分类等有误,需要一并修正;
8.联合相关系统管理员准备“重大故障责任报告”并提出整改措施;
9.运维负责人负责审阅批准重大事件责任报告,并向相关领导分发此报告;
10.运维负责人负责跟进整改措施。
重大故障管理流程如图5所示。
(图(图3重大故障处理流程)
1.3.4事件升级
如果支持受理人接到紧急的服务请求(优先级最高),或在一般事件处理流程中,事件的完成时限超过了承诺的服务时限时,支持受理人可以启动升级流程。
1.支持受理人通知运维负责人,请求支持;
2.运维负责人协调相关资源解决问题;
3.支持受理人负责跟踪事件进度以及确定事件状态;
4.事件解决后,由支持受理人与服务请求者确认并更新事件记录;
5.支持受理人关闭事件。
事件升级流程如图4所示。
(图4事件升级流程)
1.3.5一般事件处理
1、支持受理人接受的服务请求如果不属于“重大故障”或“紧急事件”,按照《一般事件处理流程》完成事件的处理。
一般事件处理流程如图6所示。
2、如果服务请求属于指定工作组的责任,支持受理人直接将服务请求分派给各工作组。
对分派给指定工作组的事件,支持受理人要负责跟踪事件的解决状态,并定期监督相关服务人员尽快完成。
如果相关服务组在接近服务时限(可定为超过服务时限的80%的时间)仍没有确定的解决方案,支持受理人需请求相关专家协助完成。
对不能在服务时限内完成的事件,支持受理人应通过《升级流程》加快事件的解决速度。
事件解决后,支持受理人通过电话等方式与呼叫者进行确认,并更新事件记录,关闭事件。
3、对于非指定工作组处理的事件,支持受理人对事件进行诊断分析,尝试解决。
4、对不能在线及时解决的事件,支持受理人应先在运维管理知识库中查找相应解决方案,找到解决方案后,尽快完成服务请求。
不能解决的事件,请尽快根据服务范围职责划分(服务支持流程人员表),将事件升级给二线支持人员,并跟踪事件处理状态。
如果相关二线支持服务组在接近服务时限的最后期限(可定为超过服务时限的80%的时间)仍没有确定的解决方案,相应系统管理人则需判断是否需要报请上级运维部门予以解决。
如果需要,则通过问题反映者向上级运维部门报告,上级运维部门则按有关流程予以解决,如果不需要则请求三线支持人员协助完成。
对不能在服务时限内完成的事件,支持受理人应通过《升级流程》加快事件的解决。
事件解决后,支持受理人通过电话等方式与服务请求者进行确认,并更新事件记录,关闭事件。
(图5一般事件处理流程)
支持受理人是事件管理流程的一线支持。
各应用系统管理员、网络管理员、主机管理员等是事件管理流程的二线支持工程师。
开发商、集成商、设备供应商等外部服务专家是事件管理流程的三线支持。
1.3.6服务报告管理
服务主管每月利用服务记录表,按照服务管理的指标分类整理各类数据,形成服务请求管理报告,提交给运维负责人进行审阅。
运维负责人负责与相关部门及业务部门针对服务管理报告进行沟通,如果必要提出诸如用户培训、系统优化等建议,并负责跟进改进计划。
1.5管理原则
1、运维中心应设立呼叫中心,做为IT服务管理与用户的接口,受理并处理用户的服务请求。
没条件设立呼叫中心的服务机构应设立服务热线。
2、除非特别的服务说明,任何事件处理不应绕过服务热线来解决。
3、所有最终用户的服务请求应由统一的系统记录在案,并通过系统完成工作分派,监测跟踪,事件升级管理和质量管理。
4、呼叫系统应包含对事件处理进行跟踪及监控的流程。
5、负责呼叫系统的员工应尽最大可能在一线解决用户的问题。
6、对所有问题的解决方法应在呼叫系统所使用的系统工具中存档。
7、应尽量将服务请求与配置项目联系起来。
8、应及时向提交问题的最终用户通报问题的处理情况,系统维护服务的进度和情况也应由服务请求支持员工与最终用户进行沟通。
9、服务请求完成后应确定最终用户对事件解决方案的满意程度。
10、应完整的描述和记录当前信息中心为其它部门所提供的服务、服务级别、以及提供响应的流程文档。
1.6附录
1.6.1附表1服务请求记录表
服务请求记录表
请求信息
报修时间
故障地点
客户电话
IP地址
记录人
系统服务分类:
□网络系统□安全系统□主机系统□存储备份系统
□“95598”系统□营销系统□生产管理系统□OA系统
□人力资源系统□财务系统
事件影响程度:
□高□中□低
优先级:
□最高□高□中□低□无优先级
故障现象
处理过程:
信息系统网络管理规范
3.1适用范围
本规范适用于公司本部和基层单位主机房内的网络设备,包括各种路由器、交换机、防火墙、楼层交换机以及边界路由器和将来投入使用的网络设备的管理工作。
3.2定于与术语
网络事件
由于网络故障,如路由故障、交换故障、IP地址冲突,线路故障、网络设备故障等造成网络中断或服务质量下降的任何事件。
3.3角色与职责
设立网络管理岗,岗位设立AB角,负责网络和网络设备的运行维护管理和监控,保障网络通讯的畅通。
具体职责要求如下:
角色
职责
将服务请求分派给适当的管理人员。
网络管理员
1、负责网络基础运维工作,包括参与网络规划与建设;
版本发布;
网络设备用户管理;
负责IP地址规划、分配和管理;
协助安全管理员对网络安全状况进行评估,提出安全解决方案;
参与网络灾备管理;
定期向运维负责人提交网络系统运行管理报告等。
2、完成网络配置工作,如:
路由、交换协议的配置等;
负责IP地址的规划、分配和管理;
进行网络设备用户管理。
3、分析解决网络故障;
对于重大、紧急网络问题,应立即向运维负责人汇报。
对于外部(例如电信局)原因造成的网络故障,应立即向运维负责人汇报,并及时通知有关部门予以解决。
4、定期进行网络检查,检查的内容应包括:
网络设备状况、网络设备日志错误报告、网络设备配置备份、IOS版本、补丁级别等。
5、定期编写网络维护报告,主要包括网络带宽性能报告,网络设备预防性维护报告,网络资源调整报告。
6、配置信息管理:
对目前使用的网络设备进行配置管理,记录设备的基本信息,如:
主机名、序列号、操作系统和版本号、内存、容量、模块信息、剩余插槽、管理IP、端口IP、端口的连接信息等;
记录设备的维护信息,如:
购买时间、上线时间、退役时间、厂商、集成商、服务提供商、维修记录等;
及时变更配置信息。
7、故障监控:
监控所有网络环境内设备的拓扑信息和监控关键链路的状态;
接收网络设备发送的trap信息和日志,并进行分析、报警。
监控的网络设备的事件应至少包括:
链路状态:
通/断,网络设备:
DOWN/UP,网络设备故障:
如模块down,电源、风扇故障,性能监控中超出阈值的事件,重复IP等。
8、性能监控:
监控广域网链路的性能,性能指标应包括流量、丢包、错包、ping延迟等;
监控网络设备的性能,性能指标应包括CPU利用率、内存等。
9、网络管理员为应用、操作系统管理员提供网络方面的支持。
10、网络管理员应配合安全管理员定期检查非法访问、网络入侵检测工作,如,失败的非法登录、网络流量分析等,并保留记录,归档备查。
9、其他相关网络管理工作。
负责组织相关资源对重大故障及紧急故障进行事故原因的调查分析。
3.4网络系统当前配置基线
3.3.1网络设备资产信息
网络设备实行分级管理的原则,分为核心层设备,汇聚层设备,接入层设备。
其中核心层设备是网络流量的最终承受者和汇聚者,包括网络中的核心交换机和路由器设备(如公司本部的QuidwayS8512,CISCO6509交换机,C7206,7513MX是网络核心层设备),保障核心层网络设备的正常运行是网络运维工作的核心所在。
汇聚层设备用于为核心层和接入层提供桥梁作用,通常实现网络管理,防止广播风暴,快速交换数据包等功能,公司本部汇聚层设备为所有边界路由器。
接入层主要功能是为最终用户提供对网络访问的途径,接入层设备包括各设备间接入交换机。
网络设备资产配置基线详见附表1《网络设备资产列表》
3.3.2核心层网络设备配置信息
保障核心层设备的正常工作是运维工作的重中之中,核心层网络设备配置表的通常目标是为了更好的维护核心层设备,提供网络中使用的核心硬件和软件组成的列表,其组成详见附表2《核心层网络设备配置表》
3.3.3网络拓扑图
1.广域网拓扑结构
2.公司本部局域网拓扑结构
3.5工作流程与活动
3.5.1网络事件管理
1.服务请求受理人接收用户报告的网络相关事件,根据问题响应流程-服务请求流程将事件分派给网络管理员。
2.网络管理员根据事件的范围、影响和紧急程度对网络事件进行分级。
(1)一级故障:
广域网络因链路中断或质量严重下降(丢包率>
50%),网管、业务不可用,且持续等效停机时间≥4小时。
局域网络由于设备或链路故障造成关键应用不能被访问,业务中断时间≥4小时。
(2)二级故障:
50%),业务不可用,且持续等效停机时间≥2小时。
局域网络由于设备或链路故障造成关键应用不能被访问,业务中断时间≥2小时。
(3)三级故障:
50%),业务不可用,且持续等效停机时间≥0.5小时。
局域网络由于设备或链路故障造成业务中断时间≥0.5小时。
3.遇有一、二级网络故障,网络管理员须立刻将事件升级到信息中心运维负责人。
4.运维负责人协调、组织相关资源,处理网络事件,并通告相关部门。
(1)事件受理人向用户发出通知,通报发生的网络事件及进展。
(2)网络管理员联合系统服务商,各系统管理员负责相应的系统,对事件进行诊断、定位,查找问题根源。
(3)找到原因后需要确定受影响的系统范围,进行紧急修复,如系统隔离、设置防火墙、路由器规则,更新系统补丁等。
在进行修复时应注意采取措施进行证据的收集和保全,记录或复制入侵证据、破坏和损失,归档备查。
(4)恢复系统服务和数据,网络管理员联合网络服务商和系统管理员对受到影响的系统进行全面评估,并对存在类似隐患的所有系统进行分析统计,制定相应的解决方案,并由网络管理员负责跟进落实。
5.对于三级网络故障,由网络管理员进行调查处理,必要时联合系统服务商和各系统管理员。
6.进行网络故障修复、加固防护所进行的配置和更改工作,都需要进行相关测试。
故障恢复后要网络管理员要负责填写并维护《网络系统故障登记表》,负责网络事件的跟踪管理。
3.5.2网络基础运维管理
1、规划与建设。
参与网络的规划、建设工作,对网络建设中的一些重大问题提出参考意见、建议。
提出具体实施方案并负责执行。
2、版本发布。
网络管理员参与项目的测试和发布,根据项目要求完成测试网络环境的搭建、测试及维护工作。
3、管理报告。
网络管理员定期向运维负责人提交网络运行状况报告,报告的内容包括当期网络故障情况、带宽的使用率和网络维护的任务完成情况等。
4、灾备计划。
网络管理员参与灾备管理工作,在创建网络的灾难恢复计划时,负责制定有关网络层面的灾难恢复计划及测试该计划;
在灾难恢复计划的演练时,负责网络的恢复演练;
在网络有大的变更时,负责更新灾难恢复计划的相应部分;
灾难发生时,负责网络的恢复、切换工作。
网络灾备计划参见《网络应急预案》。
5、系统资源变更。
在操作系统,数据库或各应用系统等提出变更需求时,若需要网络作相应变更,网络管理员协助完成相关变更。
6、用户管理。
创建和维护网络设备的用户帐号,定期检查网络设备用户权限,对网络设备的用户密码进行变更。
7、安全管理。
网络管理员应定期评估网络设备及相关协议的的安全性,更新IOS补丁,使用访问控制列表对协议、端口进行配置。
8、配置管理。
网络管理员定期备份网络设备配置文件,按照配置管理的要求提供网络的操作系统,硬件和配置信息,并以书面形式和电子文档形式交给机房值班人员保管,当配置信息变更时,及时更新。
对于需要保密的部分信息可以采取加密等适当的方式进行保护。
3.5.3网络巡查管理
3.5.4.1每天例行工作内容
检查核心层设备硬件运行情况,巡查的内容包括:
硬件设备状况,路由状态、VLAN状态、VRRP状态、端口状态等。
网络管理员巡查结束后提交《网络设备巡查报告》给运维负责人,并抄送信息中心负责人。
3.5.4.2每周例行工作内容
检查网络汇聚层硬件运行情况,巡查的内容包括:
硬件设备状况,路由状态、VLAN状态、端口状态等。
3.5.4.3每月例行工作内容
对本单位核心层和汇聚层设备进行全面检查,检查内容包括硬件运行情况,日志错误报告,网络设备配置备份,IOS版本等。
对接入层设备进行抽查,检查内容包括接入层设备硬件运行情况,指示灯状态,网络连通状态等。
3.5.4网络故障处理
网络管理员分析和解决由支持受理人或机房值班员分派的网络故障。
故障解决后,将故障原因,解决办法等信息反馈给支持受理人或机房值班员。
并根据需要维护运维管理知识库相关内容。
一级故障需在故障恢复后填写附表4《网络系统故障处理报告》,提交给运维负责人。
3.5.4.4故障处理步骤
(1)收集故障症状,判断故障原因
1)分析现存症状
2)判断所属
3)窄化范围
4)判定症状
5)记录症状
(2)分离问题
1)从物理层开始向上排查,直到应用层。
常用于怀疑问题发生在物理层,或在处理复杂网络问题时使用。
2)从应用层开始向下排查故障,用于怀疑问题发生在软件部分。
3)选择OSI模型的特定层(数据链路层、网络层、传输层)开始故障处理,确定问题是在该层、还是上层或下层。
(3)纠正问题
3.5.4.5线路故障处理方法
1.当线路发生故障时,首先通过使用ping命令快速判断是线路运营商方面的原因,还是用户方面的原因,以便分清责任,尽快加以解决。
2.若属于线路运营商方面的原因,网络管理员应及时通知运营商对问题进行诊断,定位,并协助运营商查找问题根源,恢复网络。
3.若链路故障是因为对端网络中断引起的,网络管理员应及时通知对端网络管理员对问题进行诊断,定位,并协助对端网络管理员查找问题根源,恢复网络
4.若链路故障是因本端网络引起的,网络管理员应对问题进行诊断、定位、查找问题根源。
5.执行系统修复和测试。
详细操作步骤可参见附表7
3.5.4.6设备故障处理方法
1.当发生设备故障时,网络管理员首先确认是软件故障还是硬件故障。
2.如判断为软件故障,如配置文件丢失或非法更改,网络管理员利用事先的备份配置文件重新配置设备并进行测试。
3.如判断为硬件故障,首先检查设备的端口的LED状态指示灯是否正常,如端口指示灯显示故障,将该端口网线连接到其他冗余端口,如端口指示灯正常,则需要继续查找。
4.其次查看特定部件,如为板卡故障,切换到备用板卡并进行配置和测试,故障板卡报修;
5.如为主引擎故障,紧急切换到备用交换机,并进行相应配置和测试,整机进行保修。
6.执行系统修复和测试。
详细操作步骤可参见附表7。
3.6考核办法
3.7.2考核目的
信息网络系统作为四川电力公司信息化系统基础设施,在电力系统已起到至关重要的作用。
为保障网络系统的正常运行以及确保本规范明确的各项工作要求在实际工作中得到贯彻和落实,信息网络系统运维知识的培训、管理、考核工作应是必不可少的。
3.7.2考核内容
网络系统管理员的考核是由部门运维负责人直接考核,其主要内容应包含:
(1)是否对信息网络系统进行监控与巡查,并严格按照规定记录相关信息;
(2)是否对故障以及问题进行及时的解决;
(3)是否按照规定对系统进行备份;
(4)在维护流程中是否按照规定,进行书面申请或记录;
3.7附录
3.8.1附表1网络设备资产列表
网络设备资产列表
设备分级
设备分类
设备型号
序列号
管理IP
IOS版本
位置
管理人/使用人
维护合同
设备原厂商/联系方式
集成商/联系方式
开始使用时间
结束使用时间
备注
核心层
交换机
QuidwayS8512
公司本部中心机房
华为/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息网络 运行 维护 管理 系统 要求 规范