IT服务管理项目事件管理流程设计手册.docx
- 文档编号:7788792
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:41
- 大小:52.21KB
IT服务管理项目事件管理流程设计手册.docx
《IT服务管理项目事件管理流程设计手册.docx》由会员分享,可在线阅读,更多相关《IT服务管理项目事件管理流程设计手册.docx(41页珍藏版)》请在冰豆网上搜索。
IT服务管理项目事件管理流程设计手册
事件管理流程设计手册
文档信息
项目名称:
项目编号:
项目经理:
项目阶段:
文档名称:
文档编号:
文档起草人:
起草日期:
当前版本编号:
版本日期:
相关文档:
分发名单
来自From
日期
电话/传真/Email
给To
行动*
截止日期
电话/传真/Email
*:
行动类别:
批准,复审,通知,存档,修改,其它(请指明)
版本记录
版本号
版本日期
修改者
说明
文件名
图目录
表目录
1.文档介绍
1.1文档简介
本文档『XXX事件管理流程设计手册』,是XXX信息技术总部(以下简称XXX)团队制定的事件管理流程文档。
通过制定该流程,可以帮助XXX信息技术总部团队对主动监控发现以及用户上报的故障和服务请求进行快速响应和快速处理,尽快恢复中断或受影响的用户业务。
通过该流程的规范,可进一步改进XXXIT服务向用户提供的服务水平和服务质量,确保用户对服务价值的认同和肯定。
本文档是依据目前XXX的IT服务状况而制定的事件管理流程,进一步的流程更新将移交由XXX服务团队负责。
1.2文档用途
本文档既是本次IT服务管理项目事件管理流程的交付物,也可作为XXX服务团队进一步改进事件管理流程的蓝本,读者对象为与事件管理流程相关的所有管理与技术人员.
本文档所描述的流程在IT服务管理中有许多作用,列举如下:
减小突发事件对业务的影响;
最优化支持资源,提高工作效率;
屏蔽错误事件和服务请求;
根据影响业务轻重缓急安排资源解决事件,保障有效IT运营;
加强有形监控和及时反馈;
提升用户对服务的认知度和满意度;
提供管理信息;
1.3文档结构
本文档作为XXX事件管理流程设计手册,主要包含针对XXX服务运营中对用户故障及用户请求处理等相关人员及活动的定义和描述。
各章节中内容概要如下:
文档介绍
主要对文档的目的、用途及结构进行简要描述,并就文档当中出现的术语进行了说明。
事件管理流程简介
主要对事件管理流程的基本概念、目的和范围进行了介绍。
同时简单梳理了事件管理流程中包含的主要活动内容,最后对事件管理流程对组织及用户的业务价值进行了相关阐述。
事件管理流程设计
该部分为本文档的重点章节。
在该章节中,首先对事件管理流程的相关执行原则和代码进行了描述;其次,对事件流程相关角色的职责和技能要求进行了说明;基于流程原则和角色定义,进而对事件管理的概要设计流程及详细设计流程进行了充分定义,并给出了事件管理流程的关键衡量指标,以保证对流程运行的监控、管理和改进。
附录
与事件管理流程相关的附属内容,都将在附录中进行补充说明。
1.4术语
服务台
在ITIL中,服务台从根本上来说提供了用户和IT部门的唯一接口。
此项功能常常通过集中的服务台进行体现。
服务台的根本目的是提供一线支持,并通过变通方法、解决方案或升级到二线支持等手段帮助用户恢复到正常工作状态。
事件管理
ITIL流程,是负责解决所有的IT事件、问题和用户请求等的管理流程。
它的目的是尽快恢复被中断或受到影响的IT服务,所以它的特点往往是以解决表征现象为目的,而不在于查找根本原因。
问题管理
ITIL流程,是负责对事件进行深入分析,找出根本原因并提供解决方案的管理流程。
它的目的是主动防御,找出根本原因并对其根除,所以它与事件管理流程有显着的不同,以“治本”为最终目标。
变更管理
ITIL流程,是负责对生产环境中支持IT服务的各种基础架构设备和应用系统的变更操作进行记录、分类、评估、计划和协调的流程。
它的目的是在权衡“风险”和“效率”的前提下,对变更操作进行有效的控制,以保证任何变更对IT环境和其所支撑的IT服务的影响最小。
发布管理
ITIL流程,是负责对应用系统上线过程的全局管理和控制。
管理范围涉及测试环境、预发布环境和生产环境等,旨在通过对发布单元的生命周期各个阶段的控制保证其安全稳妥的进入生产环境,而不引入新的缺陷或故障。
配置管理
ITIL流程,配置管理负责描述,跟踪和汇报所有IT基础架构中的每一个设备或系统的管理流程。
这些设备和系统被称为配置元素(CI)。
每一个CI必须有效管理,跟踪和控制以支持IT服务和基础设施成功运行。
配置管理数据库(CMDB)
是在配置管理流程中用于记录企业所有IT相关配置元素信息及其相互关系而建立的数据库。
ITIL
ITInfrastructureLibrary,是英国政府在1987年制定的有关IT服务管理的方法论,现已成为事实上的IT管理标准。
2.事件管理流程简介
2.1流程基本概念
事件管理流程通过提供服务台作为日常IT支持接口,由IT支持人员根据流程定义,快速响应和解决IT用户的服务请求、突发事件、投诉反馈等,最大化地减少突发事件对用户业务活动的影响,最终确保SLA目标的实现。
事件管理流程相关的几个关键词汇解释如下:
“日常支持接口”:
即服务台,该接口将采用集中服务方式,向所有IT用户提供唯一服务窗口,按照业务需求,提供相应级别的支持服务。
“IT用户”:
指的是指XXX服务的使用者,他们使用XXX提供的IT服务来支持相关日常业务。
“IT支持人员”:
指的是XXX服务团队中IT运维和支持人员的统称,包括一线人员和二线人员等,可能涉及XXX体系中的相关的开发、支持和运维等团队。
“一线支持”:
指服务台的通用座席,向IT用户提供一线支持服务,以下提到的服务台人员即一线支持人员。
“线支持”:
指机房值班人员(交易系统故障时)和桌面维护人员(桌面故障时),在桌面类和机房交易系统相关事件处理过程中实施IT支持服务;
“二线支持”:
主要由各职能小组运维工程师组成,协助服务台一线人员参与事件处理,相对一线支持人员,二线支持具有更高更专业的技能。
“三线支持”:
指各职能小组组长,在复杂度较高事件或二线支持无法解决事件时负责协调小组内部人员进行事件处理,三线支持更多的强调管理协调职能。
“四线支持”:
指XXX开发团队和供应商等。
“事件”:
指XXX在用户IT环境中发现的所有非正常事件,对现有的服务造成影响或中断。
例如:
服务器宕机、网络中断、应用不可用等。
从来源上来分,主要包括由信息技术总部内部人员发起的事件以及有用户报告的事件等。
“服务请求”:
指用户提出的关于标准服务、培训、文档、信息等方面的请求,以及针对IT服务使用的咨询等,通常并没有发生IT组件方面的故障。
例如:
请求培训、寻求咨询等。
服务请求是一种特殊类型的事件。
“投诉反馈”:
指由用户提出的对于IT服务质量或服务方式的抱怨或改进建议,通过服务台统一接受,并进行相应处理。
2.2流程目的
事件管理流程的主要功能是尽快解决出现的事件,保持业务支撑系统的稳定性,其目的包括:
在成本允许的范围内尽快恢复IT服务
快速响应故障及服务请求
用户在线获得帮助
沟通事件解决的状态
和用户确认事件的解决
进行事件控制
按规范记录事件
就事件的优先级,影响度进行分类
分析,诊断,必要时进行升级
监视并结束事件
进行定期服务流程回顾
提供IT管理信息
人力资源利用情况
故障处理情况
支持效率
2.3流程范围
XXX事件流程管理范围包括所有用户与XXX信息技术总部内部的事件、服务请求和投诉反馈等。
其中:
不包括现有应用系统新增功能需求
不包括用户对于信息类设备和应用系统的新需求
不包括新系统开发需求
2.4流程主要内容
事件管理流程始于事件的接收和报告,结束于事件的解决。
该流程包含下述主要内容:
事件接收和记录
这个环节是事件管理流程的起点。
所有监控系统或用户报告的IT事件必须由此步骤开始。
此步骤的目的是在事件发生时快速准确地发现,以协助事件的诊断和解决并通知相关人员。
在此步骤中将会收集创建事件记录所需的信息。
该环节的关键是信息的准确性和完整性。
分类和初步支持
对于每个事件,需要确立优先级和分类。
若没有现成的解决方案(Solution)或变通方法(Workaround),该事件将分配给合适的支持人员对此进行调查。
调查和诊断
若支持人员无法利用现成方案解决事件,可运用自身技能、知识库、诊断工具等进行更加深入的分析以找到恢复服务的临时措施,必要时可调用多名支持人员以寻求解决措施。
解决和恢复
支持人员实施事件的解决方案,并将解决完毕的事件转回服务台,由服务台通知用户解决的结果,并得到用户的确认。
事件升级
对于高优先级的事件,服务台应立即上报给事件经理和相关的管理层,由事件经理决定事件的处理方式,确保其得到最快速的解决。
当事件处理超过预期解决时限,应通知相关处理人员和管理层,以引起处理人员和管理人员的重视和参与。
结束事件
当用户确认事件解决后,可结束该事件。
2.5流程业务价值
XXX事件管理流程将在多个方面对“XXX服务”业务产生积极作用,具体表现在以下几个方面:
单一联系点–通过在团队内部建立服务台,作为与用户沟通联系的单一联系点。
对用户方发生的故障及用户上报的服务请求进行快速响应和统一管理,对内部服务支持资源进行合理协调和调配。
同时,服务台作为IT服务窗口,也进一步维护和加强了与用户的关系,为提高用户体验和满意度起到了重要作用。
用户业务尽快恢复–通过合理调配资源,使用知识库等相关支持工具,对不同级别事件选择各自的解决时限,对用户被中断或受影响的业务进行快速响应和恢复。
内部团队协作加强–为服务支持团队成员分配角色,并清晰界定职责。
通过事件管理流程将团队成员进行有效的连接,加强内部团队协作和沟通的有效性和工作效率。
服务质量控制和改进–通过定期提交流程相关指标和报表至管理层,以实现对流程的监控和管理,同时为服务质量的改进奠定基础。
3.事件管理流程设计
3.1流程执行原则
3.1.1.流程常规原则
所有在流程范围内发生的事件,都应该被完整准确的记录下来,记录的信息应足够详细,包括事件处理交互过程,详细的解决方案和相关的附件等。
事件处理过程中,在需要寻求第三方的情况下,遵循下述原则:
根据事件实际处理情况,各二线或三线支持寻找相应供应商
在供应商参与解决事件的过程中,事件当前处理责任仍保留在二线或三线人员处
XXX服务支持体系是由信息技术总部全体人员共同组成的,事件的处理过程中必须加强一线和二线的沟通,沟通的方式优先使用工具(服务管理平台),在需要的时候必须辅助电话、短信、邮件等手段。
所有支持人员优先处理优先级较高的事件。
对于来自于服务台转入的事件(包括故障/服务请求/咨询/投诉建议),首次接听电话并进行支持的服务台人员负责在系统中进行登记,并由该员工成为该事件在XXX范围内的责任人,确保事件在在XXX内部得到有效跟踪、解决,并将解决结果反馈给服务台。
每月定期产生事件管理报表,分析服务质量,对重大事件、重复发生的事件或者利用变通方法解决的事件,应提交问题管理流程进行问题定义分析和解决,并定期对这些事件进行评估跟踪。
建议每三个月对流程进行回顾,包括流程执行效率和流程支持工具的有效性,以改进和优化事件管理流程。
3.1.2.责任制原则
责任制原则用来确保每个事件在任何时段都有适当的人员负责。
由监控系统上报的事件,对故障进行识别并在系统中记录的服务台人员是该事件的责任人,确保事件得到有效跟踪与解决,并负责事件单的关闭
由用户电话上报的事件,首次接听电话并进行支持的服务台人员负责在系统中进行登记,并由该员工成为该事件的责任人,确保事件得到有效跟踪与解决,并负责事件单的关闭
服务台员工换班时,由服务台值班经理进行事件重新分派,事件责任人也由此转移
事件被服务台人员转至二线人员或第三方后,二线人员/第三方成为该事件的当前责任人,但服务台人员仍然是事件的整体负责人,有义务对事件处理状态按相应策略进行监控,并及时反馈给用户,保证事件的处理过程对用户充分透明。
3.1.3.事件分派原则
事件分派原则是确保事件在服务目标时段内处理和解决的重要因素。
服务台一线支持人员在规定的一线处理时限内,可按情况选择转给其他在值服务台一线支持人员进行处理
服务台一线支持人员在规定的一线处理时限内不能解决事件时,原则上根据事件分类分派到相应二线支持人员。
在特定情况下,比如二线支持人员的非工作时间内,服务台一线支持人员在派单后利用电话方式通知二线人员相关事宜。
桌面类故障导致事件直接由线桌面运维小组进行处理
开市期间交易系统故障,直接由线机房座席接听处理。
服务台一线支持人员在判断事件为交易系统故障后,应第一时间按策略通报机房处理,不能明确界定是否是交易系统故障,亦应交机房处理。
3.1.4.事件重分派原则
二线支持接受服务台分派事件后,如果该事件不属于本人支持范围或者自身能力无法处理,二线人员需首先注明原因,然后将事件返回到服务台,由服务台重新分配。
为提高事件解决效率,应当尽量减少事件单重分派的几率。
事件单的重分派次数不应该超过2次。
同组的事件单再分派不被监控;
任何跨组的事件单再分派将会报告给事件经理;
事件再分派超过2次,事件单将升级给事件经理;
3.1.5.重复/复发事件原则
重复事件
如果被报告的事件与某个已经创建且尚未解决的事件单症状相同,则该事件被认为是重复的。
将会为此重复的事创建新的事件单,并标注此单为“重复”并与原始事件单相关联。
原始事件将被标注为“主事件”
复发事件(3天内同一用户,同一件事)
如果报告的事件与已经关闭的事件相同,该事件被认为是“复发”的事件单。
这意味着为了解决事件而采取的解决措施失败了(或失败或误再报)。
此时,应当创建一个新的事件单,复制原始事件单的内容,并说明这是复发的事件。
3.1.6.事件关闭原则
事件单的关闭必须由服务台对应1线支持人员完成,但是事件经理可以超越此规则。
其他人无权关闭事件单。
二线支持人员确定解决方案并解决事件后,必须把事件返回到服务台。
事件单的用户可以要求关闭此事件单,例如:
误报、错报事件。
关闭事件单由事件单对应一线支持人员负责。
服务台人员关闭事件前,需获得客户对解决方案的确认和反馈。
关闭事件时,根据实际解决情况填写事件的结束代码。
已关闭的事件单不允许重开。
如果事件重复发生,则创建一个新的事件单,并标识为复发事件。
对于以“变通方法解决”或“不能重现”结束代码关闭的事件,需通知问题经理对此类事件进行分析并在必要时生成问题,通过问题流程对问题进行根源分析并提供解决方案。
所有优先级为最高的事件在关闭后,需通知问题经理对此类事件进行分析并在必要时生成问题,通过问题流程对问题进行根源分析并提供解决方案。
对于未及时取得用户反馈的已解决事件,系统将对其保留3日。
3日内服务台人员应至少每天主动与用户联系1次。
若3日后仍未得到用户有效反馈,系统将自动关闭事件,并标识结束代码为“自动关闭”字样。
3.1.7.事件通报原则
对于监控系统自动发现的告警信息,服务台人员有责任对其进行识别。
如确认为一条事件,则应首先在第一时间通报相应用户和事件经理,然后在服务管理平台中进行记录。
通报策略具体如下:
通报方式
用户工作时间内采用正式的通知方式进行通报
用户非工作时间采用邮件方式进行通报
与用户通报相关的其他方式参考与用户签订的SLA中的具体定义
采用邮件的方式通知事件经理;
如果由于用户原因第一时间无法完成通报,应首先在服务管理平台中登记一条事件,并置于“挂起”状态,相关服务台人员有责任在开单后每隔5分钟主动尝试联系用户3次。
若3次后仍无法取得联系,则应在事件工作日志中注明“无法联系到用户”的字样,并进行后续处理;若3次内取得联系,则在与用户确认故障后,取消事件“挂起”状态并进行后续处理。
通报对象
依照事件分类表中定义,向用户部门相关人员通报
最后通报事件经理
通报内容
事件简要描述
可能受到影响的用户方业务(或范围)
确认是否为用户方运维操作导致
可能导致事件的原因
预计解决事件的时间点
3.1.8.事件升级原则
制定升级原则的目的是确保事件在规定的解决时限内能够及时通知相关技术人员和管理人员,引起足够的重视,协助提供合适的资源,从而快速找到解决事件的方案。
优先级为最高的事件,需要立即事件升级,同时,事件继续按事件管理流程进行快速处理
超出规定的响应或者解决时限之后,需要立即升级事件,同时,事件继续按流程进行快速处理
事件重复派单超过三次直接升级给事件经理
具体事件升级机制如下表所示:
表31事件升级机制
事件升级机制
小组技术经理
事件经理
运维经理
技术总部领导
公司领导
优先级1
5分钟
5分钟
10分钟
10分钟
15分钟
优先级2
1小时
1小时
1小时
小时
优先级3
2小时
2小时
优先级4
4小时
4小时
3.1.9.流程关联原则
和问题管理的关联
一线支持在解决事件的过程中,可以通过问题记录查找相应的解决方案
通过分析事件记录,形成问题,并使该问题与相关事件建立关联
通过事件单和问题单的关联,服务台人员对问题的解决状况进行跟踪并和用户保持沟通
对高优先级事件或者“变通方法解决”或“无法重现”关闭的事件,由问题管理流程生成问题进行进一步分析,直到确定根本原因,得到根本解决。
事件单和问题应建立关联。
和变更发布管理的关联
事件处理过程中,如果需要对相关IT组件进行变更(不在标准变更清单内的变更),必须按照变更管理的定义,提交变更请求(变更单必须和事件单建立关联),变更完成后,继续事件的处理。
高优先级事件的处理过程中,如果需要对相关IT组件进行变更,必须按照变更管理的定义,提出紧急变更请求,变更完成后,补录紧急变更单,并和事件单建立关联。
和配置管理的关联
事件处理过程中,可以通过配置管理查询相关的配置项信息(尤其是关系信息)以及该配置项历史上发生的事件、问题或变更,来帮助故障的定位
事件处理过程中,如果可以将故障定位到某个配置项,则必须将事件单与该配置项关联
3.2流程相关定义
3.2.1.事件信息项
事件单必须包含如下事件信息项,XXX服务团队可以在此基础上进行扩充:
表32事件信息项
序号
信息项
说明
1
事件ID
事件单流水号(系统自动产生)
2
事件请求人
事件申报人的信息,包括:
姓名、公司、部门、电子邮件、办公电话、手机
3
事件登记时间
在服务台生成事件记录的时间(系统自动产生)
4
事件登记人
事件开单人的信息,包括员工姓名、员工ID、联系方式等(系统自动产生)
5
事件发生时间
针对故障:
指的是业务中断的实际时间(可能早于登记时间,自动设置或者手工填写);针对用户请求:
缺省值等于登记时间。
事件发生时间必须早于或等于登记时间。
6
事件发生地点
事件发生的位置信息
7
事件来源
参见“事件来源”定义
8
事件标题
事件的简要描述
9
事件描述
对于整个事件内容的详细描述
10
事件性质
参见“事件性质”定义
11
事件分类
参见“事件分类”定义
12
事件状态
参见“事件状态”定义
13
事件影响范围
参见“事件影响范围”定义
14
事件紧急程度
参见“事件紧急程度”定义
15
事件优先级
参见“事件优先级”定义
16
事件完成期限
对应每一个事件优先级,系统根据流程相关定义中“事件解决时限”自动设定最终的完成期限(系统自动产生)
17
事件分配工作组
被分配的支持小组
18
事件分配人员
被分配的支持小组内成员
19
事件工作日志
反映事件处理过程的信息
20
解决方案/变通方法
事件解决方案/变通方法的描述
21
事件解决人
事件的最终解决人
22
事件解决人角色
参见“事件解决人角色”定义
23
事件解决时间
记录事件状态为“已解决”的时间(系统自动产生)
24
处理是否超时
参见“处理是否超时”定义(系统自动产生)
25
涉及第三方支持
XXX和第三方集成商名称
26
关联配置项
记录出现故障的线路编号或者CPE设备编号
27
关联的问题单号
记录由事件引发问题时,关联的问题单号
28
关联的变更单号
记录由事件引发变更时,关联的变更单号
29
事件结束代码
参见“事件结束代码”定义
30
事件关闭时间
记录事件状态为“结束”的时间(系统自动产生)
31
重复事件标记
标记为重复事件
32
对应告警ID
事件如来自于监控系统告警,则填写对应告警的ID;若为用户自动上报,此处为空不填
33
用户满意度
用户对事件处理的满意程度。
分值从5分至1分,分别对应非常满意、比较满意、一般,不太满意及很不满意
34
用户反馈信息
用户对事件处理过程及结果的意见或建议
35
附件信息
事件相关附件信息
IT运维事件单
(含事件、信息咨询、服务请求)
事件单编号:
(示例:
0001)
受理事件基本信息
■受理时间
2007年月日时分
■受理人
用户所属部门
申报人
申报人电话
申报人EMAIL
申报方式
□电话□邮件□工作台□现场□其他
受理人根据事件形成事件信息
服务分类
□故障□问题□改进□咨询□业务需求□投拆□其他
事件分类
桌面终端类:
□PC机故障□局域网故障□软件故障□外设故障
基础设施类:
□硬件故障□操作系统/DB/系统软件故障□网络故障□机房环境故障(空调、UPS等)
应用系统类:
□可用性□响应速度□功能性□易用性(应用系统列表选择)
影响度:
人员分类
报障人员分类
□VIP1□VIP2□普通
影响度:
受影响人员分类
□单内部客户□单部门□2个部门以上
影响度:
□单外部客户□单营业部□2-4个营业部□4个营业部以上
影响度:
关键设备
□关键设备(列表选择)□非关键设备□未知
影响度:
典型事件分类
□典型事件(列表选择)□无对应典型事件
事件描述
事件影响度
事件紧急度
□1-危急(5分钟)□2-紧急(高,30分钟)□3-紧急(中,2小时)□4-紧急(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IT 服务 管理 项目 事件 流程 设计 手册