8A版IT系统应急响应及恢复预案编写指南.docx
- 文档编号:5651095
- 上传时间:2022-12-30
- 格式:DOCX
- 页数:22
- 大小:27KB
8A版IT系统应急响应及恢复预案编写指南.docx
《8A版IT系统应急响应及恢复预案编写指南.docx》由会员分享,可在线阅读,更多相关《8A版IT系统应急响应及恢复预案编写指南.docx(22页珍藏版)》请在冰豆网上搜索。
8A版IT系统应急响应及恢复预案编写指南
IT系统应急响应及恢复预案编写指南
20XX年7月1日
目 录
修订说明:
3
修订记录4
1.总则6
1.1.目的和依据6
1.2.适用范围6
2.系统及资源8
2.1.系统信息8
2.2.系统描述9
2.3.运行指标9
2.4.关联系统10
2.5.物理架构11
2.6.网络拓朴11
2.7.IP及端口11
2.8.系统软硬件11
2.9.后备资源13
2.10.用户分配14
2.11.其他信息14
3.标准处置预案15
3.1.标准处置16
4.故障快速定位20
4.1.快速定位流程20
4.2.定位流程描述20
4.3.故障快速定位排查内容20
5.系统应急场景分类及描述22
5.1.故障场景分类22
5.2.硬件故障场景22
5.3.通用软件故障场景26
5.4.应用软件故障场景28
5.5.网路故障场景29
5.6.其它故障场景30
5.7.恢复回切场景30
6.附录31
附录一:
人员联系表31
附录二:
应急演练方案32
附录三:
应急演练报告32
附录四:
故障应急报告32
附录五:
故障现场收集脚本32
修订说明:
北京数据中心于20XX年3月推出《北京数据中心总体应急预案V1.0》(简称总体预案)和《中国建设银行GG系统应急响应及恢复预案(模版V3.0)》(简称新预案模板)。
总体预案主要适用于北京数据中心信息系统突发事件的处理,并指导各信息系统编制系统应急预案。
在总体预案中,对事件分级及处置原则、中心应急组织架构及职责、应急响应及恢复流程、应急预案管理等内容进行了描述。
新预案模板主要用于指导数据中心各系统应急新版预案的修订工作。
新预案模板在V2.0版本基础上,对架构和内容进行了全面的修订,重点加强了系统应急管理、故障快速定位和故障场景等内容的描述。
可确保特定系统发生突发事件时,应急人员能依据预案预设内容,规范处置和快速恢复应用。
系统预案中相关的事件分级、处置和应急流程等在总体预案中都有详细描述。
在修订过程中,编制人员可参照总体预案进行新版预案的修订。
新预案模板由六章组成,分别是总则、系统及资源、标准处置预案、故障快速定位、系统应急场景分类及描述和附录。
新预案模板与V2.0版预案在文档结构对照关系可参见下表:
新版预案模板V3.0
旧版预案模板V2.0
备注
1总则
新增内容
2系统及资源
1.应用系统简介
2.系统资源配置
对应旧预案第一、二章部分内容
3标准处置预案
新增内容
4故障快速定位
新增内容
5系统应急场景分类及描述
7.技术应急维护操作手册
对应旧预案第七章部分内容
6附录
9附录
对应旧预案第九章部分内容
3.管理部门及职责划分
4.应急组织设置
5.系统应急管理
6.应急处理流程
8.预案演练和更新
相关内容将统一出现在中心总体预案中
新预案模板保持了应急预案版本建设的连贯性,减少了预案版本升级所可能产生的困难和产生的工作量,便于预案修订人员参考使用。
本编写指南在主体结构与预案模板也基本保持一致,希望能帮助预案修订人员顺利完成新版应急预案修订工作。
修订记录
说明:
每次系统升级及变更配置后,都必须对应急预案做相应的修订,确保这些变化造成的影响能够在应急预案模版中反映出来并使之符合系统现有状况。
预案维护人员严格执行版本控制,在预案内容更新后时应该确保相关人员都能及时得到最新版本。
示例:
修订日期
版本号
修订说明
修订人
审核
20XX.1
V1.0
建立数据中心应急预案模板
吴磊
杨晓勤
20XX.1
V2.0
修订应急预案第五、六、七章节
吴磊
张翔
20XX.6
V2.5
修订第四、第七、第八章节
吴磊
张翔
20XX.3
V3.0
全面修订应急预案结构和内容,新增第三、第四章内容
吴磊
付林
1.总则
1.1.目的和依据
说明:
请在此简要描述本预案编制的主要目的,本预案在建设银行业务持续性突发事件应急响应及恢复工作(以下简称“应急响应及恢复工作”)过程中所发挥的作用和执行的功能,以及编制本预案的主要依据。
示例:
防垃圾邮件网关系统(MGAT)应急预案(以下简称MGAT预案)是邮件网关系统遇到紧急情况或运行中断后为恢复邮件网关服务所采取的快速有效的应对手段。
通过建立包含应急启动、执行、恢复等流程、步骤和技术操作方案,为系统相关组织、人员处理应急情况提供指导;并作为与总行其他应急相关人员进行协调的依据。
1.2.适用范围
说明:
请在此明确本应急预案的具体适用范围。
如指明该预案适用于因GGG突发事件所导致的建设银行GGG业务发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。
示例:
本系统应急预案适用范围是北京数据中心与本系统有关的所有组织体系和人员,适用于北京数据中心邮件网关系统的运行所需的功能,操作和资源。
该预案适用于因邮件网关系统突发事件所导致的建设银行邮件收发发生中断,需要采取应急处置和恢复措施予以应对的操作风险事件。
邮件网关系统简称为MGAT,产品英文名称为Websense邮件网关。
2.系统及资源
2.1.系统信息
应用系统中文全称:
说明:
请在此描述应用系统在北京数据中心(或ITSM系统中)的中文全称。
应用系统英文缩写:
说明:
请在此描述应用系统在北京数据中心(或ITSM系统中)的英文简称。
应用系统负责部室:
说明:
请在此描述应用系统在数据中心(或ITSM系统中)的负责部室。
应用系统管理员:
说明:
请在此描述应用系统在数据中心(或ITSM系统中)的应用预案修订人员A/B角或者管理团队。
平台系统管理员:
说明:
请在此描述应用系统在数据中心(或ITSM系统中)的平台预案修订人员A/B角或者管理团队。
网络管理员:
说明:
请在此描述应用系统在数据中心(或ITSM系统中)的网络管理员A/B角或者管理团队。
2.2.系统描述
系统功能:
说明:
请在此描述应用系统的主要功能。
支撑业务:
说明:
请在此描述应用系统所支撑的所有业务应用。
业务影响范围:
说明:
请在此描述应用系统故障后可能影响的范围。
2.3.运行指标
说明:
请在此补充应用系统的常用的一些运行指标,如恢复时间目标(RTO,RecoveryTimeObjective)恢复点目标(RPO,RecoveryPointObjective)、运行维护级别、可用性要求,性能要求,业务连续性要求,安全性要求,可管理性要求,可维护性要求等。
运行指标解释:
1)恢复时间目标(RTO):
是指突发事件发生并导致业务或系统中断后,从中断到必须恢复的时间要求。
2)恢复点目标(RPO):
是指突发事件发生并导致业务或系统中断后,数据必须恢复到的时间点要求,即数据可容忍丢失的最大时间长度。
注意:
恢复时间目标(RTO)和恢复点目标(RPO)是必填项。
在营业不同时间段(业务高峰、业务空闲和非业务时间)如对RTO/RPO有不同要求,请单独列举。
示例:
邮件网关系统运行指标
恢复时间目标(RTO):
0分钟。
恢复点目标(RPO):
10分钟。
运行维护级别:
5G8(8:
30-17:
30)。
可用性要求:
全年系统可用性达到99.9%。
性能要求:
系统最大并发连接数8000个TCP连接,邮件处理速度>150封/秒,邮件延迟时间平均值<1分钟,邮件错误率<0.01%。
业务连续性要求:
7G24连续运行。
安全性要求:
防攻击性能参数>170,000次/小时包括字典攻击、目录攻击、病毒攻击、压缩文件攻击等。
2.4.关联系统
说明:
请在此描述与该系统运行相关的其它关联系统情况,如:
何种关联系统?
所涉及何种业务等。
2.5.物理架构
说明:
请在此描述系统物理拓朴结构及简要描述(包括放置在哪个机房,物理如何连接、以及何其他系统的关联拓扑等)
2.6.网络拓朴
说明:
请在此描述系统网络拓朴结构及简要描述
2.7.IP及端口
说明:
请在此描述简要描述系统使用的IP地址及端口(请填写包括带外管理在内的所有网络地址和端口)
2.8.系统软硬件
2.8.1.主机设备
说明:
请在此描述主机设备的具体配置及参数。
示例:
主机设备一:
邮件网关系统主服务器,设备用途:
设备编号:
操作系统及版本:
WindowsServer20XXR2企业版
设备位置:
北京洋桥2层
数据库及版本:
SQL20XX
设备型号:
IBMGSeries3850
中间件及版本:
websenseV6.3.2
设备序列号:
99C4653
本地硬盘RAID级别:
raid5
设备微码:
(主要设备)
本地硬盘大小及数量:
146G6
CPU及数量:
Geon3.0G4
网卡一MAC及IP:
00-14-5E-BC-7A-2E(无IP地址)
内存大小:
8G
网卡二MAC及IP:
00-14-5E-BC-7A-2F(无IP地址)
网卡:
3块网卡
网卡三MAC及IP:
00-10-18-30-69-4D(IP:
11.133.190.59)
其他
2.8.2.软件配置
说明:
请在此描述系统安装的各种软件的具体信息及用途,请将系统所用软件按系统软件、中间件、数据库、应用等进行划分。
示例:
软件类型
产品名称
版本号
用途说明
操作系统
WEBSENSEOS
2.2.4.22-14
生产
数据库
Mysql
4.0
生产
应用软件
RiskFilter
6.3.3
生产
2.8.3.磁盘/磁盘阵列
说明:
请在此描述系统所用的磁盘及磁盘阵列。
2.8.4.磁带存储
说明:
请在此描述系统所用的磁带存储。
2.8.5.网络设备(如路由器、交换机、负载均衡等)
说明:
请在此描述系统专用的各种网络设备
2.8.6.其它硬件设备(如加密机等)
说明:
请在此描述系统专用的各种硬件设备。
2.9.后备资源
说明:
请在此描述系统各种后备资源,如系统的数据备份、硬件配件、软件备份等资源信息。
2.9.1.数据备份
说明:
请在此描述系统可能有的操作系统、应用系统和应用数据备份,要说明备份等级、备份时间、备份介质、存放位置和保管人等信息。
2.9.2.硬件配件
说明:
请在此描述系统可能有的各种硬件配件,如大机、小机、服务器、网络设备、计算机备件和其它相关配件。
对这些配件要注明具体型号、序列号、服务期限、保存位置和保管人等信息。
2.9.3.软件备份
说明:
请在此描述系统可能有的各种软件备份,如操作系统、数据库系统、应用软件备份等。
对这些备份要注明具体产品名称、版本号、保存位置和保管人等信息。
2.10.用户分配
说明:
请在此描述系统可能有的各种用户,包括系统原有和自建的用户。
要明确用户角色、用户组及其它相关信息。
2.11.其他信息
说明:
请在此描述其它与系统相关的需要描述的信息。
3.标准处置预案
说明:
请在此描述系统预设的一些标准处置预案,如主备机切换、应急库切换、灾备环境标准切换、硬件设备标准关闭、硬件设备标准重启等标准处置预案。
下面列举了常见的一些标准处置预案但不完善,请预案编制人员根据系统实际情况酌情修订。
在预案模板中,系统标准处置预案列举如下:
1)主备机标准切换:
该处置预案应包含系统各种设备在运行中出现意外时,所涉及的各种应急切换处置步骤。
设备包含大机、小机、服务器、网络设备、专用设备、存储等。
2)应急库标准切换:
该处置预案应包含系统切换应急库的相关处置步骤。
3)灾备环境标准切换:
该处置预案应包含系统切换灾备环境的相关处置步骤。
4)硬件设备标准关闭:
该处置预案包含系统硬件设备关闭时的相关处置步骤。
5)硬件设备标准重启:
该处置预案包含系统硬件设备重启时的相关处置步骤。
6)数据库标准关闭:
该处置预案包含系统数据库关闭时的相关处置步骤
7)数据库标准重启:
该处置预案包含系统数据库重启时的相关处置步骤。
8)应用服务标准关闭:
该处置预案包含系统应用服务关闭时的相关处置步骤。
9)应用服务标准重启:
该处置预案包含系统应用服务重启时的相关处置步骤。
10)中间件标准关闭:
该处置预案包含系统中间件关闭时的相关处置步骤。
11)中间件标准重启:
该处置预案包含系统中间件重启时的相关处置步骤。
12)其它通用软件标准关闭:
该处置预案包含系统其它通用软件关闭时的相关处置步骤。
13)其它通用软件标准重启:
该处置预案包含系统其它通用软件重启时的相关处置步骤。
14)硬件模块故障标准处置:
该处置预案应包含系统设备出现硬件模块故障,需要进行在线更换的相关处置步骤。
涉及模块如电源、CPU、内存、RAID卡、光纤卡等。
15)恢复回切标准处置:
该处置预案应包含系统通过故障救治,排除故障后恢复到原生产环境所涉及的各种回切处置。
3.1.标准处置
说明:
请在此对标准处置的主要用途做简要描述。
Ø修订日期:
说明:
请在此描述该标准处置最近一次验证和修订的日期。
Ø处置时间:
说明:
请在此描述完成操作需要的时间。
Ø操作步骤:
说明:
请在此描述具体操作步骤,要求详细到具体的操作命令。
Ø验证步骤:
说明:
请在此描述操作完后的验证步骤,也要求详细到具体的操作命令。
示例:
标准处置1:
主备机切换
该标准处置主要起如下作用:
生产环境邮件网关设备出现故障无法工作情况下,邮件网关备机通过该标准处置可紧急接管服务。
Ø修订日期:
20XX年3月10日。
Ø处置时间:
处置时间<20分钟。
Ø操作步骤:
1)进入运维终端E:
\日常备份\月报\邮件网关邮件服务器策略明细表,找到当日备份及证书备份;
2)将备机的IP地址修改为生产主机地址(11.GGG.GGG.31),重新启动网络;具体操作命令为:
vi/etc/sysconfig/network-
scripts/ifcfg-eth0),将IPADDRESS项中的地址修改为生产地址,存盘退出编辑。
3)将邮件网关31主机的网线拔除并插到备机对应网卡中;
4)在超级用户权限下执行应用启动命令:
#/etc/init.d/smgdrestart。
5)用administrator用户登录https:
//11.GGG.GGG.31/admin管理界面,进入系统设置---帮助—设置向导--,输入(验证)备份的证书序号和激活码。
6)继续在系统设置---更新管理中,立即更新反病毒库和反垃圾邮件库。
7)登录https:
//11.GGG.GGG.31:
10000端口管理界面,在系统备份管理导入终端中的备份文件,恢复系统配置及策略设置为31主机状态;
Ø验证步骤:
1)登录https:
//11.GGG.GGG.31/admin查看系统设置、系统面板,分别检查设置是否已经恢复成功,对外连接的服务器状态是否正常;
2)继续在https:
//11.GGG.GGG.31/admin,统计与日志中,分别查看邮件日志、投递邮件、系统状态、过滤统计等,测试收发邮件是否正常工作,过滤是否正常;
3)登录https:
//11.GGG.GGG.31:
10000管理界面,在系统历史统计数据中,分别查看CPU、磁盘、内存、eth0网络接口卡等硬件运行情况;
如以上三部分检查都正常,则说明系统主备机切换成功。
4.故障快速定位
4.1.快速定位流程
说明:
请在此描述当系统出现未知故障情况下,应急人员因按照何种预设流程进行故障排查,以便能快速定位系统故障。
为规范和方便大家填写故障快速定位流程,在预案模版中预设一个空白的应急预案的维护流程,预案修订人员需要根据系统特点修改完善。
4.2.定位流程描述
说明:
请根据上节的定位流程图,翔实描述各具体定位流程步骤。
)
1、
2、
4.3.故障快速定位排查内容
说明:
请在此详细描述在系统故障排查时,可能涉及的检查的内容、执行的命令、指标阀值等。
在预案模板中预设了快速定位排查表,主要涉及应用应用软件、网络状态、硬件状态、通用软件等检查内容。
预案修订人员要求认真考虑排查的优先顺序,按照最快故障排查定位的原则对优先顺序进行排序。
每步排查步骤都要求有检查内容、操作步骤、操作/复核人、检查结果等具体信息。
并要求根据排查结果指定下一步检查内容。
如故障定位检查需要相关系统配合,也请按照排查顺序,将相关检查内容添加到排查表中。
如检查内容较多,可在排查表中简要描述检查项,详细内容放在预案附录中。
5.系统应急场景分类及描述
5.1.故障场景分类
说明:
请预案修订人员根据系统特点,在此对故障场景进行分类并简要描述,要求故障场景分类应能覆盖系统所有可能出现的故障场景。
示例:
系统故障场景按照故障特点分为五类:
硬件故障场景、通用软件故障场景、应用软件故障场景、网络故障场景和其它故障场景。
1.硬件故障场景:
主要包含系统硬件方面的故障场景。
例如。
。
。
2.通用软件故障场景:
主要操作系统、数据库软件、中间件等方面的故障场景。
例如。
。
。
3.应用软件故障场景:
主要包含业务应用系统方面的故障。
例如。
。
。
4.网络故障场景:
主要包含与网络相关的故障场景。
例如。
。
。
5.其它故障场景:
主要包含系统相关的外联系统、外部环境等方面的故障。
例如。
。
。
5.2.硬件故障场景
说明:
请在此详细列举并描述系统可能出现的各种硬件场景,在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。
修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。
(预案编制人员在修订应急步骤时,建议参考平台部编制的通用故障处理方案,该方案内包含LINUG、AIG、HP-UG、INFORMIG、ORACLE通过故障处理流程和应急处理步骤。
)
在预案模板中,系统硬件常见故障事件列举如下:
1)大型机异常报错
2)小型机异常报错
3)加密机设备异常
4)服务器异常宕机
5)设备网卡异常
6)设备CPU异常
7)设备硬盘异常
8)设备内存异常
9)设备光纤卡异常
10)设备RAID卡异常
11)设备HA卡异常
12)设备串口卡异常
13)设备其它部件异常
5.2.1.GG故障事件
说明:
请在GG处补全具体故障事件名称。
Ø修订日期:
说明:
请在此描述该故障事件处置最近一次验证和修订的日期。
Ø事件级别:
说明:
请在此设定该故障事件等级(一级/二级/三级/四级/五级/六级)。
划分原则请按照《中国建设银行信息系统生产事件等级认定规定(试行)》(建总发〔20XX〕138号)对事件级别的划分。
Ø授权级别:
说明:
请在此设定执行该故障救治步骤所需要的授权级别中心领导授权/部室负责人授权/部室日常授权)。
授权级别的设定可参照中心总体预案中的授权级别设定原则。
Ø处置时间:
说明:
请在此在设定执行救治措施,完成故障处置该所需要的时间。
Ø场景描述:
说明:
请在此简要描述该故障场景可能出现的状况和现象。
Ø验证方法:
说明:
请在此简要描述可确认该故障事件验证方法和手段。
Ø现场保护:
说明:
请在此描述进行现场保护所使用的现场收集脚本。
部分脚本可见附录。
Ø救治步骤:
说明:
请在此此翔实描述故障救治步骤,要求细化到具体的操作指令。
如救治步骤调用前面标准处置章节的内容,则必须在此注明调用的具体章节号及名称。
示例:
邮件网关集群中一台设备硬件宕机
Ø修订日期:
最近一次验证和修订的日期为20XX年3月11日
Ø事件级别:
五级事件
Ø授权级别:
部室负责人授权
Ø处理时间:
26分钟
Ø场景描述:
1.应用监控人员通过邮件、短信、实时监控等渠道得知主机不可用。
2.应用用户可以ping通主机IP地址,但不能从控制台登入操作系统,且未发现硬件故障灯亮。
Ø验证方法:
(3分钟)
1.进入主机房检查主机上是否有硬件报错或是否有黄灯闪,如果没有则说明不是因为硬件的损坏导致的主机不可用。
Ø现场保护:
(3分钟)
1)如果系统无法响应且屏幕有信息,用手机将提示信息拍下,或者用笔将文字记录下来;
2)系统重启后,执行errspot.sh脚本将系统相关的信息和日志收集起来,以备分析故障时使用。
Ø救治步骤:
(20分钟)
1)将备机的IP地址修改为生产主机地址(11.GGG.GGG.31),重新启动网络;具体操作命令为:
vi/etc/sysconfig/network-scripts/ifcfg-eth0),将IPADDRESS项中的地址修改为生产地址,存盘退出编辑。
2)将邮件网关31主机的网线拔除并插到备机对应网卡中;
3)在超级用户权限下执行应用启动命令:
#/etc/init.d/smgdrestart。
4)用administrator用户登录https:
//11.GGG.GGG.31/admin管理界面,进入系统设置---帮助—设置向导--,输入(验证)备份的证书序号和激活码。
5)继续在系统设置---更新管理中,立即更新反病毒库和反垃圾邮件库。
6)登录https:
//11.GGG.GGG.31:
10000端口管理界面,在系统备份管理导入终端中的备份文件,恢复系统配置及策略设置为31主机状态;
5.3.通用软件故障场景
说明:
请在此详细列举并描述系统所有可能出现的操作系统、数据库、中间件等通用软件故障场景。
在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。
修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。
(预案编制人员在修订应急步骤时,建议参考平台部编制的通用故障处理方案,该方案内包含LINUG、AIG、HP-UG、INFORMIG、ORACLE通过故障处理流程和应急处理步骤。
)
在预案模板中,系统通用软件常见故障事件列举如下:
1)系统数据库崩溃
2)数据库存储损坏
3)数据库无法正常处理请求
4)数据库表死锁
5)数据库表数据无法插入
6)逻辑日志满导致数据库挂起
7)数据库启动失败
8)数据库交易处理缓慢
9)数据库表空间OffLine
10)数据库无法连接或无响应
11)数据库性能极剧下降
12)数据库短时间内不可用
13)数据库实例监听宕掉
14)数据库实例出现大量等待事件
15)数据库实例无法切换逻辑日志
16)TuGedo服务异常或僵死
17)weblogic实例异常或僵死
18)AIG操作系统异常或报错
19)LINUG操作系统异常或报错
20)HP-UG操作系统异常或报错
21)WINDOW操作系统异常或报错
22)中间件异常或报错
5.4.应用软件故障场景
说明:
请在此详细列举并描述系统所有可能出现的应用故障场景。
在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。
修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。
在预案模板中,系统应用软件常见故障事件列举如下:
1)系统应用不能正常运行
2)应用进程异常
3)系统应用无法启动
4)系统应用响应缓慢或无响应
5)GG交易异常报错
6)GG交易流量异常下降
7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IT 系统 应急 响应 恢复 预案 编写 指南