系统应急预案教学文案Word下载.docx
- 文档编号:21723849
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:10
- 大小:39.58KB
系统应急预案教学文案Word下载.docx
《系统应急预案教学文案Word下载.docx》由会员分享,可在线阅读,更多相关《系统应急预案教学文案Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
系统服务停顿状态,如系统由于不明原因导致大规模用户无法使用,服务停顿。
4)接口无法正常调用:
系统无法正常调用财务管控接口(财务管控接口、ERPRFC接口、ESB)。
预案处理要求
停止系统后台服务,防止不知情用户继续投递数据。
抓取并保存系统出错信息及日志文件,简单判断异常部位,通知相关人员到岗,保留现场,分析查找原因。
停止服务和后台数据库服务,将剩余用户数据进行备份,抓取并保存系统出错信息及日志文件,通知相关人员到岗,保留现场,分析查找原因。
联系网络管理人员、通知相关人员到岗,从网络和系统两个方面分析查找服务停顿原因。
联系相关接口服务提供方,确认服务是否正常。
注:
对故障进行快速处理及归档,争取每次故障修复时间控制在两小时以内。
演练要求
1.对在线系统不造成影响
2.在主要系统管理员人员变更和服务器、操作系统、主页发布软件发生变更时要进行演练。
3.演练前应填写工作单,并对系统做全备份。
4.演练结束形成演练总结报告。
预案流程说明
一、事件报警与确认:
系统人员在对系统进行调整的过程中发现公司系统运行中的异常及其它故障。
由运维人员首先确认系统是否发生重大故障,及时通知相应管控经理及信通公司相应负责人,启用预案。
二、系统发生重大故障时,保护故障现场:
必须及时采取以下措施,通知系统运维人员及时到场
1.保证服务器不再有任何人进行任何操作
2.通知所有使用系统的人员暂停对系统的登录
三、分析故障原因:
1.操作系统级应急预案
1)操作系统异常
问题原因:
由于操作系统自身服务崩溃或系统组件冲突,服务器操作系统无法正常运行,部署在此操作系统上的应用服务器受此影响无法正常启动及运行,服务崩溃。
应急预案:
联系操作系统服务商进行系统恢复,解决系统组件冲突。
操作步骤:
按照当地科信部门或系统运维部分相关操作步骤进行。
2)磁盘空间不足
由于SAPCE服务器及对应的Oracle服务器自动归档备份功能开启,会造成备份文件逐步增加,文件累计达到一定数据大小后,导致系统磁盘空间不足,引发服务器各项服务组件无法正常运行,服务崩溃。
(1)删除SAPCE自动备份文件。
进入SAPCE服务器自动备份文件保存目录,保留最近的2个备份版本,删除其余备份文件。
(2)删除Oracle归档日志。
进入Oracle归档日志目录,保留最近1个月的归档日志备份,删除其余备份。
如通过以上方式3仍无法释放磁盘空间资源,则需要进行服务器存储空间扩容。
具体方案依据当地服务器硬件升级操作方案处理。
(1)登录服务器,检查各分区磁盘剩余量。
若剩余量低于10%,需要进行备份及归档文件清理操作。
(2)进入SAPCE服务器文件备份目录,检查备份文件状态,若备份文件过多,可考虑删除最近2个备份版本之前的其余备份文件。
(3)进入Oracle归档日志存储目录,检查归档日志状态,若归档日志过多,可考虑删除1个月之前的归档日志文件。
(4)若服务器中,SAPCE备份及Oracle归档日志文件数量均不大,但服务器存储资源不足,可申请当地运维支持检查服务器上文件系统,删除非系统必需文件。
(5)以上操作仍无法解决磁盘空间不足问题,则按照当地服务器硬件资源升级操作流程进行处理。
3)磁盘读写保护异常
由于操作系统安装了磁盘读写控制软件,或是系统还原配置不正确,会导致系统所在应用服务器无法实现对底层文件系统的读写访问,造成依赖于文件读写服务的组件功能无法正常运行,服务崩溃。
(1)修改磁盘读写控制软件对SAPCE平台服务器的权限控制
(2)调整系统还原配置参数,将其置为正确的配置
(1)申请当地运维支持,检查是否安装了磁盘读写保护软件或装置,若有,则需解除其对SAPCE平台相关服务的读写控制
(2)申请当地运维支持,检查系统还原情况配置,保证其配置正确。
4)网络服务异常
服务器未正确分配IP地址,或是防火墙限制服务器的网络访问以及物理链路中断等原因,会导致系统用户无法正常登陆系统,关联业务系统与凭证系统集成服务异常。
为服务器分配正确的IP地址,并将此地址注册到防火墙可信任地址列表中。
对于物理访问链路中断问题,检查并重新配置网络物理通信链路。
此部分具体应急预案由当地科信部或运维部分统一处理。
(1)检查服务器的IP地址是否分配正确,若分配错误或IP地址冲突,需要申请当地运维支持,为服务器重新分配正确的IP地址,并进行系统相关配置的调整。
(2)检查防火墙对服务器的网络访问控制,若由于防火墙权限原因导致服务器无法正常进行的网络通信,则应申请当地运维支持,解决防火墙网络访问控制问题。
(3)若由于物理网络链路中断等原因导致无法进行正常的网络通信,则需要申请当地运维进行紧急抢修。
2.SAPCE服务器应急预案
1)功能组件服务异常
由于受到操作系统组件服务、系统硬件资源等因素影响,SAPCE服务器部分功能组件服务可能出现服务异常或组件服务停止,依赖于这些服务的系统部分功能无法正常运行。
检查异常或停止的组件服务,重启相关服务。
如服务重启异常,检查服务器日志,查找原因,排除原因后,重启服务解决问题。
(1)以SAPCE超级管理员身份登录平台,在右侧搜索栏中输入【start】
(2)在搜索结果中选择【Start&
Stop】应用功能
(3)选择【J2EEApplicationService】,在表格搜索栏中输入需要重启的服务名进行搜索。
(4)选中需要重启的服务,使用【Start】功能重启该服务
2)系统服务异常
由于受到所在操作系统组件服务、网络攻击、系统硬件资源、系统内部服务异常等影响,SAPCE服务器出现服务崩溃或大规模内部服务组件冲突。
具体表现为:
1、用户登录SAPCE服务平台提示【ERROR-503】异常;
2、打开SAPCE控制台,服务器实例状态为警告状态,显示黄色。
登录SAPCE服务器所在操作系统,在SAPCE控制台中重启该服务器实例。
(1)登录协同服务器所在操作系统。
(2)打开协同服务器控制台。
(3)展开控制台节点,选择当前协同服务器实例,右键当前实例,选择【停止】
(4)在停止服务信息界面,选择【硬重启】
(5)输入操作系统用户名对应的密码,确认重启操作。
(6)等待一定时间后,刷新实例服务器状态,灰色表示停止成功。
(7)打开协同服务器控制台,选择协同CE服务器实例,右键服务器实例,选择【启动】,进行服务器启动操作。
(8)点击确认,启动服务器。
(9)等待一段时间后,服务器实例状态为绿色,表示服务器启动成功。
3)Lincense到期
SAPCE应用平台授权许可到期或授权许可未正确注册,造成各服务组件均无法正常使用。
(1)授权许可到期可参考《license申请.doc》进行处理
(2)授权许可未正确注册可参照《license申请.doc》中进行Linsence注册的操作进行。
按照《license申请.doc》中相关操作步骤进行处理
3.Oracle数据库应急预案
1)数据库服务崩溃
由于受到突然断电、撞击、磁盘损坏、系统资源严重不足、数据库相关组件异常等影响,会造成数据库服务崩溃,所有依赖于数据库服务的应用功能均无法正常使用。
(1)如由于硬件损坏导致数据库服务崩溃,属于不可恢复的事故,需要重新申请硬件资源,重新进行数据服务器的部署。
(2)由于数据库组件运行异常导致数据库服务崩溃,可尝试重启Oracle数据库相关服务。
(3)如重启数据库组件及操作系统均无法恢复数据库,则需要重新安装协同数据服务器,并进行备份数据还原。
操作步骤按照当地服务器部署应急预案进行处理。
2)用户锁定
由于用户对数据库进行不正确的读写或是其他操作,造成数据库用户锁定,所有依赖于此用户的数据库服务均无法对外提供,造成系统服务异常。
以数据库超级管理员身份登录数据库,解锁被锁定的用户并重置密码。
(1)以sys用户在PLSql等操作工具中登录数据库
(2)在【用户】菜单下找到需要进行解锁的用户
(3)选中该用户,进行编辑
(4)解除该用户的锁定标识
3)用户数据丢失
用户对数据进行误删除操作,会导致该用户数据丢失。
由此引发系统功能应用数据丢失异常。
还原用户数据备份
(1)保证数据恢复期间,系统暂停业务使用
(2)若用户数据备份为DMP用户对象备份,则需要先删除该用户所有用户对象,利用数据库备份还原工具还原该用户数据备份
(3)若该用户备份数据仅为表数据,则只需要清除相关原表数据,进行数据备份还原即可。
4.系统应急预案
1)数据源服务异常
系统对数据库的连接访问由统一的数据源进行管理,重启服务器或者由于系统组件运行冲突,会导致系统数据源服务异常。
以SAPCE平台超级管理员身份登录平台,重启数据源服务即可。
(1)以协同服务器超级管理员身份登录NWA(http:
//10.138.2.109:
50100/NWA)。
在右侧搜索栏中输入“start”进行搜索,在结果中选择【Start&
Stop】功能。
(2)选择【JavaEEApplication】页签,在【Name】中输入协同数据源名称,回车进行搜索。
在资源列表中选择当前协同数据源,选择【Start】——>
【OnAllInstance...】,确认操作。
(3)刷新当前资源列表,即可发现协同数据源启动成功。
2)用户认证失败
用户来源于目录系统,由于用户多次登录失败会造成用户锁定等原因,造成系统用户无法正常登录系统登录。
以SAPCE平台超级管理员身份登录平台,解锁用户或重置用户密码。
(1)以协同服务器超级管理员身份登录IRJ模块(http:
\\10.138.2.109:
50100\IRJ),选择【用户管理】模块,在搜索栏中查找到当前需要解锁的用户。
(2)利用解锁功能,解除该用户锁定标识
(3)点击【编辑】按钮,对该用户密码进行重置。
3)用户角色异常
用户未正确分配角色,会导致用户无权限进行相关应用操作。
以SAPCE平台超级管理员身份登录平台,重置用户相关角色。
50100/IRJ),选择【用户管理】模块,在搜索栏中查找到当前需要重置角色的用户。
(2)点击【编辑】按钮,对该用户信息进行编辑。
(3)切换至【已分配角色】页签,在左侧角色资源搜索框中输入需要进行分配的角色。
(4)点击【添加】按钮,将该角色分配给相应用户。
(5)点击【保存】按钮,完成用户角色分配。
(6)以该用户身份登录,查看当前角色是否已被分配。
4)WebApplication应用异常
由于公共应用组件服务冲突或运行状态异常,引起依赖于此公共组件的其他应用无法正常运行。
重启流程公共应用组件服务,可解决此问题。
(1)以SAPCE超级管理员身份登录平台,在右侧搜索栏中输入“start”
(2)在搜索结果中选择“Start&
Stop”应用功能
(3)选择“J2EEApplicationService”,在表格搜索栏中输入“pubtool”进行搜索。
(4)选中需要重启的服务,使用“Start”功能重启该服务
5)流程应用异常
流程配置不正确、SAPBPM流程核心组件服务异常均可导致流程应用异常,具体表现为流程无法正常发起或无法创建用户待办。
(1)流程配置错误引起的流程应用异常,需要检查流程配置并排除错误后,问题可解决。
(2)SAPBPM流程组件服务异常引起的,可通过重新启动相关流程组件服务解决此问题。
(2)在搜索结果中选择“Start&
(3)选择“J2EEApplicationService”,在表格搜索栏中输入“glx”进行搜索。
(4)选中需要重启的服务,使用“Start”功能重启该服务
6)集成服务异常
关联系统未正常提供正确的服务、总部企业服务总线对集成服务注册管理异常均可能引起集成服务调用失败,依赖于这些服务的应用功能无法正常运行。
协调协同关联系统及企业服务总线检查各服务状态,解决相关问题。
(1)若关联系统服务提供异常,则需要协调关联系统项目组,启动相关的服务。
(2)若企业服务总线对相关服务注册管理异常,则需要协调企业服务总线项目组,对服务重新进行注册管理。
四、正式系统的修复:
根据造成系统故障的不同原因,采用相应的修复策略:
1.恢复服务器硬件设备;
2.恢复服务器操作系统;
3.恢复系统必备软件;
五、安全审计及事故分析
通过系统日志、主机防护系统日志等,对故障事件进行审计,对损失进行评估,追查事件的发生原因。
六、销除隐患、调整策略:
根据审计结果,调整系统的防护策略,改进系统的安全策略。
七、损失评估、责任追究:
由通信分公司、部门、共同评估损失,追究责任。
八、安全报告、归档:
由通信分公司形成事故分析报告,分析事故原因,修正预案处理流程并归档。
预案流程:
详细处理步骤及操作命令以附件形式提供:
步骤一、正式环境数据库恢复
1.确定要恢复的时间点。
步骤二、正式环境应用系统恢复
步骤三、备用环境数据库恢复
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统 应急 预案 教学 文案