AutoSwitch灾备切换自动化方案白皮书Word文档格式.docx
- 文档编号:16470854
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:27
- 大小:3.42MB
AutoSwitch灾备切换自动化方案白皮书Word文档格式.docx
《AutoSwitch灾备切换自动化方案白皮书Word文档格式.docx》由会员分享,可在线阅读,更多相关《AutoSwitch灾备切换自动化方案白皮书Word文档格式.docx(27页珍藏版)》请在冰豆网上搜索。
第二章AutoSwitch灾备切换自动化系统
灾备系统切换控制的范围涵盖企业的每个重要业务系统,包括主机、存储、数据库、中间件、DNS系统等等;
切换过程涉及企业的众多部门,需要多部门、多岗位、多人配合协调才能完成;
同时手工切换过程转换成自动化流程并不是简单将手工操作命令写成批处理命令,而是根据业务需要将切换流程固定下来,进行合理的优化,从而实现灾备切换的自动化;
在执行自动化切换的过程中,如果出现某个步骤异常,还需要有处理特殊故障的解决办法。
要将灾备系统切换自动化完成,会面临上述的诸多挑战。
由于灾备切换系统需要管理的各种资源关系复杂,应用系统之间依存性高,利用AutoSwitch灾备切换管理软件的流程管理可以清晰定义以上各种关系,简单友好的界面让用户对流程等一目了然,通过使用AutoSwitch灾备自动切换系统有力帮助用户保证灾备系统的服务质量、提高应对突发事件的能力。
2.1AutoSwitch技术特点
Ø
一键式灾备切换:
一是按应用设计灾备切换流程,将切换时要做的工作先分阶段定义好,再在每个阶段中将要执行的命令统一写成脚本;
二是灾备切换作业调度完全自动化,在灾备切换时、能够从单一Web入口进入灾备自动切换控制台,只需一键启动灾备切换、所有命令自动执行,在命令执行过程中无需人工操作;
通过将传统手工流程转变为全自动化操作流程,缩短了切换时间、提高了切换效率、降低了人工成本。
直观展示切换进度:
灾备切换开始后,AutoSwitch展示切换进度和执行状态,操作员可以清楚地看到流程各个步骤是否执行完毕,实时监控切换进度。
一旦发生故障可以快速定位,并为操作员提供可操作的手工处理方案。
支持人工干预、处理:
切换出现故障或者需要人工干预时,灾备切换暂时停止,Web页面提供人工操作控制的交互入口,等待人工处理后再继续自动处理后续流程。
自动生成灾备操作手册(Runbook):
AutoSwitch能够自动生成灾备操作手册,当业务流程发生变化需要修改相关切换流程时,在AutoSwitch系统里修改好相关的流程、命令,即可同步生成相对应的灾备操作手册,极大地方便了运维管理人员备案和实际操作人员理解灾备切换流程。
支持演练环境:
AutoSwitch支持演练环境,当应用系统升级或其它系统配置发生变化以后,可以在不影响生产的情况下及时演练、发现问题、保证灾备系统的可用性。
内置常用管理脚本:
Autoswitch系统内置了windows/unix/linux操作系统、Oracle/Infomix等数据库、Weblogic/Websphere等中间件的常用操作脚本,可以在灾备切换的命令中直接调用。
内置常用检查脚本:
灾备切换过程中需要执行很多命令,如何判断这个命令执行是否成功,需要做相应的检查。
比如,数据库启动后,究竟数据库是否能正常工作,需要做相应的检查,否则数据库启动过程中由于某种原因没有正常启动,执行过启动命令后,继续执行其它切换中的操作命令将会造成整个灾备切换的不成功,有可能给造成无法挽回的损失。
系统成熟、可靠、稳定:
整个灾备自动化系统由两台服务器组成主、备“灾备切换服务器”,可以保证7乘24小时随时能够进行切换操作,保证切换的成功率。
AutoSwitch产品从08年中航信使用AutoSwitch1.0保障灾备切换起到14年国家电网全国灾备中心使用AutoSwitch3.0,经过客户多年使用反馈和不断优化,产品已经为多个用户成功保障灾备切换和日常灾备演练,经过实践证明,产品非常成熟可靠稳定。
2.2AutoSwitch功能架构
详细功能一览表:
功能名称
说明
流程管理
切换流程的创建和修改:
支持图形可视化创建及修改流程。
可按模板进行流程创建,提供版本管理、发布管理功能。
支持批量创建流程、支持模板创建流程。
切换流程的执行:
支持并发执行流程,可同时启动后台多个自动流程执行。
支持灵活的流程执行模式,在同一流程中提供正常执行(按预定义)、全自动执行(人工转自动)及人工执行(自动转人工)三种模式,能灵活根据实际要求在多种模式之间进行自然切换。
对执行过程中产生的反馈信息进行及时的显示和记录,以便进行实时跟踪以及事后回溯分析。
支持流程执行的定时设置功能,可根据需要在指定的时间点发起相应流程完成目标要求。
支持基于流程级别的角色权限控制,可保证多角色下的流程安全操作。
切换流程的人工交互:
支持人工交互操作,切换中如果发生故障,可以在人工处理后继续自动处理后续流程。
切换流程的故障处理:
当流程执行过程中产生异常时,提供声音或图形界面报警,及时提醒人员在相应故障发送位置进行排障处理。
架构支持
软件支持中、英文,具备中英文的界面,帮助,文档。
界面布局清晰合理。
支持多平台/多厂商环境。
所管理的切换受控端可以分布于所有主流操作系统平台。
支持以下操作系统(包括且不仅限于AIX、HP-UX、Solaris、Linux和WindowsServer等)。
采用纯B/S(浏览器/服务器)架构,可随时通过浏览器远程管理。
所管理的切换受控端支持代理Agent和非代理Agentless两种方式对业务主机、存储管理、DNS设备进行交互操作。
所管理的切换受控端支持安装在WebLogic、Tomcat等各种Web和应用服务器上。
支持手动或自动对部署在生产和灾备业务主机上的代理程序或脚本进行远程更新。
报表功能
提供内容包括但不局限于流程执行、用户信息、故障信息等的报表系统,并具有报表导出功能,能够以网页或EXCEL等文件方式将报表导出并保存。
审计功能
所有的操作有详细的审计记录(包括命令行和图形的操作记录及作业记录)。
能够显示各主要模块的运行状态,具有系统日志审计功能。
演练功能
支持在不影响生产的情况下及时演练、发现问题、保证灾备系统的可用性,能够根据演练中的问题进行分析,不断优化演练技术流程。
扩展性
通过界面配置即可完成新功能扩展。
对于新开发的功能脚本,提供良好自定义支持,对灾备端环境配置信息的变更可以自动探测。
具备灵活的横向扩展,从技术上来说,主控端可以无限制支持增加的受控端。
可靠性
1)支持本地高可用方式部署。
2)软件本身具备数据同步功能,当一方发生灾难时,另一方能立即在线进行接管控制,保证了平台7*24正常运行。
易用性
采用单一用户数据库权限系统,用户无需多次登录;
能够从单一Web入口进入灾备自动切换控制台,无需人工逐一登录各主机进行操作。
软件对失败或超时的流程提供异常原因分析,告知操作人员流程异常的原因,方便操作人员采取应对措施,故障处理与反馈提示均要友好且准确。
展示界面
1)提供良好的人机界面,方便定义切换和管理流程;
2)通过图形界面方式实时展示切换信息,直观展示流程中各步骤的顺序关系;
3)以图标的颜色标示分步步骤的运行状态,流程图上能直观地反应流程上各节点的执行时间。
4)流程图能够定制流程间的依赖关系和多种制约关系,以满足灾备系统操作人员使用需求。
状态监控
支持对所有Agent进行状态监控,保证流程可顺利执行。
支持对系统登录状态进行记录,支持监控和管理工作负载异常,通过操作控制台创建生产运行时报告,帮助分析。
能在流程执行界面中嵌入滚动日志,直观显示流程执行状态。
人工处理
支持人工处理环节,对于必须人工执行或判断的环节,由人工做出判断后,决定流程是否继续执行或终止;
在自动切换过程中,如果某一个步骤的执行发生了故障,或者需要既定人工处理,操作人员可以根据图标颜色变化准确定位故障或人工处理的发生位置,并根据图标链接页面查询到该步骤的人工处理方案。
授权与访问控制
支持对系统用户按角色或者角色组进行授权;
支持对系统功能提供角色级别的权限控制。
2.3AutoSwitch系统原理
AutoSwitch服务器和应用服务器的交互主要有下面三种方式:
在应用服务器上以root身份安装Agent
AutoSwitch服务器通过Agent完成操作。
在应用服务器上以普通用户身份安装Agent
AutoSwitch服务器通过SSH登录到应用服务器完成操作。
在应用服务器上不安装Agent
2.4典型灾备系统切换过程
2.4.1准备工作
开始切换前,应确认当前环境满足切换要求。
网络检查
切换工作网络与所有服务器的网络联通,执行人可以登陆到每一台服务器;
切换系统服务器*.*.*.14到其他服务器的网络联通。
切换系统检查
主机
主机身份
切换系统进程检查
*.*.*.14
Server
切换服务进程正常启动
*.*.*.7
Agent
切换代理进程正常启动
*.*.*.11
*.*.*.12
*.*.*.13
*.*.*.68
*.*.*.36
应用程序检查(切换方向云南:
北京)
云南部分程序检查:
登陆用户
检查
*.*.*.16
administrator
有23个bat窗口启动
root
ps-ef|grep-i"
com.zy.calc.CarMap"
|grep-vgrep
检查:
主应用进程正在运行
gateway"
存在3个网关进程
北京部分程序检查:
com.zy.calc.MapCountControl|com.zy.calc.CarMap|AppSrv01"
主应用进程不在运行
192.168.6.36
gateway5555"
不存在网关进程
GoldenGate同步检查:
网关数据库和应用数据库状态正常:
oracle
shtjyh_oracle_check_aix_10G.sh
数据库人员检查输出结果
shtjyh_oracle_check_linux_11g.sh
*.*.*.8
db2inst1
sh/home/db2inst1/db2_check.sh
sh/home/db2inst1/db2_check.sh
网关数据库和应用数据库的复制方向为:
云南北京
ogg
shgateway_yn_extract_status.sh
shgateway_bj_replicat_status.sh
shztdb_yn_extract_status.sh
shztdb_bj_replicat_status.sh
2.4.2开始切换:
云南北京方向
将云南网关服务器上的定时任务关闭
crontab-e将gateway相关定时任务注释
登陆自动化切换系统开始切换
地址:
用户名/密码:
admin/admin
在左侧目录中选择“自动化作业流”
进入流程自动调度页面
点击右上方的箭头图标,选择“执行作业流”
在弹出窗口中选择要执行的切换流程,勾选后点击右上角的“确认”
在提示信息窗口中点击“是”,开始切换
可以看到刚才勾选的切换流程已经开始执行了
点击作业流程图图标,进入流程图
作业流程图各步骤颜色标示的说明:
灰色:
未执行;
蓝色:
正在执行(见向后两页图例)
绿色:
已经执行并成功;
红色:
需要人工处理。
当前流程图中红色标示的人工处理步骤,需要以administrator登陆云南应用服务器*.*.*.16,关闭正在运行的23个窗口;
在所有操作执行通过后,在人工步骤上点击右键,在菜单中选择“继续作业流程”
该步骤将被修改为绿色完成状态
系统将自动执行后续操作
其中,蓝色为正在执行的步骤
云南网关程序停止并检查通过后,按顺序来到数据库及网络转向步骤
其中:
为人工步骤,需依照《ogg中烟云南对北京切换化方案20150330.docx》执行相应操作。
系统将自动继续执行后续操作
直至流程执行结束。
2.4.3自动切换流程中的错误处理
在自动化切换流程中,如果自动执行过程中遇到异常情况,某一检查步骤不满足预定的期望条件,该步骤将转为红色标示,需要人工处理。
例:
处理方法如下:
在该步骤上点击右键,在菜单中选择“作业执行详细情况”,将打开该步骤作业执行详细情况的页面
在页面右上方选择标签“运行日志”,可以看到该步骤的执行结果,可作为判断并解决异常的参考信息。
如有需要,也可在其他任意步骤上打开作业执行详细情况的页面作为参考。
在参照结果判断异常并解决后,将所有“作业执行详细情况”页面关闭。
在人工步骤上点击右键,在菜单中选择“继续作业流程”
系统将把出错步骤修改为完成状态,并自动继续执行后续操作。
第三章AutoSwitch部署架构和成功案例
3.1部署架构
3.2配置要求:
CPU64核、主频2.0GHz或以上
MEM128GB或以上
本地磁盘、建议两块容量300GB设置成RAID1
两块千兆以太网卡设置绑定成一个
操作系统1RedHatEnterpriseLinux6.3X64orlater
3.3
成功案例
国家电网:
规模:
管理全国各省电网的服务器向北京、上海、西安三个数据中心的灾备切换,2千多台服务器、存储等设备。
操作系统:
包括Unix、Linux和Windows。
数据库和中间件:
Oracle和Weblogic、Tuxedo。
切换时间:
30分钟(切换是按省来执行的,单个省的切换时间)。
中烟:
10多台服务器、存储等设备。
包括Unix、Linux。
Oracle、DB2和Weblogic。
100分钟(DB2由于业务管理的原因,很多操作需要手工执行)。
南京银行:
30多台服务器、存储等设备。
Oracle和Weblogic。
10分钟。
社保部:
20多台服务器、存储等设备。
中航信:
100多台服务器、存储等设备。
30分钟。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AutoSwitch 切换 自动化 方案 白皮书