江苏电信SRM容灾方案.docx
- 文档编号:9945533
- 上传时间:2023-02-07
- 格式:DOCX
- 页数:12
- 大小:802.35KB
江苏电信SRM容灾方案.docx
《江苏电信SRM容灾方案.docx》由会员分享,可在线阅读,更多相关《江苏电信SRM容灾方案.docx(12页珍藏版)》请在冰豆网上搜索。
江苏电信SRM容灾方案
江苏电信SRM容灾方案
1背景说明
江苏电信作为国内领先的私有云实践者,近两年内,运营的规模不断扩大,拥有上千个虚拟机,支撑大量的关键应用,随着业务规模的发展,借鉴同行的最佳实践和实际经验教训,计划通过技术手段提高对虚拟机的灾难保护。
保证在单个站点出现故障时可以将虚拟机系统在另一站点快速恢复运行。
2方案概述
本次提供的产品为VMwareSRM(vCenterSiteRecoveryManager)。
vCenterSiteRecoveryManager是一款面向虚拟化环境的市场领先的灾难恢复产品。
它作为VMwarevSphere的有益补充,可确保为所有虚拟化应用程序提供最简单、最可靠的灾难防护。
SiteRecoveryManager提供经济高效的内置vSphereReplication,并支持使用广泛的基于存储的高性能复制产品集将虚拟机复制到辅助站点。
SiteRecoveryManager与VMwarevSphere、VMwarevCenterServer和底层复制产品紧密集成,可以自动执行端到端恢复流程。
SiteRecoveryManager提供一个简单的界面,可用于设置跨所有基础架构层协调操作的恢复计划,从而取代传统的容易出错的操作手册。
用户可以根据所需频率无中断地测试恢复计划,以确保它们符合业务目标。
在进行站点故障切换或迁移时,SiteRecoveryManager将自动执行故障切换和故障恢复流程,以确保实现快速、高度可预测的恢复点目标(RPO)和恢复时间目标(RTO)。
SiteRecoveryManager的工作原理
SiteRecoveryManager与底层复制产品、vSphere和vCenterServer紧密集成,以自动执行端到端恢复流程。
SiteRecoveryManager依赖以下组件:
将虚拟机复制到辅助站点。
SiteRecoveryManager需要底层复制产品,以便将虚拟机数据复制到辅助站点。
可以通过置vSphereReplication或基于第三方存储的复制产品提供复制功能。
vSphereReplication可为小型站点和第2层应用程序提供经济高效、简单的复制。
基于存储的复制最常用于关键业务环境。
与复制产品集成。
SiteRecoveryManager通过StorageReplicationAdapter(SRA)与底层复制产品集成。
由复制供应商编写的这款软件使SiteRecoveryManager可以了解正在复制哪些虚拟机,并与复制层协调恢复计划的执行。
与vCenterServer集成。
SiteRecoveryManager在生产站点和故障切换站点都需要单独的vCenterServer实例。
SiteRecoveryManager实例需要在两个站点都部署,并与各自的本地vCenterServer实例直接集成。
设置恢复计划。
SiteRecoveryManager提供一个直观的界面,可帮助用户为各种故障切换情景创建恢复计划。
用户可以将生产资源映射到恢复资源,指定要保护哪些虚拟机以及它们的相对引导顺序,并识别要在故障切换站点上挂起的低优先级虚拟机。
用户还可以包含自定义脚本,并为虚拟机自动重新配置IP地址。
测试、灾难恢复故障切换和计划内迁移工作流。
设置恢复计划后,管理员可以使用测试、灾难恢复故障切换或计划内迁移工作流执行该计划。
测试工作流会在隔离环境中启动受保护的虚拟机,从而确保测试虚拟机与生产虚拟机完全隔离。
灾难恢复故障切换工作流会停止复制,并在故障切换站点中恢复受保护的虚拟机,重点是尽可能缩短响应时间。
计划内迁移工作流会顺畅地关闭位于原始站点的虚拟机,通过完成复制来同步数据,并在故障切换站点上恢复虚拟机。
借助灾难恢复故障切换和计划内迁移工作流,用户可以通过使用初始恢复计划自动故障恢复到生产站点,从而简化例行迁移过程。
2.1基于虚拟化平台(vSphereReplication)的复制+SRM技术
应用场景:
∙在单个数据中心之内,用户希望在某个磁盘整列完全损坏失效的情况下,可以在较短时间内(半小时之内)在本地恢复所有虚拟机的运行。
∙在邻近的两个数据中心之间(同一建筑的不同楼层或者相邻的两栋不同建筑),用户希望在单个数据中心失效的情况下(例如断电),可以在较短时间内(1-2小时之内)在另一数据中心恢复所有虚拟机的运行。
∙用户希望在邻近的两个数据中心之间,可以做虚拟机的离线迁移(存储加主机的迁移),且业务中断时间要求较短(数十分钟之内)。
∙异构存储
技术特点:
∙VR采用了异步的数据复制和增量复制功能,对带宽要求较低。
∙VR支持异构存储之间的复制,适应于复杂的客户环境,保护了现有投资。
∙VR方案适合于对成本控制要求较高的场景,且SRM初次投入较低,按照受保护的虚拟机个数收费的模式可以方便日后的灵活扩展。
此种方案对现有网络环境和存储环境要求不高,在大多数场景下,不需要任何的网络和存储改造,实施简单。
∙在业务系统允许数十分钟中断的情况下,此种方案可以看做是低成本的“双活”数据中心解决方案,基于SRM的计划内迁移技术可以将虚拟机停机迁移到另一个数据中心,迁移过程根据环境的不同,RTO一般需要数十分钟。
∙异构存储,对投资成本要求低
∙以VM为粒度进行数据复制,建议通过ThinProvision的方式部署VM,大大的节省了对存储的使用
网络要求:
VR对网络带宽的要求与以下三项场景相关。
∙需要保护的虚拟机数量
∙虚拟机的活跃程度
∙设定的RPO
对网络延迟无特定要求
VR的网络拓扑和组网要求(如下图所示):
∙首先要求每个数据中心内部的vCenter和SRM之间可以互相通信。
∙其次,两个数据中心之间的vCenter和SRMserver可以互相通信。
∙复制的数据流是通过主站点的ESXi主机传输到备份站点的VRAppliance虚拟机上的,VRAppliance又通过NFC协议将数据通过本地的ESXi写到本地存储之上。
因此在VRAppliance上会有持续的较大数据流量,当单个VRAppliance能力不够时,可以部署更多的VRAppliance虚拟机实现横向扩展。
vCenter、SRM、ESXi以及VR之间通信需要打开的端口号,请参考VMwareKB1009562。
存储要求:
VR对底层存储不做要求。
适用与本地存储和共享存储。
且数据中心之间可以使用异构存储。
RPO/RTO:
SRM使用VR软件复制,虚拟机的RPO最短可以设置为15分钟,单个VM的RTO通常在数分钟之内。
多个VM同时恢复的RTO与多种因素相关,包括网络带宽、备用站点的计算能力等。
以下是VMware实验室发布的SRM5.0的一组测试数据(
2.2基于存储复制+SRM技术
应用场景:
∙与基于VR的应用场景类似,区别在于用户希望RPO的时间更短(低于15分钟甚至是完全同步的数据复制)。
∙用户环境目前已有支持复制技术的存储整列,且通过了VMwareHCL实验室的官方认证(查询网址为
∙同构存储,并且存储厂商有自己的存储复制技术
技术特点:
∙此种方案方案相比于VR软件复制的特点在于可以利用更加高效的存储同步复制技术,实现不间断的数据保护,即RPO可以缩短到零。
∙此种方案的成本较高,成本主要在于需要购置支持复制技术的存储,并且硬件同步复制技术对于带宽的要求较高,可能需要涉及网络的升级改造。
∙此种方案适用于已有存储复制设备,且对于RPO要求很高(低于15分钟)的场景。
∙以上两种方案都是基于SRM的数据中心级别的灾难恢复,其主要区别在于使用的数据复制技术不同,如下图所示:
网络要求:
存储复制对网络带宽的要求与以下四项场景相关。
∙需要保护的虚拟机数量
∙虚拟机的活跃程度
∙存储复制的方式(同步还是异步)
∙设定的RPO
对网络延迟一般无特定要求,具体要求要具体查阅所使用的存储复制软件的网络要求
使用存储复制的SRM的网络拓扑和组网要求(如下图所示):
∙首先要求每个数据中心内部的vCenter和SRM之间可以互相通信(与VR要求一致)。
∙其次,两个数据中心之间的vCenter和SRMserver可以互相通信(与VR要求一致)。
∙由于数据数据是通过存储间直接实现的,所以请查找对应的存储设置文档对存储间网络通信的要求。
存储要求:
存储复制要求存储支持复制功能,且通常限制在同一厂商的磁盘整列之间进行,建议参考相应存储厂商的配置手册。
RPO/RTO:
SRM使用存储复制,根据存储厂商支持能力的不同,虚拟机的RPO最短可以设置为0(要求使用基于存储的同步复制),单个VM的RTO通常在数分钟之内。
多个VM同时恢复的RTO与多种因素相关,包括网络带宽、备用站点的计算能力等。
3SRM方案实施要求
3.1环境要求
网络:
生产端和容灾端网络互通,带宽需根据同步数据的量进行测算。
vCenter:
主站点与容灾站点各需要1台vCenter服务器。
ESXi主机:
主站点与容灾站点根据需要运行的虚拟机数量确定相应的ESXi主机,各ESXi主机分别由各站点的vCenter管理。
存储:
对于使用VR(vSphereReplication)异步复制的可以使用异构存储,对于使用基于存储复制的请参考存储厂家的复制要求。
安装文件:
包括Windows2008R2操作系统盘、SQL2008R2数据库安装盘、vCenter安装盘、SRM安装程序、SRA驱动(用于同一存储的数据复制)
IP地址规划:
需要同时考虑ESXi主机IP,vCenterIP,虚拟机IP,另加每站点1个SRM主机IP、(使用VR同步时,每站点另需要1个VRMSIP+2个VRSIP),所有IP可以属于不同网络,但互相之间必须可以连通
3.2许可要求
SRM5现在有两个版本:
Standard和Enterprise。
Standard专门用于小型环境,可以用于保护不超过75个虚拟机。
Enterprise专门用于有75个以上的虚拟机需要保护的大型环境。
这两个版本都具有完整的功能,并包含vSphereReplication、自动故障恢复和计划内迁移功能。
部署SRM,要求每个站点上都具有发放了许可证的ESX主机-每个启动的ESX主机都需要许可证。
每个站点上的vCenter实例需要各自的许可证。
另外,要为受保护的虚拟机发放SRM许可证。
测试环境我们可以提供60天全功能的限时版许可。
4SRM方案安装、配置手册
请参考另外提供的SRM_step_by_step_setup_guide.pdf文档。
5服务与培训
VMware可提供免费的DEMO环境部署服务,对于生产环境部署,建议购买人天服务。
VMware培训部定期举办VMwarevCenterSiteRecoveryManager:
Install,Configure,Manage[V5.1]课程培训,具体可以参考VMware原厂培训时间表。
6SRM方案中其它需要注意的问题
6.1数据的一致性要求
容灾方案必须考虑具体的一致性需求,一般来说从低到高有如下几种一致性需求:
1.虚拟主机的一致性要求:
保证在恢复站点的虚拟主机的一致性,一般一个一致性良好的虚拟主机以能够正常开关主机为衡量标准。
2.虚拟主机内文件和OS的一致性要求:
保证在恢复站点的OS和文件系统的一致性,一般一个一致性良好的虚拟主机文件能够正常读取,正常执行。
3.应用的一致性要求:
对于应用,尤其是分阶段事物的应用的一致性要求较高,保障业务的一致性,常见的有windows的vss等各种需求,要求的一致性等级越高,实现难度越大。
6.2计划内迁移和计划外迁移的RPO
计划内迁移的RPO
1.将关闭受保护的虚拟机,然后对它们进行同步!
2.使用计划内迁移(或灾难恢复事件)迁移到恢复站点后,必须重新保护以实现故障恢复。
3.计划内迁移的RPO=发起迁移的时间点
计划外迁移的RPO
1.计划外迁移一般都是生产站点级别故障或者存储级别故障引起,一般都无法实现最后一次的数据同步
2.使用计划外强制迁移(或灾难恢复事件)迁移到恢复站点后,使用的数据是最近一次RPO内保护的数据
3.计划内迁移的RPO=容灾计划中设定的RPO
6.3定期的容灾演练
定期的容灾演练能有效的保障一旦发生故障的响应以及维护人员对这套容灾系统的信心,但是容灾演练必须注意如下:
不能对生产环境有任何影响
必须自动化,否则时间过长,牵扯到部门人员过多,容灾演练终将称为摆设。
建议按照如下步骤设计容灾演练
(1.)自定义恢复计划
简单的恢复计划(仅指定已恢复的虚拟机要连接的测试网络以及该测试的预期响应时间)可以提供一种有效的方式来测试SRM配置。
大多数恢复计划需要先进行配置,然后才能在生产中使用。
例如,受保护站点上用于紧急情况的恢复计划可能不同于服务从一个站点计划迁移到另一站点的恢复计划。
注意恢复计划将始终反映其恢复的保护组的当前状况。
如果保护组中的任何成员显示除“正常”之外的状态,则必须先解决问题,然后才能对恢复计划进行更改。
(2.)恢复顺序
运行恢复计划时,首先会关闭受保护站点中虚拟机的电源。
SRM会根据您设置的优先级关闭虚拟机的电源,高优先级的虚拟机最后关闭电源。
SRM会在测试恢复计划时省略此步骤。
SRM会根据您设置的优先级,在恢复站点上打开虚拟机组的电源。
(3.)恢复计划超时与暂停
运行恢复计划的步骤时可能会出现多种超时情况。
超时会导致计划在指定的时间间隔内暂停,为完成步骤留出时间。
通过消息步骤在得到用户确认之前会强制暂停计划,请确保用户可以监控计划进度并根据需要对消息做出响应。
(4.)指定虚拟机的恢复优先级
默认情况下,SRM将新的恢复计划中的所有虚拟机的恢复优先级设置为3。
可以提升或降低虚拟机的恢复优先级。
6.4生产站点和恢复站点关系
所谓的生产站点和恢复站点之间的关系都是相对的,一般情况下他们互为备份,一个站点同时担当两个角色,生产站点业务切换到恢复站点后,一旦生产站点的硬件故障修复,可以把恢复后的生产站点作为恢复站点,而这时接纳了生产虚拟机的恢复站点担当生产站点的作用。
计划迁移或灾难恢复完成后,之前的恢复站点成为受保护站点。
恢复完成后,新的受保护站点没有可恢复到的恢复站点。
如果您运行重新保护,新的受保护站点由原始保护站点进行保护(与原始保护方向反向)。
要在恢复前将受保护站点和恢复站点的配置还原到其初始配置,需要执行故障恢复。
示例如下图:
执行故障恢复操作
站点A是受保护站点,站点B是恢复站点。
执行恢复后,会将虚拟机从站点A迁移到站点B。
要将站点A还原为受保护站点,可执行故障恢复。
1.执行重新保护。
站点B(之前的恢复站点)将成为受保护站点。
SRM使用保护信息来建立对站点B的保护。
站点A则成为恢复站点。
2.执行已计划的迁移,以便将站点B上受保护的虚拟机恢复到站点A。
3.再次执行重新保护。
站点A将成为受保护站点,站点B将成为恢复站点。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 江苏电信 SRM 方案