IBM灾难恢复解决方案.docx
- 文档编号:8534462
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:19
- 大小:254.37KB
IBM灾难恢复解决方案.docx
《IBM灾难恢复解决方案.docx》由会员分享,可在线阅读,更多相关《IBM灾难恢复解决方案.docx(19页珍藏版)》请在冰豆网上搜索。
IBM灾难恢复解决方案
IBM灾难恢复解决方案
概述
随着信息技术的发展,企业越来越依赖于数据处理来进行它的商业行为,保证它在业界的竞争力。
数据处理的高可靠性和高可用性越来越成为关键。
如果企业发现数据丢失,业务的开展将变得极其困难,更为重要的是,企业将失去客户的信任以及一系列的企业赖以生存发展的市场。
核心数据的丢失,严重时完全有可能造成整个企业的瘫痪。
一项Minnesota大学的研究表明,遭遇灾难同时又没有灾难恢复计划的企业超过60%以上在两到三年将退出市场,随着企业对数据处理的依赖程度的递增,此比例还有上升的趋势。
因此,在限定的时间内成功的灾难恢复将应该是一个企业战略计划中的一个关键组成部分。
尽管随着科学技术的发展,计算机系统的可靠性日益增加,像IBM的ParallelSysplex或HACMP高可用集群多处理技术可以在局域网范围内解决大部分的硬件和软件引起的系统不可用问题,但是由地震、洪水、火灾、战争等天灾人祸或由于软硬件故障而使生产系统整体无法正常工作等情况所造成的损失依然可以轻而易举地摧毁企业赖以生成的IT系统。
所以,在异地建立灾备中心对于极度依赖IT的企业便成了必然的选择。
IBM公司提供了从数据级到应用级的灾难备份解决方案。
应用级灾难备份主要采用基于AIX平台的HAGEO方案或基于S/390平台的GDPS方案,而数据级的方案采用基于磁盘系统的PPRC或XRC功能软件。
需要指出的是,目前传统的灾难恢复方法(如每天对重要文件进行磁带拷贝并将这些拷贝转移到远地点)仍然能够满足大部分公司的需要。
当然,某些公司的需求已经证明了使用远程拷贝功能或应用级灾难备份的必要,远程拷贝就是在一个远地点维护生产数据的一份最新拷贝(远程拷贝也被称为远程镜像)。
本文将着重讨论如何使用基于磁盘系统的PPRC远程拷贝功能实现灾难备份和利用HAGEO实现应用级备份,而基于S/390平台的GDPS应用级备份将另行讨论。
设计思想
首先,IBM公司认为设计和完成灾难备份需要以下六大步骤:
确定业务要求
在设计开始阶段,必须进行“风险分析”和“业务影响分析”,以确定业务要求。
必须分析每个业务流程,评估在灾难事故发生时的影响,包括业务及收入的损失。
确定数据处理要求
当业务要求确定后,就要将其转换成数据处理语句,或者是系统设计者可以使用的资料。
得到的结果将是报表式的,包括对于每个应用所需的恢复时间,最大的数据丢失容忍量,运行所需CPU、存储容量及于其他应用和数据的相关性。
设计备份及恢复方案
当数据处理要求确定后,就要设计备份及恢复方案。
同时可能需要进行总体设计以得出成本预计,如果有更清晰的方案要求,或者可能进行更详细的设计。
选择完成设计的产品
完成恢复方案的设计后,就可以选择实现这个方案的产品了。
有部分产品在起初的设计阶段就已经考虑到了,但在这一阶段必须选择能够协同运行以实现恢复设计方案的产品。
实现备份及恢复方案
现在可以根据设计完成恢复方案了。
要实现这一点,必须根据备份地点作出安排,准备灾难备份计划。
保持最新的解决方案
实现灾难备份是一个长期的过程。
不管生产中心或备份中心有什么改变,都必须执行适当的调整以保证备份方案仍然可行。
另外,IBM公司认为所有的灾难备份方案设计都必须考虑以下五大因素,
1,需要考虑哪些灾难
怎样的灾难?
会使业务中断多久?
2,恢复速度
灾难发生后需要多快启动及运行系统?
能否承受数天或数分钟的等待?
3,恢复程度
需要恢复每条记录和交易吗?
可以使用上星期或昨天的数据吗?
需要恢复一切吗?
有不相关的文件吗?
什么是合法隐含的要求?
有少数的一组人输入交易吗?
他们可以重新输入灾难期间丢失的交易吗?
这些交易十分重要而不容许丢失吗?
4,可用的技术
必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某些现有条件的制约?
5,方案总体成本
实现灾难备份需要多少投资而不实现灾难备份会损失多少钱?
综合以上所述,可以如下图所示:
不同层次的灾难备份解决方案
据国际标准SHARE78的定义,灾难恢复解决方案可根据以下的主要方面所达到的程度而分为七级,即从低到高有七种不同层次的灾难恢复解决方案。
可以根据企业数据的重要性以及您需要恢复的速度和程度,来设计选择并实现您的灾难恢复计划。
备份/恢复的范围
灾难恢复计划的状态
在应用中心与备份中心之间的距离
应用中心与备份中心之间是如何相互连接的
数据是怎样在两个中心之间传送的
有多少数据被丢失
怎样保证更新的数据在备份中心被更新
备份中心可以开始备份工作的能力
在1992年Anaheim的SHARE78,M028这一会议报告中,自动的异地远程恢复任务被定义有七个层次:
Tier0-没有异地数据(Nooff-siteData)
Tier0被定义为没有存储信息和建立备份硬件平台的需求,也没有发展应急计划的需求。
数据仅在本地进行备份恢复,没有数据送往异地,这种方式是最低成本的灾难恢复解决方案。
事实上这种灾难恢复并没有真正灾难恢复的能力,因为它的数据并没有送往远离本地的地方,而数据的恢复也是利用的本地的记录。
Tier1-PTAM卡车运送访问方式(PickupTruckAccessMethod)
Tier1的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地,然后根据恢复的具体需求,有选择地建立备份平台,但不提供数据处理的硬件。
PTAM是一种被用于许多中心的备份的标准的方式,数据在完成写操作的一些时候,将会被送到远离本地的地方,同时准备有数据恢复的程序。
在灾难发生后,一整套安装需要在一台未开启的计算机上重新完成。
系统和数据可以被恢复并重新与网络相连。
这种灾难恢复方案相对来说成本较低(仅仅需要传输工具的消耗以及存储设备的消耗)。
但同时有这样的问题,那就是难于管理,即很难知道什么样的数据在什么样的地方。
Tier2-PTAM卡车运送访问方式+热备份中心(PTAM+Hot中心)
Tier2相当于Tier1再加上热备份中心能力的进一步的灾难恢复。
热备份中心拥有足够的硬件和网络设备去支持关键应用的安装需求,这样的应用是十分的关键的,它必须在灾难发生的同时,在异地有正运行着的硬件提供支持。
这种灾难恢复的方式依赖于PTAM方法去将日常数据放入仓库,当灾难发生的时候,数据再被移动到一个热备份的中心。
虽然移动数据到一个热备份中心增加了成本,但却明显降低了灾难恢复时间。
Tier3-电子链接(ElectronicVaulting)
Tier3是在Tier2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。
接收方的硬件必须与主中心物理地相分离,在灾难发生后,存储的数据用于灾难恢复,由于热备份中心要保持持续运行,增加了成本。
但消除了传输工具的需要,提高了灾难恢复速度。
Tier4-活动状态的备份中心(ActiveSecondary中心)
Tier4灾难恢复具有两个中心同时处于活动状态并管理彼此的备份数据,允许备份行动在任何一个方向发生。
接收方硬件必须保证与另一方平台物理地分离,在这种情况下,工作负载可能在两个中心之间分享,中心1成为中心2的备份,反之亦然。
在两个中心之间,彼此的在线关键数据的拷贝不停地相互传送着。
在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复也可降低到小时级或分钟级。
Tier5-Two-SiteTwo-PhaseCommit
Tier5在Tier4的基础上管理着被选择的数据(根据单一commit的范围在本地和远程数据库中同时更新数据),也就是说,在更新请求被认为是满意之前,Tier5需要生产中心与备份中心的数据都被更新。
我们可以想象这样一种情景,数据在两个中心之间相互映象,由远程two-phasecommit来同步。
Tier5为关键应用使用了双重在线存储,在灾难发生时,仅传送中的数据被丢失,恢复时间被降低到分钟级。
Tier6-0数据丢失(ZeroDataLoss)
Tier6可以实现0数据丢失率,同时保证数据立即自动地被传输到恢复中心。
Tier6被认为是灾难恢复的最高的级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。
Tier6是灾难恢复中最昂贵的方式,但也是速度最快的恢复方式。
Tier7-0数据丢失,自动系统故障切换
第7层和第6层实现之间的区别是,当一个工作中心发生灾难时,第7层实现能够提供一定程度的跨站点动态负载平衡和自动系统故障切换功能。
现在已经证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能是需要一个需要被纳入考虑范围的重要事项。
以下图表总结了不同灾难恢复机制,包括了它们的功能范围和费用
GDPS,HAGEO
PPRC
XRC
定期数据库日志备份与传输
每日进行系统卷备份
实现途径
硬件
硬件
软件/硬件
软件
无特殊要求
恢复层次划分
7
6
6
5
3
OS/390支持
有
有
有
有
有
AIX支持
无
有
无
有
有
数据丢失
数秒/无
无
数秒
数小时
最多一天
恢复窗口
数分钟
小于一小时
1-2小时
12–18小时
18-24小时
实施难度
困难
较易
中等
繁复
较易
恢复步骤
较易
简单
中等
复杂
较易
一次投资
较多
中等
中等
较少
较少
运行成本
可能较高
可能较高
中等
较低
较低
电信条件
支持
支持
支持
支持
支持
DR恢复技术
DR项目的实施中涉及到多种技术.这些技术可以分为三类:
应用恢复,网络恢复,数据恢复.
应用恢复技术
下图描述了在不同级上常用的应用恢复技术或方法:
IBMS/390的GDPS技术给用户提供一个无中断的操作环境来运行那些关键业务的应用程序,通过自动应用恢复能力来满足其第7级DR要求.
另一方面,GDPS也可以在热待命状态下运行,来为S/390系统提供第6级解决方案.在IBMAIX环境下,HAGEO提供与GDPS热待命相似的解决方案,并常被用来作为大型关键业务UNIX数据中心的DR解决方案
有些设施的DR包括必须有人介入和人决策的手动应用恢复程序.在实际灾难发生时,一些这样的设施因为对人工操作的依赖,造成
恢复过程的延误.因此,我们认识到,DR的实施必须包括一定程度的自动化,这也是GDPS和HAGEO这样的软件的主旨.
网络恢复技术
下图描述了在不同级上常用的网络恢复技术或方法:
无中断的第7级网络恢复需要动态网络路由重选来保证应用能够在不中断最终用户的情况下转入备用数据中心。
在SNA环境下这通过
APPN来完成,而在IP环境下则通过第4-7层转换来完成。
APPN是在S/390GDPS环境下,为动态网络恢复而开发的SNA网络技术。
通过
标准的基于路由器的技术,可以在通用的IP传输上使用APPN。
在第6级DR实施中,网络恢复可以通过APPN和/或标准的路由协议来完成
数据恢复技术
下图描述在不同级上常用的数据恢复技术和方法:
数据复制是一个复杂的议题,但是一般来说这可以在硬件或软件层上实施.今天,在市场上的硬件和软件技术提供不同的第4级和第7级数据恢复。
使用硬件或软件的选择取决于很多与设施相关的因素,如工作量,网络成本要求,工作点和数据恢复点间的距离,同性或异性的平台支持等等.接下来的部分我们将介绍IBM提供的几种软件和硬件数据恢复技术.
IBMDR技术矩阵
下表中总结了适用于不同操作系统平台和不同DR要求的IBM技术(分级),我们发现PPRC,XRC和HAGEO,MIMIX是最常用的灾难恢复技术。
Tier7(zSeriesOnly)minutesoutage
Tier61-4hoursoutage
Tier55-12hoursoutage
Tier412-24hoursoutage
Non-stopOperation
zSeries-GDPS
-
-
-
Hot_StandbyCenter
-
zSeries-GDPS
pSeries–HAGEO
iSeries-MIMIX
-
-
OS/390支持
SharkPPRC
p-t-pVTS
SharkPPRC
p-t-pVTS
SharkPPRC
SharkPPRC/XD
Sharkflashcopy
OS-levelDataMirroring
zSeries–XRC
zSeries–XRC
pSeries–HAGEO
iSeries–MIMIX
zSeries–XRC
pSeries–HAGEO
iSeries–MIMIX
-
MiddlewareData_Mirrorin
-
-
DB2Datapropagator
TivoliTSM+DRM
SNA_NetworkzSeriesonly
APPN
FrameRelay/ATM
DDN/Subarea
DDN/Subarea
基于磁盘系统的PPRC数据级灾难备份
目前业界有两种基本的基于磁盘系统的远程拷贝形式:
同步PPRC远程拷贝:
来自处理器的更新被写往本地连接的磁盘系统,该系统将数据转发给远地点连接的磁盘系统。
只有当两个系统都拥有数据的拷贝以后本地系统才会向处理器返回一个I/O完成指示。
同步远程拷贝能够在远地点提供最新程度的数据当前值,但应用程序会因等待写I/O操作的完成而被延迟。
异步PPRC远程拷贝:
来自处理器的更新被写往本地连接的磁盘系统,该系统立即向处理器返回一个I/O完成指示。
更新在很短的一段时间(在实际中通常在数秒钟到一分钟左右)以后被送往一个远程系统。
异步远程拷贝对应用程序性能的影响最小,但远程磁盘系统在数据最新性方面与本地系统相比会有一个延迟。
下面分别对两种方案中IBMESS的实施方法加以介绍。
同步PPRC数据级灾难备份方案
IBM的PPRC提供了实现灾难备份的方案基础。
PPRC全称PeertoPeerRemoteCopy,是以存储为基础的、实时的、与应用无关的数据远程镜像功能。
PPRC实现较为简单,是无数据丢失且具有完全恢复功能的灾难恢复解决方案。
PPRC基于IBMESS企业存储服务器,通过光纤通道,以逻辑卷为基本单位,将本地ESS上的数据同步镜像到远端ESS上。
为在保证数据的即时性、完整性和系统性能之间的平衡,PPRC提供了多种工作方式。
同步方式下:
点对点远程拷贝(PPRC)是一种同步远程镜像工具,可用于相隔距离最多可达103公里的两个ESS系统中指定的逻辑卷。
这一距离可以通过第三方提供的通道扩展器加以延长。
ESS可以为所有连接的主机支持PPRC功能。
PPRC将确保如果备份卷不能被更新,那么即使源卷更新成功,整个写操作也会返回失败---彻底保证源卷和目的卷的数据彻底一致。
同步方式可以保证数据不会丢失,更重要的是数据的一致性在这种方式下能够得到很好的保证---数据的不一致意味着相关数据的丢失,此时数据库的数据安全机制无法保证数据的安全,严重时有可能造成数据库无法启动。
PPRC的同步实现机制如下图所示:
PPRC同步工作过程为:
1、应用程序将数据写入磁盘,在生产系统中的应用程序将数据写到生产系统的磁盘。
2、生产系统中的磁盘数据传输到备份的磁盘对每一个在生产系统的写操作都要将这个写操作送到备份磁盘。
3、备份机磁盘数据复制,备份磁盘复制生产系统数据。
4、将写完操作信息返给生产磁盘,当生产系统收到备份系统传回的已写信息之后,生产机的磁盘系统通知主机该写操作已完毕,在此之后生产系统应用继续执行。
在同步PPRC的建立的过程中,volume有不同的状态,以保证数据的完整性。
异步PPRC数据级灾难备份方案
PPRC+FlashCopy数据备份方案
为了提高PPRC数据备份方案的效率,可以考虑结合IBM公司ESS的FlashCopy功能软件采用异步方式实现PPRC数据备份。
在异步工作方式下,PPRC能够在远端更新未完成的情况下,只要本地更新成功就可以向主机返回“写成功”信号。
好处是:
可以在主备机房之间数据链路带宽成为瓶颈时,采用异步方式可以不影响主机房生产系统的性能。
坏处是:
1、数据将有可能丢失;2、当异步同步不能最终成功完成的情况下,数据的一致性无法得到保证。
所以当采用异步方式时,IBM建议先采用IBMESS的快速拷贝功能FlashCopy备份需同步的数据,再进行数据同步。
ESS的FlashCopy的使用
ESS的FlashCopy提供一个“时间点”的拷贝服务功能,从源卷到目标卷快速地复制数据。
逻辑拷贝通常可以在数秒时间内完成,然后就释放源卷,进行正常工作。
而物理拷贝操作在后台进行。
当物理拷贝进行过程中,拷贝和被拷贝数据都能被客户应用使用。
IBMESS的FlashCopy支持两个选项,它提供NOCOPY选项来支持灾备应用需求。
以下讨论了在移动灾备的应用环境中是如何使用这些选项的。
FlashCopyCOPY选项
对于一般客户应用,需要实时生产数据的时间点物理拷贝,这样的应用示例包括日常重要卷的备份、日常报表生成、数据仓库和数据挖掘的应用等。
FlashCopyCOPY选项能够在磁盘存储设备中产生一份生产数据的真实时间点拷贝。
该选项可以满足以下的应用需求:
1.在磁盘存储设备中保存生产数据的一份时间点拷贝的业务需求。
这方面的例子是日常工作系统备份。
2.生产数据的时间点拷贝将被多个应用重复使用,特别是对每日的结束处理和报表生成。
3.生产数据的时间点拷贝将被某些统计分析类应用,如MIS或数据挖掘应用频繁使用。
无论是什么原因,只要需要生产数据的物理拷贝,就可以使用FlashCopyCOPY选项来进行支持。
对于该选项而言,所需要的磁盘空间容量是需要拷贝的源磁盘容量的总和。
下图对FlashCopyCOPY选项进行了说明,请注意,生产数据的一份真实拷贝是为其它的应用使用而产生,这些应用通常是后端办公MIS类应用,如报表生成
FlashCopyNOCOPY选项
对于IBMESS独有的NOCOPY功能,在异步灾备中有极大的作用。
NOCOPY也需要实时生产数据的时间点拷贝,但并不需要真正的数据拷贝,即在FlashCopy完成以后不存在源数据的单独的物理拷贝。
这一点可以通过FlashCopyNOCOPY选项来实现。
使用NOCOPY选项的应用通常不需要频繁访问被拷贝映像。
NOCOPY选项不需要所有的镜像磁盘空间,但是需要一些磁盘空间进行磁盘索引和写I/O缓存。
所需磁盘空间的容量取决于FlashCOPY的使用时间(即从建立到删除的时间)和被拷贝卷的更新速度。
在异步灾备的方案。
本地可以用Flashcopy的NOCOPY的选项进行时间点的COPY,保证数据的完整性,再用PPRC进行远程灾备。
PPRC/XD数据备份方案
PPRCXD为非同步、长距离的拷贝选项,它较适合于数据迁移、数据库日志的传输及定期的异地数据备份,这个功能是集成在ESS的PPRC选项当中的,当ESS运行在非同步方式时,被修改的数据持续的传到备份端,修改主端ESS的I/O在被修改的数据传往备份ESS前结束,由于是非同步操作,这样可以最小的影响主端应用的响应时间,当客户需要时,还可切换至PPRC的同步方式。
级联PPRC数据备份方案
ESS拷贝服务V2推出了一种被称为级联PPRC的功能,这一功能允许您将同步PPRC和PPRC-XD组合在一起,从而提供了另一种灾难恢复方法。
PPRCV2包括PPRCV1的全部功能,此外还包括了级联功能。
它非常适宜用于实现基于数据定期时间点拷贝、远程数据拷贝、远程数据移植、远地备份和非活动数据库日志传输的应用灾难恢复解决方案。
PPRCV2支持异步级联功能,这一功能可用于为开放系统和IBMeServerz系列服务器提供一个长距离远程拷贝解决方案。
这一功能可以在远程站点提供一份完整和一致的数据拷贝,并支持强大的城域和长距离业务连续性和灾难恢复功能。
可以为使用同步PPRC的两个站点配置这一功能-将主拷贝和中间拷贝存放在同一本地ESS上,同时使用异步PPRC-XD连接到一个远程站点;或在一个三站点配置中使用这一功能,这样可以实现长距离零数据丢失。
利用级联PPRC,可以轻而易举地突破性能、数据完整性和传输带宽的限制,实现高效率、低成本的容灾方案:
∙面向开放系统和大型主机的远程数据同步方案,两站或三站式,采用三站式方案可实现“零数据损失”;
∙本地中心和同城中心实现同步PPRC,对性能影响微乎其微,并确保数据完整性;
∙同城中心位于同步PPRC实施距离内,本地中心的事故不会波及同城中心;
∙可距本地/同城中心的任意距离设立远程中心。
PPRC的实施
PPRC的实际连接方法:
以上是标准的实时备份方案示意图,UNIX主机等服务器通过SAN与IBM企业存储服务器ESS相连接,两台ESS之间通过ESCON或FiberChannel通道实现PPRC---同步远程拷贝。
受传输距离的限制,当主备机房的距离超过3公里(ESCON)或10公里(FC)时,需要加光纤延伸器。
光纤延伸器之间传输为DWWM,界质为光纤。
可以从多个不同的厂商购得,比如IBM2029FibreSaver、INRANGE的9801等。
在光纤延伸器的帮助下,PPRC可以达到103公里的距离。
COPY的图形界面
COPY界面的功能
PPRC的设置界面
PPRC的实施有两种方法,可用控制终端的图形界面,或用主机上的脚本来调用,自动来完成。
应用级灾难备份方案HAGEO
HAGEO特点介绍
HAGEO是IBM在RS/6000平台上的灾难备份和恢复解决方案。
HAGEO对客户的关键业务数据实行远程实时镜像,在一些不可预料的物理灾难,如断电,火灾,水灾,龙卷风,或地震发生时,可以迅速在备份机房恢复生产业务。
HAGEO的一些非常有优势的特点如:
1.在网络带宽满足要求的前提下,对于备份机房在多远距离没有限制,IBM曾经实施过的一个案例是生产中心和备份中心各在英国和美国,两地相距为5000多公里,使用的网络是T3。
2.对应用程序透明,即原有的应用程序不需做出任何修改,即可用于HAGEO环境下。
3.支持所有数据库产品,支持文件系统和裸设备。
4.提供三种数据镜像模式供灵活选择:
同步,镜像写一致同步和异步,其中镜像写一致模式可以做到数据完整性保持。
5.结合HACMP,可以完成错误自动侦测,失败自动接管,IP地址切换等强大功能。
相比之下,用存储设备来完成的只是数据的备份,并且没有错误自动监测功能,没有应用接管功能,更没有IP地址切换功能,若加上平时没有注意将应用程序的最新版本保留到备份机房,那么,恢复将会花上数小时或几天以上的时间,对于一个拥有几百万用户的大型移动通信公司来说,这不亚于一场毁灭性的灾难,除去可计算的损失外,信誉丧失,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IBM 灾难 恢复 解决方案