EMC存储容灾解决方案要点.docx
- 文档编号:25987668
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:30
- 大小:347.74KB
EMC存储容灾解决方案要点.docx
《EMC存储容灾解决方案要点.docx》由会员分享,可在线阅读,更多相关《EMC存储容灾解决方案要点.docx(30页珍藏版)》请在冰豆网上搜索。
EMC存储容灾解决方案要点
XX县人民医院存储项目
EMC存储恢复容灾方案
2011年11月
第1章EMC主备存储容灾互切说明
1.1XX医院IT现状简述
3台数据库服务器,包括HIS、LIS、PACS等。
存储使用一台EMCNX4。
1.2存在的主要问题
1,保存全院关键业务数据的存储只有一台,存在单点故障,一旦出现灾难事件,全院业务将受到影响。
2,PACS影像文件没有实现归档,占用主存储空间和降低主存储性能。
3,随着业务的增长,现有的NX4会遇到更大的性能压力。
1.3EMC的解决方案
EMC推荐的解决方案采用业内最成熟、可靠、先进的技术,可以很好的解决以上三点问题。
EMC方案非常方便的融合到现有的应用系统中,应用系统无需做大的变动。
整个拓扑如下:
方案说明:
(一)服务器:
原有的两台服务器可不做修改,配置一台服务器或在其上安装虚拟机给灾备阵列,安装HIS等软件,作为HIS等系统的备机。
(二)存储交换机:
原有生产机房内的两台光纤存储交换机升级为16口,新购置两台DS-300B8口光纤交换机置于容灾机房。
(三)信息中心生产和容灾存储:
原有机房增加一台EMC中端存储VNX5100阵列,原来的NX4在完成数据迁移后作为备份存储使用。
(四)业务连续性保护装置:
增加2台连续数据保护RecoverPoint服务器装置,通过旁路实现数据的同步,不对主阵列造成性能上的负担。
2台装置之间采用高可用配置,任何一台故障,对生产或容灾没有影响。
若2台装置发生故障,对生产也没有任何影响。
(五)业务连续性保护软件:
使用EMC独有的技术产品RecoverPointCDP,将生产存储上的关键应用数据(HIS/PACS)实时同步到容灾存储上,实现数据的2份保存。
RecoverPoint具备传统容灾方案所没有的数据回滚功能,可以解决传统容灾经常碰见的致命问题数据库因逻辑故障而无法启动的故障,通过RecoverPoint精确到IO数据回滚功能完美解决。
同时RecoverPoint还有支持异构存储整合、灾备存储根据需要打开容灾数据库、链路带宽压缩等一系列高端功能。
1.4主备存储、容灾装置等发生故障时切换说明
此处假设已经完成生产和容灾阵列以及容灾装置、网络等架构部署,在生产机房的EMCVNX5100作为主生产阵列(标识为一号存储),容灾机房的VNX5100作为容灾阵列(标识为二号存储)。
针对阵列、recoverpoint装置的故障切换步骤描述。
当生产存储(一号存储)发生误操作时,应急操作如下:
1.由于二号存储内的数据随时可用,可以在10分钟内回滚到过去任意时间点的;故把容灾机房内的二号存储进行切换操纵,升级成生产存储,提供存储服务。
对于生产主机或容灾主机读写,RecoverPoint装置会继续纪录这些主机的写I/O。
2.在生产机房的一号存储故障解决后,使用容灾机房的二号存储的正确数据覆盖一号存储的数据,这一动作在后台完成。
VNX5100带宽为400MB/s,假设有30%带宽用于后台覆盖原生产存储的数据操作,则每小时大概可以往原生产存储写360G数据。
可以快速的实现HIS/LIS的数据同步。
3.等一号存储数据覆盖和数据正确性检验完成后,把一号存储重新升级成主存储给生产主机访问。
当容灾存储(二号存储)发生误操作时,应急操作如下:
1.若容灾存储二号存储发生故障,对生产系统无任何影响。
2.等二号存储的故障修复后;通过EMCRecoverpoint装置将变化的数据同步到二号存储上。
这一动作在后台完成,实现两边的数据一致可用。
当recoverpoint容灾装置发生误操作时,应急操作如下:
1.首先recoverpoint装置是由2个单节点组成的高可用集群,真正消除了单点故障。
2.假设一台发生故障,对生产阵列、容灾阵列没有任何影响,2台装置间的集群会自动接管,继续实现数据的实时同步。
3.假设2台均发生故障,由于recoverpoint采用的是旁路方式,对生产阵列也没有影响,暂时无法实现对容灾阵列的数据同步。
不过2台同时坏的几率极低。
4.在recoverpoint装置修复好后,可以将生产阵列的数据全部重新同步到容灾阵列上。
5.Recoverpoint容灾服务器装置最大支持8个节点组成高可用集群。
本次配置2个RecoverPoint设备群集使用,2个均处于活动状态,带宽高达150MB/s,足以实现关键数据连续保护,记录写I/O需要的带宽。
当存储交换机发生误操作时,应急操作如下:
1.共有4台存储交换机,组成2个独立、冗余的fabric网络。
2.新购的2台SAN交换机为8Gb的带宽,完全可以满足医院HIS/LIS/PACS的带宽要求。
3.任何一台交换机故障均不会影响生产、容灾。
4.交换机的故障修复后,插回原来的位置继续提供冗余的fabric网络。
可见,在处理误操作,数据回滚方面,对生产带来的影响仅仅是切换的数分钟甚至秒级恢复时间,符合医院的数据不丢失,应用中断到最小的要求。
1.5医疗行业及国内部分容灾案例
说明:
EMCRecoverpoint有3种部署模式:
CDP:
本地业务连续性保护(<2km),
CRR:
远程业务连续性保护(2km-1000km),
CLR:
本地和远程业务连续性保护
序号
客户名
容灾类型
距离
源端存储
目标端存储
容量
应用类型
1
河南肿瘤医院
CDP
本地
CX
CX
5T
HIS、LIS
2
温州医院附二院
本地CDP
本地
CX
CX
12T
3
柳州市人民医院
CDP
本地
VNX
VNX
6TB
HIS、LIS
4
百色右江附属医院
CDP
本地
VNX
VNX
5TB
HIS、LIS
5
福建省电力公司
CRR
220公里
福州-三明
CX4
CX4
1TB
SQL\Oracle
6
福州市电力公司
CRR
福州不同机房
CX700
CX500
1TB
SQL\Oracle
7
北京地稅局
CRR
北京不同机房
8
成都市政厅
CRR
成都不同机房
9
北京中国国际金融有限公司
CRR
北京-上海
1TB
Oracle
10
景顺长城基金
CRR
深圳-北京
CX3-80
CX3-20
Oracle
11
中欧基金管理有限公司
CRR
上海-深圳
4TB
Oracle
12
博时基金管理公司
CRR
北京-深圳
CX4-480
CX3-40
1TB
Oracle
13
台北勞保局
CRR
台北不同机房
14
武汉公积金
CRR
武汉不同机房
CX3
CX4
AIXDB2
15
广州市交通委员会
CRR
广州不同机房40公里
HPEVA
CX4-960
10T
Oracle10g
16
湖南交通
本地CDP
本地
DMX4
CX4
4TB
Oracle
17
江西电力
本地CDP
本地
XP24000
CX4-960
3TB
Oracle
18
湖南烟草
本地CDP
本地
DMX4
CX380
4TB
SQL\Oracle\DB2
19
內蒙北方電力公司
本地CDP
本地
CX3
HPEVA
4TB
Oracle
20
台北全聯實業股份有限公司
本地CDP
本地
18TB
SQL
21
宜昌社保
本地CDP
本地
CX4
IBMDS4800
4TB
SQL\Oracle
22
台北寶來金融集團
本地CDP
本地
13TB
SQL\Exchange
23
香港房屋協會
本地CDP
本地
CX3
CX
1TB
Oracle
24
新韩银行
CLR
北京-南京
CX3-80
CX3-40
OracleRAC
25
韩国外换银行
CRR
北京-南京
CX4-960
CX4-480
6TB
OracleRAC
26
襄樊航宇救生
CRR
襄樊
NS480
NS480
4TB
SQL\Oracle
27
天津移动
CDP+AP7600
天津
DS8300
DS8300
Oracle\DB2
28
湖南财政
CRR
长沙-岳阳
DMX4-950
NS480
29
湖南财政
CDP
本地
DMX4-950
NS120
30
湖北电力
CDP
同城
DMX4-950
CX4
31
信诚保险
CRR
广州-北京
CX3-20
CX4-120
Oracle
32
长大公路
CRR
广州两机房
CX3-20
NS120
SQL
33
山西新闻网
CDP
本地
CX4
CX4
DB2
34
南方航空
CDP
本地
CX3-40
CX3-40
35
武汉住房公积金
CDP
本地
CX4-120
CX4-120
36
湖南中烟
CDP
同城
NS240
NS240
37
PICC
中国人寿
CDP,CRR
全国154套RecoverPoint,30多个省市
38
银河基金
CLR
上海-深圳
CX
CX
39
东莞银行
CDP(AP7600)
DS8100withPPRC
DS5100
3TB
40
山西移动CRM
CDP
本地
IBMDS8300
IBMDS8300
财务统计
41
伟创力技术有限公司
CRR
同城2个工厂
NS480
NS480
SQL
42
台湾移动
CLR
台北-高雄
CX4
CX4
43
湖南财政局
CLR
500KM长沙-邵阳
NS480
DMX
4T
Oracle,sQL
44
湖南运输厅
CDP
本地
DMX
CX
4T
Oracle
45
长兴资产管理局
CRR
上海同城
CX4-240
CX4-240
DB2
46
台湾公共电视服务中心
CDP
本地
CX4
CX4
DB2
47
镇州丹尼斯仓库
CDP
本地
CX
CX
48
江苏移动
CRR
同城
DMX4
NS480
49
广东省常达公路设计局
CRR
同城
CX3-20
NS120
4TB
oracle
50
河北电力
CRR
同城
NS480
NS480
Oracle
51
广西柳工机械股份有限公司
本地CDP、
Cisco9222i
本地
DMX4
IBMDS4800
20T
SAP、Oracle
52
柳州华锡集团
CRR
异地
NS480
NS480
5T
Oracle、sqlserver
第2章生产存储性能和容灾存储可用性说明
2.1生产存储VNX5100的性能说明
此次配置的生产存储及容灾存储均为EMC中端阵列VNX5100。
全球已经售出1万台以上。
获得了客户的良好评价,尚未遇到性能瓶颈,此外还可以通过EMC的企业级闪存盘(SSD)和FAST软件包大幅度提升阵列的性能。
VNX系列是一种强健的平台,整合了原有的数据块存储、文件服务器和直连应用程序存储,使客户可以动态增加、共享和经济高效地管理多协议文件系统以及多协议数据块存储访问。
VNX操作环境支持MicrosoftWindows®和Linux/UNIX客户端在多协议(NFS和CIFS)环境中共享文件。
同时,它还支持高带宽和对延迟敏感的数据块应用程序的iSCSI、光纤通道和FCoE访问。
EMCAtmos™VirtualEdition软件和VNX存储结合使用,可支持基于对象的存储,并使客户能够通过EMCUnisphere管理Web应用程序。
VNX系列的新一代存储平台包括VNX5100,VNX5300,VNX5500,VNX5700和VNX7500,由带6-Gb/sSAS驱动器后端的IntelQuadCoreXeon5600系列提供支持,与上一代的存储相比,性能得到大幅提升:
∙运行MicrosoftSQL和Oracle的速度比以前快3倍
∙不到两分钟就可使系统性能翻倍,而且无中断
∙运行数据仓库的速度快3倍
VNX系列专门设计为利用闪存驱动器技术的最新创新成果,最大程度提高存储系统的性能和效率,同时将每GB成本降至最低。
即使只有数个闪存驱动器与EMCFAST套件结合使用,客户也可以体验到FLASH1st策略带来的最佳优势。
VNX的主要特性包括:
∙无折扣的可用性:
即使在出现故障的情况下也可以保证相同的性能和服务级别。
∙免费的高级功能:
通过数据压缩、文件系统数据消重、虚拟资源分配的技术,以实现对存储更有效的使用。
∙丰富的软件:
VNX软件包提供所有必要的功能来管理和保护客户的信息,包括数据复制功能、通过快照和克隆实现按时间点数据恢复功能,以及定义保护策略等。
∙自动分层:
EMC独特的FLASH1st策略可以将“热”数据自动放到高性能磁盘和缓存中,已最小的管理代价提高应用的性能。
∙集中管理:
EMCUnisphere管理软件通过简单易用、集成化的管理方式,减少对用户的配置、管理和监控工作量。
∙灵活的模块化设计:
用户可以初始配置文件或块存储的功能,需要的时候升级为同一存储。
∙虚拟化集成.EMCXXX与VMwareXXXvSphere™有超过60个集成点,这使VNX™最大限度地提高了性能和易用性。
EMC是唯一一家支持所有vStorageAPI系列产品的供应商。
∙高效的架构:
多核IntelXeon处理器和6Gb/secSAS提供了更好的性能和高级软件的基础。
EMC阵列在医疗行业拥有强大的稳定性和性能。
比如玉林人民医院(CX4-480,HIS/PACS/LIS)和柳州人民医院VNX5500均未遇到性能问题。
且VNX5100的16G内存和后端24Gb的带宽,最大可以支持150TB容量,完全可以满足医院的性能和以后的空间需求。
故我们认为,VNX5100作为生产阵列完全可以满足客户的性能需求。
2.2生产存储VNX5100的空间分配
目前配置600G*8SAS2.015krpm硬盘和2TB*4块NL-SAS7.2krpm硬盘,可用空间达12TB。
主要有2个应用:
HIS、PACS。
对于HIS系统分别分配2TB,
使用虚拟资源调配功能分配空间给2TB给PACS(每个月800G)分配,最高可扩展至10个TB。
预计HIS日志空间,每天变化100M,按照数据往前回滚30天的要求计算所需的空间为:
100MB*30/0.75=4000MB.
空间上可以满足客户的需求。
2.3生产存储VNX5100的性能监控和解决建议
实施完recoverpoint后,EMC将会在1-2个月内收集VNX5100的性能数据,通过EMC专业的工具进行分析,检查系统中是否存在阵列的瓶颈。
若存在性能问题,可以通过2种方式提升性能:
1,添加闪存盘和FASTsuite包,提升存储的二级cache;
2,通过FASTsuite自动的将热点数据迁移到闪存盘,提升整个阵列的性能。
2.4容灾存储的可用性说明
容灾存储的数据通过Recoverpoint从生产存储迁移到VNX5100上。
结合容灾存储上配置的服务器,在需要的时刻将VNX5100二号机上的HIS数据库打开,模拟生产环境。
在模拟的环境中可以用作:
1,解决数据库的逻辑故障,快速的将二号存储上的数据恢复到一号存储上,从而保证数据库能够打开;
2,减少数据的丢失,在生产系统遭遇病毒、人为误删除后,二号存储可以快速任意IO回滚,找到丢失的数据,从而减少医疗纠纷。
3,降低新业务上线前的风险,模拟的环境进行BUG测试;
4,降低数据库的升级风险,数据库升级前的模拟环境,在遇到故障后可以进行任意的回退;
5,制作月报、年度报表,历史数据查询,减轻生产阵列的压力。
6,通过不断的演练recoverpoint,可以让客户熟练掌握EMC的容灾技术,在关键时候能够快速的实现数据的恢复、减少应用停机的时间。
第3章实施步骤、效果说明和测试方案
3.1整个EMCRecoverpoint实施步骤和时间预估
编号
实施内容
实施所需的时间
备注
1
安装VNX5100阵列和recoverpoint容灾装置和软件、SAN-Switch交换机,部署两边机房网络。
3天
2
两个机房安装HIS、PACS服务器,接入到SAN网络,用于连接VNX5100
1天
集成商安装服务器
3
通过recoverpoint将NX4上的HIS、PACS数据全部同步到VNX5100上。
1天
4
两台VNX5100进行recoverpoint同步,使两者信息一致。
数分钟
5
容灾演练
1天
3.2效果说明
1,实现存储间的数据互联互通、相互流动的功能。
2,实现主备存储间数据实时同步,主备存储的数据一致、高可用的功能。
3,实现当主存储发生逻辑错误后,可以通过备用存储对主存储的数据追回、不丢失数据的功能。
4,实现存储上的数据任意时间点回滚功能,有效地避免主数据库的逻辑错误或突然断电导致数据库无法正常运行的故障。
并将数据丢失率降低至最小。
5,实现备用存储的在线使用功能,当备用存储的数据修改后,能够直接恢复到主存储。
该功能可以在备用存储上打开数据库,实现报表、测试、升级、培训等操作,分流用户的业务,降低生产系统的负载。
6,完成备用存储的报表、测试、升级、培训功能后,可以通过主存储将其变化的数据继续同步到备用存储,恢复存储间的数据实时同步,保持数据一致、高可用状态。
3.3测试目的
为了检验是否可以达到客户的要求,在首次完成recoverpoint后,需要按照以下的要求进行测试:
1,实现河池XX医院HIS等应用系统容灾,实现存储设备数据同城或者异地容灾功能
3,对出现故障以后(服务器,存储,应用软件)进行数据恢复演练,测试数据及应用恢复时间。
3.4测试环境说明
测试环境组网架构图如下:
为实现上述的测试目标,需要在河池XX医院测试环境中搭建一套RecoverPoint系统,主要组成部件有:
●VNX5100系列存储两台.
●光纤线及光纤交换机2台
●服务器,安装WIN2008系统和数据库
●EMCRecoverpointRPA两台
●控制电脑两台
3.5服务器系统
3.5.1常见系统故障
本测试根据实际工作环境下系统可能发生的故障或事故,EMC总结了应用运行时常见故障,并提供数据安全解决之道。
⏹常见多发故障:
✧服务器故障
✧SAN网络故障
✧生产存储硬盘损坏
✧生产存储控制器损坏
✧数据库逻辑错误导致数据库无法启动
✧工作人员误操作导致数据丢失
✧黑客攻击人为恶意篡改数据
3.5.2常见系统维护
本测试根据实际工作环境下系统可能发生的业务和工作情况,EMC总结了常见维护事项,并提供例行维护解决之道。
✧生产服务器补丁升级
✧数据库补丁升级
✧业务系统统计报表
✧应用软件开发测试
✧工作人员培训
✧系统容量不足增加硬盘
✧设备性能不足设备替换
3.6测试项目设置
根据上述故障和例行维护特点,同时结合EMC以往客户在安装、实施、运维时的经验设计了以下测试场景:
维护项目
解决方法
测试项
异构存储整合
EMCRecoverPoint
现场不演示
生产服务器/小型机故障
异地容灾
现场演示容灾切换
SAN网络故障
双链路负载均衡
本次不测试
生产存储硬盘损坏
Raid保护
存储基本功能,本次不测试
生产存储控制器损坏
主备控制器倒换
存储基本功能,本次不测试
数据库逻辑错误导致数据库无法启动
异地容灾
现场演示容灾切换
工作人员误操作导致数据丢失
任意时间点回滚
现场演示任意时间点回滚
黑客攻击人为恶意篡改数据
任意时间点回滚
现场演示任意时间点回滚
生产服务器/小型机补丁升级
容灾存储使用
现场演示容灾存储使用
数据库补丁升级
容灾存储使用
现场演示容灾存储使用
业务系统统计报表
容灾存储使用
现场演示容灾存储使用
工作人员培训
容灾存储使用
现场演示容灾存储使用
设备性能不足设备替换
数据迁移
现场演示数据迁移
3.7具体测试内容
⏹数据一致性测试:
-添加CDP保护卷:
模拟生产系统在正常运行时,将指定的应用数据纳入RecoverPoint系统保护的过程,以此验证RecoverPoint系统实施的方便和灵活程度。
-删除CDP保护卷:
模拟生产系统在正常运行时,将指定的应用数据脱离RecoverPoint系统保护的过程,以此验证RecoverPoint系统更改的方便和灵活程度。
-CDP数据复制:
模拟生产系统在正常运行时,受保护的生产数据向CDP备份卷复制的过程。
-CDP粒度设置:
模拟生产系统在正常运行时,在RecoverPoint系统中设置恢复时间点,调整恢复点的粒度,从系统优化的推荐值到最小1秒钟或者是精确到每个I/O
-CDP一致性组:
模拟生产系统在正常运行时,将指定的应用程序及数据库数据加入到一致性组,以此验证RecoverPoint系统在多个数据源之间的一致性。
⏹容灾故障切换测试:
-故障切换:
模拟生产系统在正常运行时,主存储阵列故障导致应用数据不可用时,RecoverPoint系统如何在备份端启动应用并保证数据一致可用。
-故障回切:
模拟生产系统切换到备份端运行时,主存储阵列恢复正常后,备份端对应用数据所做的修改可以被保存,并且在应用切换回主存储阵列时上述修改不会丢失,验证整个切换过程的方便和灵活程度。
⏹容灾数据回滚测试:
-CDP回滚:
模拟生产系统在正常运行时,由于操作失误造成数据丢失,使用RecoverPoint系统恢复到最近一个正常的时间点,在最短时间内恢复应用同时使得数据丢失量最小。
-CDP模拟回滚与物理回滚流程:
-模拟生产系统在正常运行时,由于操作失误造成数据丢失,使用RecoverPoint系统模拟回滚到最近一个时间点,经检查后此时间点数据仍是丢失状态,继续回滚到上一个时间点,检查数据是否仍然丢失,直至找到最近一个正常的时间点,验证模拟回滚和物理回滚之间操作的便利性。
⏹容灾存储使用
在主生产存储在使用时,在容备存储打开数据库,进行报表,开发,培训,校验等,同时不影响容灾业务。
3.7.1数据一致性测试
测试内容
基本功能测试
厂商人员
测试时间
2011年月日
局方人员
测试目的
1、完成对生产数据的复制,生成本地备份数据
2、生成基于时间点的复制信息
3、检查RecoverPointCDP时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- EMC 存储 解决方案 要点