OceanstorN集群NAS存储系统产品技术白皮书V.docx
- 文档编号:29682609
- 上传时间:2023-07-26
- 格式:DOCX
- 页数:20
- 大小:31.50KB
OceanstorN集群NAS存储系统产品技术白皮书V.docx
《OceanstorN集群NAS存储系统产品技术白皮书V.docx》由会员分享,可在线阅读,更多相关《OceanstorN集群NAS存储系统产品技术白皮书V.docx(20页珍藏版)》请在冰豆网上搜索。
OceanstorN集群NAS存储系统产品技术白皮书V
OceanStorN8500集群NAS
存储系统产品技术白皮书
Issue
Date
2020-08-18
华为技术有限公司
版权所有华为技术有限公司2012。
保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
商标声明
和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意
您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。
除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。
除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
华为技术有限公司为客户提供全方位的技术支持,用户可与就近的华为办事处联系,也可直接与公司总部联系。
华为技术有限公司
地址:
深圳市龙岗区坂田华为总部办公楼邮编:
518129
网址:
客户服务电话:
018
客户服务传真:
1
客户服务邮箱:
图目录
1概述
传统NAS系统存在扩展性差、可靠性差等缺陷。
为了克服传统NAS系统的缺陷,集群NAS技术应运而生。
集群NAS系统具有高扩展、高性能、高可用等特点。
本文档介绍华为N8500集群NAS存储系统软件和技术的相关细节。
2N8500集群NAS存储系统架构
2.1产品逻辑结构
N8500集群NAS存储系统(以下简称N8500或N8500系统)由集群NAS引擎(由集群NAS引擎硬件+集群NAS软件FileStore组成)、交换设备、存储单元以及管理子系统组成,其中集群NAS软件包含定制化的操作系统,不需要额外选择操作系统平台。
图1产品逻辑结构图
2.2集群NAS软件
集群NAS软件FileStore作为整个N8500集群NAS存储系统的核心部件,其作用除了管理存储并提供NAS服务外,还包括对集群系统自身的管理以及相关的故障处理。
N8500的集群NAS软件基于商用的CFS开发,通过在专用64位存储系统上安装CFS软件,并配置NFS和samba等服务以对外提供NAS访问接口。
N8500集群NAS软件的核心部件CFS提供了大量的增值功能,如快照、动态分级存储等功能。
FileStore软件及应用架构示意图如下图所示。
FileStore软件由核心层的CFS、CVM软件和用户层的各类NAS服务应用组成。
FileStore软件部署于集群NAS引擎节点(Node)上,集群NAS引擎节点可通过集群方式扩展,提供全Active的集群架构。
所有节点可访问同一个共享存储空间,对外可通过以太网向上层应用提供NAS业务。
图2FileStore软件及应用架构示意图
2.3集群NAS引擎
NAS引擎是集群软件运行的硬件平台,通过与FileStore软件的配合,将后端存储提供的卷以NAS方式提供给客户使用,需要较好的I/O处理能力、网络带宽和可靠性。
2.4交换设备配置
在N8500集群NAS软件中,集群节点间的通讯通过专用的心跳网络来实现,同时,连接多套存储单元时需要光纤交换设备。
心跳网络对交换机的带宽要求低,光纤交换设备要求支持8Gb接口。
当选择的节点数超过2个时,需要额外配置2台以太网交换机,作为集群NAS的心跳链路使用。
2.5存储单元配置
支持S2600T、S5500T、S5600T、S5800T、S6800T存储系统。
上述所有类型的存储单元,均可以向下细分为两个组件,即控制框和硬盘框,其中控制框包含了控制器及控制软件,硬盘框用于磁盘容量扩展。
在N8500集群NAS存储系统中,将控制框称之为存储单元控制框,将硬盘框称之为存储单元硬盘框。
存储单元控制框前可增加型号的描述区分各种型号,如S5x00T存储单元控制框。
2.6管理子系统
N8500集群NAS存储系统提供GUI和CLI两种管理方式。
GUI支持NAS引擎和存储单元统一管理,CLI仅支持NAS引擎和存储单元独立管理。
另外有些高级功能及部分系统配置功能仅适用CLI支持,面向高级管理维护人员。
3组网以及环境要求
3.1集群NAS存储系统
图3N8500集群NAS存储系统关系图
3.2NAS/SAN一体化典型组网
图4SAN、NAS一体化典型组网
组网说明:
N8500系统的NAS、SAN一体化体现为从后端单元直接提供FC或iSCSI接口,提供FC-SAN和IP-SAN的组网方式供用户业务使用,使用S2600T、S5500T、S5600T、S5800T或S6800T时,由于后端单元可提供较多的接口,在提供N8500集群节点使用之余,其余接口可作为SAN接口使用。
在N8500系统中,仅使用了存储单元的部分端口,此外,在引擎节点数量比较少或使用交换形态的情况下,可以根据需要配置10GbpsiSCSI扣卡,从而为用户提供万兆IPSAN;若用户有SAN的需求,则可以在阵列上将未使用的磁盘空间(以LUN为单位)通过空闲的FC端口或iSCSI/10GbpsiSCSI端口提供给用户使用,达到NAS/SAN一体化的效果,在这种组网下,用户的具体网络环境可能为无域的环境、AD域环境、NIS域环境或LDAP域环境等。
3.3数据备份组网
N8500集群NAS存储系统支持两种备份方式,一是通过集成的NetBackup客户端进行备份;二是通过NDMP协议进行备份。
两种备份方式的组网如图示:
图5使用NBU客户端备份方式组网
组网说明:
使用NBU客户端进行备份时,需要环境中包含NBU服务器(包括MasterServer和MediaServer),如果使用DNS,则要求DNS服务器能对NBU服务器进行正确解析,网络连接好后在N8500系统上配置NBU服务器相关的信息,然后在NBUMasterServer上进行备份策略等配置后,备份即可按照设置的策略正常进行,数据流从N8500引擎经MediaServer后备份到后端介质,无需再进行干预。
图6使用NDMP备份组网
组网说明:
使用NDMP协议进行备份时,当前版本支持通过LAN进行备份的方式,即备份数据通过IP网络进行传输,备份采用的协议为标准的NDMP协议。
在采用基于IP网络的NDMP备份时,同样需要有备份服务器(如NBU),由备份服务器连接备份介质(磁带库设备),根据备份软件的不同,可能需要相应的选件支持,如使用NBU时需要备份服务器上安装有远程NDMP选件,在进行备份时,NDMP控制信息由备份服务器下发到N8500系统,N8500系统根据控制命令进行备份,将备份数据通过IP网络传送到备份服务器的相关模块(如NBU的MediaServer)再由该模块写入备份介质。
3.4系统运行环境
N8500集群NAS存储系统通过SAN共享技术将存储阵列提供的卷虚拟成可同时供多个集群节点使用的逻辑卷,在此基础上,通过NFS共享、CIFS共享、FTP等方式为用户提供文件服务。
对最终用户来说,N8500集群NAS存储系统就是一个文件服务器,用户通过该文件服务器存取文件。
用户所在的环境可能是比较复杂的,如AD域、NIS域、LDAP等环境,需要N8500系统也能支持这些环境,因此,在N8500中也提供了这些域环境的支持,用户只需要进行相应的配置即可将N8500在现有的域环境中运行起来供应用主机访问。
4软件特性
4.1集群文件系统
4.1.1技术背景
N8500系统的集群架构,采用全互联的组网机制,对称式集群设计,实现集群节点的全局命名空间,从而允许集群任何节点并发访问任何文件系统的任何文件;并且支持文件内的细粒度的全局锁,提供从多个节点并发访问相同文件的不同区域,实现高并发读写,最终达到高性能访问系统。
4.1.2技术原理
数据通道全互联技术原理
N8500系统分为引擎单元和存储单元,存储单元处理数据块的存储,引擎单元提供集群文件系统的逻辑功能。
引擎单元和存储单元通过直连全互联,或者交换网络实现全互联,从任何一个引擎节点都能够访问到任何一个存储单元,从而保证数据通道的畅通无阻,并且提供冗余路径实现高可靠性,如下图所示。
图7数据通道全互联技术
对于N8500系统的典型配置,两个引擎节点连接到存储单元,每个节点都有路径连接到阵列的双控端口中,从而实现全互联,并且提高冗余链路;对于N8500系统的典型配置,引擎节点通过冗余的交换机连接到存储单元,每个存储单元也分别连接到冗余交换机,从而形成全冗余的组网。
通信通道全互联技术原理
N8500系统的引擎节点之间需要相互通信,提供集群节点的统一视图,保证元数据/数据处理的一致性。
节点之间采用双通道连图,冗余互联,保证通信通道的高效可靠。
图8通信通道全互联技术
N8500系统的2引擎节点典型配置下,每个节点提供2条链路到另外一个节点,从而即使一条链路故障时,也能保证通信链路的可靠性。
N8500系统的多引擎节点,则是连接到2个交换机上面,从而提供冗余通信平面,保证可靠性。
全局存储空间管理技术原理
N8500系统在数据通道和通信通道实现全互联的基础上,采用集群卷管理技术,提供了全局的存储空间管理。
也就是说,在集群中的任何节点能够以相同的卷设备名字访问同一存储空间,保证块设备访问的一致性,如图9。
图9全局存储空间管理技术
高效的集群锁技术原理
N8500系统需要在节点之间传递元数据/数据,而为了保证数据的一致性,提供了GLM(Globallockmanager)集群锁技术,如图10所示。
图10高效的集群锁技术
N8500系统的GLM集群技术是构建在LLT(LowLatencyTransport)/GAB(GroupMembershipandAtomicBroadcast)底层通信基础上,该通信层直接构建在以太网二层协议上,而不是TCP/IP层上。
考虑到集群通信主要传送的锁信息,通常帧都比较小,而TCP/IP包会带来额外的大帧头开销;同时集群通信主要在私有网络内传递,对TCP/IP在广域网的超时重传、滑动窗口没有太多需求。
所以,LLT针对集群锁通信需求,直接利用以太网帧传送包,从而达到提高利用率的目的,并且设计自己的流量控制、超时重传、以及重复帧处理,实现高效传输。
同时,针对集群多引擎节点通信的原子要求,设计了GAB模块,它保证通信的原子性;也就是说,保证在集群多引擎节点中,消息要么被所有引擎节点受到并确认,要么所有引擎节点都丢弃该消息,从而不会出现部分确认消息、部分丢弃消息的中间状态。
对称式元数据处理技术原理
N8500系统中,元数据分为了不同的类型,比如:
超级块、日志区、分配单元(AU,AllocationUnit)、INODE。
这些元数据具有不同的属性,分别对不同的数据管理负责,比如,超级块对整个集群文件系统的数据负责,而INODE则是针对单独的那个文件负责。
图11对称式元数据处理技术
在元数据分类的基础上,N8500系统的每个引擎节点就可以担当不同元数据处理的责任主体。
如图-11所示,第一个引擎节点负责超级块的更新修改,其他节点需要对元数据的处理,都把请求发送给他;第二个引擎节点负责文件F1的INODE元数据更新修改,其它节点需要操作F1文件,都需要把请求发送给该引擎节点。
同时,在任何引擎节点故障后,都可以把该节点负责的元数据处理转移到其他任何引擎节点上,从而实现对称式的元数据处理,实现元数据处理的负载均衡,提高元数据处理的效率。
全局名字空间技术原理
N8500系统采用对称式的设计架构,每个节点都可以参与处理元数据,从而很容易形成全局名字空间,让系统的每个处理节点都能够读写相同的文件系统,实现节点之间的并发访问,如图12所示。
图12全局名字空间技术
根据元数据的分类、分片,让每个节点都能参与元数据的处理,减少节点之间转发元数据/数据请求的通信量,实现负载均衡。
集群多节点并发访问技术原理
N8500系统提供了全局的命名空间,从而实现了多个节点可以并发访问同一个文件系统。
除此之外,N8500系统还提供全局锁机制,保证不同节点访问相同文件系统相同文件并发访问的一致性,通过细粒度的锁设计,保证系统的并发性,如图13所示。
图13集群多节点并发访问技术
当不同节点访问文件F1的不同区域时,通过该文件的所有者(Owner)进行仲裁,如果没有其他节点访问对应区域,则允许该节点读写数据;如果发现有其他节点访问该区域,则出现冲突,该所有者就会让新请求等待,直到读写该区域的请求完成,然后通知等待该区域的节点竞争锁。
通过此机制,实现了集群多节点范围内的一致锁所处理;同时,通过细粒度的区域锁设计,保证高并发。
4.1.3技术特点
N8500集群存储系统采用全Active、全共享设计。
文件系统为所有引擎节点共享而不是与特定节点绑定,所有引擎节点可以并发访问同一文件系统,不存在负荷热点问题。
N8500所有引擎节点互为备份,某一节点故障时,故障节点原来承担的应用可以切到其它在线节点。
N8500所有节点提供业务,互为备用,具有更高的系统可靠性和资源利用率。
4.2快照技术
4.2.1技术背景
N8500集群NAS存储系统中的文件系统快照,支持生成源文件系统在某个时间点上的一致性映像,在不中断正常业务的前提下,快速得到一份与源文件系统一致的数据副本。
副本生成之后立即可用,并且对副本的读写操作不再影响源文件系统中的数据。
因此通过文件系统快照技术就可以解决如在线备份、数据分析、应用测试等难题。
用户可以通过多种方法使用存储检查点。
例如,它们可用于:
■创建可以备份到磁带的文件系统的稳定映像。
■提供源文件系统的磁盘备份,在意外删除情况下,最终用户可以恢复自己的文件。
■在安装修补程序之前,创建应用程序的二进制副本,以允许出现问题时进行还原。
■创建文件系统的磁盘备份,可用作传统的基于磁带备份的补充,从而提供更快的备份和恢复功能。
4.2.2技术原理
N8500的文件系统快照采用了写前拷贝(copy-on-write)技术方式来实现,其实现原理如下:
1、在文件系统未进行任何快照前,数据写入动作与未创建快照的文件系统一样:
对数据的任何修改操作,会直接写入文件系统中对原有数据进行覆盖,原有数据不会被保留。
2、为文件系统创建快照时,首先会冻结该文件系统,创建一个没有任何实际数据的快照文件集,快照文件集仅包含指向主文件系统的一组指针。
由于不需要拷贝数据,因此整个过程耗时极少,从一秒以内到数秒不等,与文件系统中的文件数量有关。
N8500中的快照文件集与主文件系统共同使用文件系统空间,无需单独为快照分配特定的空间。
图14主文件系统及其快照文件集
3、刚创建的快照不包含任何实际数据,只包含指向主文件系统的一组指针,当用户访问快照时,实际上访问的是主文件系统中的数据。
当主文件系统的数据发生变化后,首先旧数据被拷贝到快照文件集中,然后新数据才会写到主文件系统中(即copy-onwrite)。
图15新生成快照
图16主文件系统数据更新
4、随着主文件系统不断被更新,原有的数据块会逐渐的拷贝到快照文件集中,但如果需要更新的块已经被快照文件集保存过一次,这时就不会发生拷贝操作,只更新主文件系统即可,因为快照文件集所映像的只是生成快照时刻的主文件系统映像。
5、当用户需要恢复出快照点时刻的数据时,可通过快照数据的回滚快速实现,通过回滚,文件系统可将数据恢复到快照点时刻,从而避免了快照点后因为人为的错误或者病毒的入侵等引起的源文件系统损坏造成的数据丢失。
需要说明的是,快照的回滚是不可逆的,回滚只能将数据恢复到某一特定的时间点,但该时间点到故障点之间的数据将会丢失。
如果仅仅是特定的几个文件被损坏、误修改、误删除,则无需进行整个文件系统的回滚,直接从特定时间的快照文件集中将这些文件恢复到主文件系统中即可。
6、当快照被删除后,指向主文件系统的指针和写入时拷贝数据都将被清空,快照创建时间点的数据变为不可用。
7、从上面的过程可以看到,当快照创建后,无论后续的数据怎样的读写和改变,只要快照不被删除,我们均能够及时的获取到快照创建时间点的数据。
4.2.3技术特点
可写快照
N8500中的文件系统快照可以为用户提供读写业务,用户可通过创建快照方便的重定义数据用途,实现诸如测试、备份、归档等各类操作。
对快照的修改操作,需要说明的是,如果对某一快照执行了写操作,那么该快照将不再是快照创建时间点的一致性映像,不能使用该快照进行文件系统回滚。
图17对快照进行数据更新
快速数据恢复
对于传统的离线备份,备份数据无法直接在线读取,必须经过较长时间的数据恢复过程才能够获得原数据在备份时间点的可用副本,从而实现数据的还原。
N8500的文件系统快照可以直接从快照中恢复出快照时间点的数据,从而实现了方便的数据回滚。
循环定时快照,实现持续数据保护
N8500对同一文件系统支持多个时间点的快照,用户可以定制策略定时自动进行快照的创建操作。
当多个时间点的快照采用循环的方式沿时间轴向前推进自动操作时,就非常方便且低成本的实现了持续数据保护。
快照对性能的影响
在文件系统中使用快照并非对系统性能没有影响。
在文件系统中创建快照后,读操作的性能不会受到影响,但却增加了写操作的复杂度。
当原文件系统数据更新较大时,写操作增加,系统性能有一定的降低。
4.3动态分级存储技术
4.3.1技术背景
N8500动态分级存储特性的主要价值是降低平均联机存储硬件成本,而又不会相应地增加管理的复杂性。
重要的文件放置在高可用性、高性能(相应地,成本也非常高)的存储设备上;不太重要的文件放置在成本较低的、性能和可用性规格较低的设备上。
N8500动态分级存储特性可自动将文件重定位到正确类型的存储设备上,而不更改它们在文件系统命名空间中的逻辑位置。
由于物理重定位的文件保留在相同的逻辑位置上,因此使用动态分级存储特性可以不需要对应用程序配置和操作步骤进行更改。
对于应用程序和用户而言,动态分级存储中的文件重定位是透明的。
N8500动态分级存储包括两部分:
支持多卷文件系统,以及在由文件系统管理的存储内基于策略自动迁移文件。
4.3.2技术原理
多卷文件系统的属性
N8500可以构建多个文件系统,并让这些文件系统的逻辑命名空间分布在多个存储卷上。
构建文件系统所使用的各个卷被称作该文件系统的卷集。
卷集中的各个卷是从单个存储单元中的LUN配置的。
事实上,占用多个卷的文件系统对于应用程序是透明的。
该文件系统中的所有文件都是同一命名空间的一部分,在访问和处理这些文件时就如同它们全部占用单个卷一样。
基于文件系统的卷存储层相对于基于硬件的多层存储方法有一个重要的优点。
与基于硬件的解决方案(它的各个层都基于由磁盘阵列提供的LUN)不同的是,N8500卷可以是任何需要的容量和配置,如果有I/O性能或容错需要,甚至可以跨接多个N8500存储单元。
N8500动态分级存储特性所使用的文件系统必定是多卷文件系统。
使用放置级别以管理文件位置
多卷文件系统的管理员可以通过定义文件放置策略(可控制初始文件位置和重定位现有文件的环境)来控制卷集内的文件位置。
文件放置策略由一些规则组成,这些规则将文件的位置限制为由管理员定义的、文件系统卷集中各个卷的子集。
这些子集被称为放置级别。
通常,用存储层来标识放置级别。
根据策略规则,将在指定的放置级别中创建和扩展一些文件,并当这些文件满足某些与命名、活动、访问率以及大小相关的限定条件时,将它们重定位到其他放置级别。
例如,下图中表示一个N8500多卷文件系统,该系统的卷集由两个分别名为tier1、tier2的放置级别组成。
这样的卷集可用于包含重要文件(tier1),以及大量非活动的文件(tier2)的文件系统。
图18N8500多卷文件系统示意图
文件放置策略
根据文件系统的活动文件放置策略,可将文件动态放置在文件系统卷集的各个卷之间。
文件放置策略由用来管理文件的初始位置和随后的重定位的各个规则组成。
这些规则定义了三方面的内容,一是文件写入文件系统时的初始位置,用户可以自定义文件写入时放置于哪一个卷集中;二是文件如何从存放热点数据的卷集重定位到存放非活动文件的卷集,N8500系统中,该规则设定为指定时间长度内,未进行访问的文件则需进行重定位;三是文件如何从非活动文件的卷集重定位至存放热点数据的卷集,N8500系统中,该规则设定为若文件平均访问热度超过指定值,则将这些文件进行重定位。
策略规则将初始分配目标和重定位目标指定为按优先顺序排列的放置级别的列表。
如果空闲空间允许,则在列表中的第一个放置级别中分配文件;如果在第一个放置级别中没有可用的空闲空间,则在列表中的第二个放置级别中分配文件,依此类推。
执行文件放置策略
执行文件放置策略时将实施文件重定位,可按需手动进行重定位操作,也可通过一个时间表策略定期进行,此操作与初始分配类似。
如果有可用的空间,则将文件重定位到规则中列出的第一个放置级别中,如果第一个放置级别中没有可用的空间,则将文件重定位到第二个放置级别中。
文件重定位基于一些必要的限制条件,例如:
在一段指定的文件是否未被访问、文件的访问热度。
若文件放置策略未能执行,那么,即使某些文件已经满足重定位的条件,重定位操作也不会实施。
只有当文件放置策略执行时,文件系统才会对这些限制条件的满足情况进行判断,并且对符合条件的文件实施重定位。
计算文件的访问热度
动态分级存储特性的重要应用是将非活动文件从高性能存储区自动重定位到低成本存储区,或是将热点文件从低成本存储区自动重定位到高性能存储区。
N8500系统通过平均访问热度来判定文件是否为热点文件。
文件的平均访问热度是在指定数量的时间段内文件的读取或写入请求数除以时间段数。
与I/O热度不同,访问热度与文件大小无关;一个在2天的时间段内有20次I/O请求的大文件与一个在2天的时间段内被访问过20次的小文件具有相同的平均访问热度。
数据的自动迁移
N8500的DST策略制定中,可基于文件访问频率策略,自动将文件从一级存储迁移至二级存储,或将文件自动从二级存储回迁至一级存储,对业务主机透明。
卷的可访问性:
分级存储的重要假定
动态分级存储特性背后存在一个通常未表述出来的重要假定,即:
系统正常工作时并不要求所有存储设备总是可访问的。
企业通过将数据存储在容错功能较低的设备上,默认表示这些数据对企业运营的重要性不及存储在容错能力较高的设备上的数据。
极端情况下,如果企业将数据存储在没有容错能力的设备上,则默认表示即使没有这些数据企业也能够正常运营,至少在安装替换存储设备并从备份副本中恢复这些数据所需的时间段内是这样的。
如果常规数据中心内的某个存储设备不可用,则无法装入该存储设备上的文件系统,而且使用该文件系统的应用程序也无法运行。
不过,对于多卷文件系统,要使文件系统正常工作,只需要最关键的数据必须是可访问的;包含非关键数据的存储设备不必是可访问的。
与任何商业文件系统类似,VxFS多卷文件系统必须可以访问其所有元数据才能正常工作。
但是VxFS文件系统不需访问任何特殊用户文件的数据就可以装入和运行。
例如,如果由于包含某些文件的数据的卷出现故障,导致这些数据不可访问,则需要这些文件的应用程序无法运行,但是文件系统可以像往常一样工作。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OceanstorN 集群 NAS 存储系统 产品 技术 白皮书