软件的定义存储SDS.docx
- 文档编号:26903893
- 上传时间:2023-06-23
- 格式:DOCX
- 页数:33
- 大小:2.70MB
软件的定义存储SDS.docx
《软件的定义存储SDS.docx》由会员分享,可在线阅读,更多相关《软件的定义存储SDS.docx(33页珍藏版)》请在冰豆网上搜索。
软件的定义存储SDS
软件定义存储SDS
摘要:
软件定义存储,SoftwareDefinedStorage。
出现背景:
应对数据暴增,本钱降低到普通机架式服务器硬盘的价位,兼容各种硬件的开放性,可在线横向扩展;哪些新的技术显著地改变了存储架构:
SSD,SDS,CPU多核技术,高速网络,大容量服务器和磁盘,多副本存储方式。
最近两、三年,在IT圈里,除了云计算、大数据、人工智能之外,最火的就属“软件定义〞了,先是有软件定义网络(SDN,SoftwareDefinedNetworking),继而有软件定义数据中心(SDDC,SoftwareDefinedDataCenter)和软件定义存储(SDS,SoftwareDefinedStorage)。
自XX百家或微信公众号- 乐生活与爱IT。
1.为何出现软件定义存储?
1.1为何出现软件定义存储?
人类各项发明、创新,大多都是为了更加的高效、方便、灵活,并且节省本钱。
例如,从种植业、畜牧业的出现,到蒸汽机的发明,到自来水、集中供电的出现,再到互联网的出现〔信息传递更快更高效,更省本钱〕,无一不是如此。
IT也不例外,以企业级存储为例,近10年来逐渐出现的自动分级、去重、压缩也是为了更高效地使用存储资源,更节省本钱。
而最近两三年,软件定义存储的出现,依然是为了这个需求。
伴随着需求,还有两大背景:
一是,随着个性化、物联网、万联网的开展,数据以前所未有的速度迅猛增长,数据的存放、管理、优化、利用成为难题,用户面临着如下挑战:
存储利用率低,数据僵化在某些硬件组件里,难以提供随需动态变化的服务等级,缺乏准确的控制,部署和调整存储资源需要经过复杂的流程〔例如需要应用管理员与存储管理员等进展协调〕,自动化程度低,对请求的响应慢,……。
二是,虚拟化、云计算和硬件技术的开展,使得软件定义成为可能;在此之前,存储用户也希望更加高效、简单、灵活,且本钱较低,但十年前,SSD和高速网络尚未出现或开展不够,分布式存储难以堪当重任;彼时虚拟化云计算还未出现或者尚未成熟,从存储中调用控制信息给前端应用或OS使用,去实现灵活敏捷的存储资源的部署,在那时还不是那么迫切。
随着虚拟化和云计算的普与,用户的思维方式也发生了转变,逐渐意识到,快速、敏捷、灵活地获取计算资源已经成为可能,并且逐渐要求能按需使用,按需付费。
因此,做为虚拟化和云计算里重要的组成局部,存储也应适应新的需求而不断完善。
下面围绕这这两大背景展开阐述:
我们先来看一下,在物联网、万联网〔IoT,InternetofThings〕的伴随下,未来数字宇宙的惊人变化。
我们知道:
KB=210xByte;
MB=210xKB;
GB=210xMB;
TB=210xGB;
PB=210xTB;
EB=210xPB;
ZB=210xEB;
IDC在2012年预计,到2020年数字宇宙规模将超出其在2011年的预期,达到40ZB,
40ZB到底有多大呢?
假设地球人口按照73亿计算,40ZB相当于地球上人均5600GB以上的数据。
2014年4月,IDC发现数据的增长超过其在2012年的预期,预计2020年将达44ZB的数据量,比2012年的预估增加了10%。
有趣的是,在整个全球的数字宇宙中,2017年新兴市场(EmergingMarkets)的数据所占全球数据的百分比,将首次超过成熟市场(MatureMarkets,也即指兴旺国家和地区)。
预计,2014~2020的6年里,IT从业人员仅仅增长到1.285倍。
平均每个IT人员管理的数据量从230GB增加到1231GB,5倍多!
过去十多年甚至二十多年里,数据的增长速度在很多时候超越了摩尔定律〔半导体芯片上集成的晶体管将每一两年翻一番〕。
从硬盘厂商希捷的一份报告可以发现:
在企业级SSD普与以前,存放数据的盘,无论性能还是容量,与CPU、内存比拟,都开展得异常缓慢。
以1987-2004年为例,17年间,CPU和内存的性能提升了200万倍!
而磁盘仅仅提升了11倍!
1.2最后总结一下,为何出现软件定义存储?
简而言之,随着用户需求的变化〔因为数据激增〕,技术的变革,软件定义存储能够提供给用户更快的性能,更高的灵活性和开放性,更强的扩展性,更简单的管理〔后面的篇章会提到〕,更少的投入。
以ServerSAN为例:
从投入本钱看:
由于省却了外置磁盘阵列的存储控制器,存储光纤交换机,服务器HBA光纤卡,仅硬件的投入,即可降低到普通机架式服务器硬盘的价位。
它将传统存储的专用硬件,转变成通用硬件,通过融合计算,存储达到降低本钱的目的;
从开放性看:
只要通过兼容性验证,它支持业界标准的硬件,如服务器、SSD、磁盘、IO控制器,并且能在最快时间采纳新的硬件,灵活性极高;
从扩展性看:
分布式的存储,都能支持在线的横向扩展,能自动地在一个资源池里线性地、同时地增加计算资源和存储资源,使用户获得可的性能和容量;
2.是软件定义存储?
2.1是软件定义存储
在IT根底架构领域的软件定义,最早出现的是:
软件定义网络(SDN)。
SDN起源于2006年斯坦福大学的CleanSlate研究课题。
2009年,Mckeown教授正式提出了SDN概念。
通过将网络设备的控制平面与数据平面别离开来,并实现可编程化控制,实现了网络流量的灵活控制,为核心网络与应用的创新提供了良好的平台。
2012年,VMware在其VMworld大会上首次提出软件定义数据中心(SDDC)的概念。
作为VMware软件定义数据中心五大组成局部(计算、存储、网络、管理和安全)之一,软件定义存储(SDS)的概念也首次被提出。
EMC公司在当年的EMCWorld发布大会上也发布了SDS战略,引发了业界对SDS的大讨论,SDS迅速成为存储业界的研究热点。
不过,时至今日,SDS的定义并没有统一的标准,各家权威咨询机构,各大厂商等,都对这一概念有着不同的解释或描述。
下面我们列出主要的机构和厂商对SDS的描述,看看有何共性和差异。
IDC通过对SDS市场的深入了解和研究,对SDS定义如下:
SDS将数据中心或者跨数据中心的各种存储资源抽象化、池化,以服务的形式提供给应用,满足应用按需(如容量、性能、QoS、SLA等)自动化使用存储的需求。
Gartner副总裁NeilMacDonald在其位于Gartner的博客上撰写道:
SDS必备的四个根本特征是:
Abstraction(抽象化)、Instrumentation、Automation(自动化)和Orchestration(编排)。
另外,2013年10月Gartner发布2014年十大战略技术中,重要的组成局部就有:
软件定义一切。
Gartner认为:
软件定义一切囊括了在根底设施可编程性标准提升下不断增长的市场势头、由云计算内在自动化驱动的数据中心互通性、DevOps和快速的根底设施提供等。
软件定义一切还包括各种举措,如OpenStack、OpenFlow、OpenputeProject和OpenRack,共享一样的愿景。
开放性将成为供给商的目标,SDN(网络)、SDDC(数据中心)、SDS(存储)和SDI(根底架构)技术的供给商都力图成为所在领域的领导,但在遵守开放性和标准方面却可能各有各的打算。
VMware做为SDS概念的创造者,对SDS定义如下:
软件定义的存储产品是一个将硬件抽象化的解决方案,它使你可以轻松地将所有资源池化并通过一个友好的用户界面(UI)或API来提供给消费者。
一个软件定义的存储的解决方案使得你可以在不增加任何工作量的情况下进展纵向扩展(Scale-Up)或横向扩展(Scale-Out)。
软件定义存储是VMware软件定义数据中心的五大组成局部之一。
VMware认为,软件定义的数据中心,是IT演变的下一个阶段,是迄今为止最有效、恢复能力最强和最经济高效的云计算根底架构方法。
SDDC方法论将对存储、网络连接、安全和可用性应用池化、抽象化和自动化,整个数据中心由软件自动控制。
根底架构提供的服务将聚合起来,并与基于策略的智能调配、自动化和监控功能结合在一起使用。
应用编程接口和其他连接器支持无缝延展到私有云、混合云和公有云平台。
实际上,最权威的SDS的定义莫过于SNIA对SDS的定义了,作为一家非盈利的行业组织,SNIA拥有420多家来自世界各地的公司成员以与7,100多位个人成员,遍与整个存储行业。
SNIA曾先后定义了DAS,SAN,NAS,对象存储与云存储等标准。
SNIA认为,SDS需要满足的是:
提供自助的服务接口,用于分配和管理虚拟存储空间。
SDS应该包括如下功能:
⏹自动化
⏹标准接口
⏹虚拟数据路径
⏹扩展性
⏹透明性
(为了让大家更好的理解SNIA对SDS的看法,以下引用天玑数据–“小编爱翻译〞曾经翻译的版本-《SNIA软件定义存储白皮书2015汉化先行版》,其中的局部内容,来比照一下传统存储与软件定义存储的区别)
传统存储部署往往离不开存储管理员亲自创建各种虚拟存储设备(块存储逻辑单元,文件系统共享,对象容器)供给用使用。
在后台,存储管理员还得为虚拟设备部署数据服务。
通常情况下,单独数据服务需配备属于它的单独管理接口。
一旦数据部署发生变更,存储在虚拟设备上的所有数据均会受到影响。
数据请求通信经常发生其它存储接口带外传输。
如下图是传统人工传达数据的请求方式:
如上图所示,该存储并不太“软件定义〞,反而“存储管理员定义〞更贴切。
这种存储部署方式存在一个最大的问题,扩容困难。
由于刚性架构限制系统资源只能静态分配,这就意味着后续新部署的资源无法归入原先存储体系。
该传统存储部署方式会导致较高的存储TCO(总体拥有本钱)。
为实现存储根底架构的自动化机制,降低人工管理运维本钱,数据请求需直接传达至自动化软件,且数据请求的粒度至少需在当前常见的个体虚拟化存储设备级别。
随着后续自动化机制的进一步开展,每个数据对象需独立传达自我请求,不再依赖虚拟存储设备。
数据对象经由分组和抽象后,可向“用户〞直接传达其选择,“用户〞不必再是存储专家了。
为将请求传达至存储系统,应用或用户需将请求信息标记至每个文件或对象,而元数据,或称作关于数据的“数据〞,正好符合这一需求。
采用记录请求信息的元数据来标记数据对象,存储系统可轻易定位获取请求信息。
如下列图:
如下图是利用元数据传达数据的请求方式
存储请求信息有时仍存在数据路径带外传输,但自动化机制终将消除这一现象。
有了软件定义存储,存储管理员可转向定制策略这类更高阶的工作,不再将时间精力囿于即时突发问题的处理上,而降格自身的服务级别。
如下这X综合信息图涵盖了软件定义存储的全部要点:
虽然每家对SDS的定义都不尽一样,各有侧重点。
但可以看出来,易于扩展(主要指在线横向扩展)、自动化、基于策略或者应用的驱动都几乎都成为大家定义中的必备特征。
而这也是软件定义数据中心的重要特征,只有具备自动化的能力,才能实现敏捷交付,简单管理,节省部署和运维本钱。
自动化也成为各家SDS方案,是否愿意走向更高阶段的试金石。
3.软件定义存储之现状
各家(包括知名的咨询机构和知名的IT厂商)对SDS定义的共性的描述:
“虽然每家对SDS的定义都不尽一样,各有侧重点。
但可以看出来,易于扩展(主要指在线横向扩展)、自动化、基于策略或者应用的驱动都几乎都成为大家定义中的必备特征。
而这也是软件定义数据中心的重要特征,只有具备自动化的能力,才能实现敏捷交付,简单管理,节省部署和运维本钱。
自动化也成为各家SDS方案,是否愿意走向更高阶段的试金石〞。
不过自动化是现阶段绝大多数SDS厂商或方案的较长远开展目标,也许需要3~8年。
在此之前,还需先逐步完成抽象、池化的过程。
实际上,绝大多数存储厂商还停留在抽象、池化这两个阶段。
本篇主要在抽象、池化这两个阶段展开详细的交流。
最早提出抽象、池化和自动化的是VMware公司,这个过程论也是VMware首倡的软件定义数据中心(SDDC)概念中的重要组成局部。
那么如何理解抽象、池化、自动化呢?
如如下图所示,抽象其实就是软硬件解耦的过程。
早先的存储,如2000年以前,大多数集中存储(以外置磁盘阵列为主流),逻辑卷一旦创建,就不能更改(更改RAID、增加大小),除非允许数据全部丢失,删除这个逻辑卷再创建一个新的逻辑卷。
那时候的逻辑卷与存储的前端端口、后端端口、物理磁盘,都严密地绑定在一起,耦合度非常高。
在这种情况下,即使是为多个业务应用提供存储资源的集中存储,也在内部形成了一个个的孤岛,孤岛的存储资源不能相互共享,数据不能自由流动。
在这种环境下,存储首要解决的问题就是解耦,将逻辑卷与硬件解耦,打破孤岛之间的疆界,让存储资源能够共享,数据能在各个存储的硬件组件间自由流动。
例如,假设某用户单位的网管在最初给FC SAN光纤存储划分ZONE时,是按照物理N的方式。
这样,每当FCSAN存储控制器的前端卡因故障需要替换时,就还得进入SAN光纤交换机管理界面内,重新调整FCSAN的Zone分区,这个运维操作往往需要业务停机。
如果存储支持虚拟N的方式,就简单多了,只需要进入存储管理界面,SAN光纤交换机不受影响。
再如,以往逻辑卷在创建之初,先必须挑选几块盘来创建RAIDGroup,在此根底上,在新建逻辑卷。
这意味着逻辑卷被绑定在几块盘里,一旦业务增长规模扩大,所需容量和性能不够时,旧存储不得不停机去做数据迁移。
如果存储支持精简配置(ThinProvisioning),在线扩容就比拟容易了。
这个软硬件逐渐解耦的过程,其实就是将同类硬件的不同细节的局部,隐藏起来,并与上层隔离开来。
这样,上层就不必因为下层硬件的不同而修改。
因此,增加了可移植性和灵活性。
不过需要注意的是,软硬件解耦也是一个循环往复的过程。
有时,硬件的某些内容解耦了,继而软件完成了内容的抽象池化和自动化;过段时间之后,客户的需求又可能推动再去解耦硬件的其他局部,这样,又需要再去完成其他局部的抽象池化和自动化。
因为,不同时代的用户会对所需抽象的内容有不同的关注和需求,而且硬件本身也在不停地开展。
当硬件的开展日新月异,其速度和容量能够远远地超前于当下软件对其资源的要求时,硬件就有更多的机会在不同的层面、不同的角度,不断地解耦,让更多的部件被抽象,被软件定义,直到最后,剩下该硬件的最核心最本质的局部。
解耦硬件的哪一局部(换句话说,用软件去定义哪一局部),必须结合用户主流的需求,以与当时的客观条件(主要是硬件的能力)。
以上一篇文章《是软件定义存储》的比喻-空调为例,当智能家居的周边条件远未具备时,例如手机应用、WIFI尚未普与之时,空调遥控器开放几个简单的如温度、风速、风向的接口,就足够了。
如果有公司过早的投入人力物力去做智能空调,研究移动设备或PC机如何通过互联网来远程控制空调的接口,很有可能只有极少的用户(例如财大气粗的比尔盖茨)才有这个需求。
这样,这个公司就变成先烈,而不是先进了:
)
花絮:
提到“先烈〞,想起了IT的两位著名“先烈〞
1)1995年,拉里森提出网络计算机(NC,Networkputer)的概念:
配置简单却能充分利用网络资源的低价电脑,不需要不断更新的硬件设备和越来越复杂,庞大的操作系统,没有软盘和硬盘,只要打开电源用浏览器连上网络,就可以获得信息和存储文件;
2)1999年,比尔盖茨宣布微软耗资数十亿美元,向中国消费者推出“维纳斯计划〞。
这个宏大的计划试图通过嵌入微软操作系统的“神奇盒子〞,将中国人使用的3.2亿台电视机变成电脑。
其实,拉里森和盖茨提出的东西,就是现在的云计算和互联网电视。
尽管成为先烈,但不妨碍我们对其如此超前的预见、想法、举措充满敬意。
十多年后的云计算和互联网引领者Salesforce,Amazon,AppleTV,乐视,小米也许正是由于〞先烈〞的启发,因时制宜,接过他们的接力棒,为人类的开展做出贡献。
在抽象的根底之上,才能进一步做资源的池化。
因为池化就意味着资源不受硬件的限制,能被自由地分配、使用和调度。
池化包括存储虚拟化和存储标准化,而存储虚拟化指所有存储资源的虚拟化,包括
1)外置磁盘阵列内的虚拟化
2)跨外置磁盘阵列的虚拟化(也即异构存储的管理)
3)分布式存储服务器内的存储虚拟化,这局部在以后的篇章里再介绍
存储虚拟化最早可以溯源到IBM AIXLVM(逻辑卷管理器),和HP EVA的vDisk技术。
其实HP的EVA技术,准确说是源于paq,甚至是DEC的VA,详情可在网上搜索林肯大叔的《存储器那点事》。
大约在距今10年左右,新兴厂商pellent和EqualLogic、3PAR和LeftHand、XIV、Pillar的块级虚拟化,打破了以往RAIDGroup的限制,支持精简配置(ThinProvisioning)的功能,无需预先分配并实际霸占物理空间,实现写多少分配多少的策略,并支持在线扩容。
有趣的是,后来上述新兴厂商分别被DELL、HP、IBM、Oracle收入囊中。
外置磁盘阵列内的存储虚拟化,大多都不受以往存储RAIDGroup的限制,能将一样速度(有的存储解耦做得还不够,严格要求磁盘类型也必须一样)盘的空间形成一个存储池,统一分配和管理空间。
再辅助以自动分级技术,便可以实现数据块在SSD盘、磁盘之间的数据流动,例如DELLpellent的DataProgression(数据调度,也即自动分级)技术。
跨外置磁盘阵列的存储虚拟化,指的是能够跨越异构的磁盘阵列,在更大的X围,如数据中心内,形成一个大的存储资源池,统一管理和分配来自不同存储厂商的存储资源。
实际上,当我们讨论异构存储之间的管理的时候,其实也同时在讨论存储标准化,只有当大家开放的接口遵循共同的标准(也即规X)的时候,也就是用一样的“语言〞对话时,才有可能被调用、被管理。
随着用户的数据不断增加,为了不被单一厂商锁定,规模较大的用户的存储网络往往包含了来自多个存储厂商的外置磁盘阵列,每个阵列都需要自己的管理软件,阵列之间缺乏互联互通,管理复杂度增加。
为了解决这一个问题,2002年,SNIA(全球网络存储工业协会)提出了存储管理建议规XSMI-S(StorageManagementInitiativeSpecification),希望在存储网络中的存储设备和管理软件之间提供标准化的通信方式,从而使存储管理实现厂商无关性(vendor-neutral),使得存储管理系统能够实现鉴别、分类、监控和控制物理与逻辑资源的能力,提高管理效率、降低管理本钱,促进存储的发展。
SMI-S是一种中间件性质的规X,定义了存储管理软件和受管对象之间的交互机制。
它提供了多种特性以简化SAN的管理。
首先,在SMI-S标准中定义了统一的数据模型,使用基于Web的企业管理(Web-BasedEnterpriseManagement,WBEM)技术和公共信息模型规X(monInformationModel,CIM),SMI-S的代理可以与交换机、磁盘阵列等各种支持CIM的设备进展交互,获取其管理相关的数据并返回给请求方。
使用SMI-S可以免除设计管理数据传输机制的麻烦,对各种设备和组件直接进展带内或带外的管理,甚至两者并用。
SMI-S还提供了基于HTTP的CMI-XML传输机制,以增强适用性。
SNIA对于SMI-S标准寄予了很高的期望,跨越的版图非常宏伟。
从如下图(摘自《StorageManagementfromSMI-StoManagementFrameworks》),可以看出来,它希望做到,存储管理软件能够识别磁盘阵列、光纤交换机、IP交换机、磁带库、FCHBA卡、iSCSI HBA卡等各种各样与存储相关的设备,并通过存储管理服务,自动发现、部署和配置存储资源。
SMI-S标准发布以后,得到了大多数主要存储供给商的支持,目前已经超过500多个产品支持SMI-S标准。
4.软件定义存储的分类
4.1概述
“池化包括存储虚拟化和存储标准化,而存储虚拟化指所有存储资源的虚拟化,包括
1)外置磁盘阵列内的虚拟化
2)跨外置磁盘阵列的虚拟化(也即异构存储的管理)
3)分布式存储服务器内的存储虚拟化
现在我们就来聊聊分布式存储服务器内的存储虚拟化。
并以此为根底,介绍软件定义存储涉与到的概念和分类,帮助读者厘清概念之间的异同和关系。
如如下图所示,
这种分布式存储的虚拟化是指,将多台标准X86服务器组成的集群内的HDD/SSD等存储资源,形成一个全局共享存储池。
部署在OperatingSystem/Hypervisor的软件,能按照一定的策略,采用类似互联网巨头Google、AWS、Facebook的分布式计算和数据冗余的方式,提供与集中存储(外置磁盘阵列)类似的存储服务和高级功能。
其实这就是一种ServerSAN。
我们先来回顾一下ServerSAN(基于服务器的分布式存储)这个词汇的来源,最早应该是来自Wikibon,它对ServerSAN的定义是:
“ServerSANissoftware-ledstoragebuiltonmodityserverswithdirectlyattachedstorage(DAS)〞。
如如下图,注意图中标识表现了ServerSAN是SDS、Hyperscale与Flash的交集,不过图形并不代表百分比。
可以认为,Wikibon所认为的ServerSAN是包含闪存盘的,具备横向扩展特征的SDS。
需要注意的是,Wikibon所述的ServerSAN还包括如下互联网公司大规模使用的分布式存储:
Google,Amazon,Facebook,Microsoft等。
Wikibon把这种互联网公司使用的ServerSAN称为HyperscaleServerSAN。
它们共同的特点是,高度分布式(去中心化、无共享)、采用标准的商用硬件(如X86服务器)、能够在线进展横向扩展;区别是EnterpriseServerSAN用于企业私有云或数据中心,HyperscaleServerSAN用于大型互联网公司。
后面文章中提到的ServerSAN,如果不特别说明,主要指EnterpriseServerSAN。
不过,从ServerSAN的字面意思,以与存储当前的开展,Wikibon的定义值得商榷,因为没有必要把采用Flash做为判断是否为ServerSAN的前提条件。
在软件定义存储领域内,超融合(Hyper-Converged)这个词汇也有很多人提与,它又表示意思?
它与ServerSAN之间是关系?
说来话长,我们先来看看是融合(或者称之为聚合)?
最近几年,业内出现了一种开展趋势:
融合计算、存储、网络,甚至应用程序的集成系统(IntegratedSystem)的市场份额不断增加。
出现的原因是:
有些用户希望简单、高效,而这种在出厂前就预先集成(Pre-Integrated)好的产品,满足了他们的需求,这种产品有一个通俗的叫法,就是一体机。
实际上,在我们生活中,就有类似融合的绝佳X例:
智能手机,它集成了语音、相机、音乐播放器、GPS、网页浏览器、视频播放器、游戏等功能为一体,携带和使用都很方便,除了极少数某种应用的发烧友,大多数人都乐于购置这种简单高效的一体机。
4.2分类
IDC根据定义把集成系统市场分为了两类:
集成根底设施或集成根底架构(IntegratedInfrastructure)和集成平台(IntegratedPlatforms)。
其中,集成根底设施是通用型的融合系统;而集成平台是指专为特定工作负载或应用程序而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 软件 定义 存储 SDS