分布式文件系统研究Word格式文档下载.docx
- 文档编号:15728144
- 上传时间:2022-11-15
- 格式:DOCX
- 页数:41
- 大小:571.19KB
分布式文件系统研究Word格式文档下载.docx
《分布式文件系统研究Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《分布式文件系统研究Word格式文档下载.docx(41页珍藏版)》请在冰豆网上搜索。
多处理器单用户的本地文件系统,如OS/2的文件系统;
多处理器多用户的本地文件系统,如Unix的本地文件系统;
多处理器多用户的分布式文件系统,如Lustre文件系统。
本地文件系统(LocalFileSystem)是指文件系统管理的物理存储资源直接连接在本地节点上,处理器通过系统总线可以直接访问。
分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。
由于互联网应用的不断发展,本地文件系统由于单个节点本身的局限性,已经很难满足海量数据存取的需要了,因而不得不借助分布式文件系统,把系统负载转移到多个节点上。
传统的分布式文件系统(如NFS)中,所有数据和元数据存放在一起,通过单一的存储服务器提供。
这种模式一般称之为带内模式(In-bandMode)。
随着客户端数目的增加,服务器就成了整个系统的瓶颈。
因为系统所有的数据传输和元数据处理都要通过服务器,不仅单个服务器的处理能力有限,存储能力受到磁盘容量的限制,吞吐能力也受到磁盘I/O和网络I/O的限制。
在当今对数据吞吐量要求越来越大的互联网应用中,传统的分布式文件系统已经很难满足应用的需要。
于是,一种新的分布式文件系统的结构出现了,那就是利用存储区域网络(SAN)技术,将应用服务器直接和存储设备相连接,大大提高数据的传输能力,减少数据传输的延时。
在这样的结构里,所有的应用服务器都可以直接访问存储在SAN中的数据,而只有关于文件信息的元数据才经过元数据服务器处理提供,减少了数据传输的中间环节,提高了传输效率,减轻了元数据服务器的负载。
每个元数据服务器可以向更多的应用服务器提供文件系统元数据服务。
这种模式一般称之为带外模式(Out-of-bandMode)。
最近的StorageTank、CXFS、Lustre、BWFS等都采用这样的结构,因此它们可以取得更好的性能和扩展性。
区分带内模式和带外模式的主要依据是,关于文件系统元数据操作的控制信息是否和文件数据一起都通过服务器转发传送。
前者需要服务器转发,后者是直接访问。
分布式文件系统的历史
随着计算机应用范围的扩展,通过文件访问接口在不同主机之间共享文件的需求日益增强。
下面分为几个阶段介绍分布式文件系统的发展过程。
最初的分布式文件系统应用发生在20世纪70年代,之后逐渐扩展到各个领域。
从早期的NFS到现在的StorageTank,分布式文件系统在体系结构、系统规模、性能、可扩展性、可用性等方面经历了巨大的变化。
第一代分布式文件系统(1980年代)
早期的分布式文件系统一般以提供标准接口的远程文件访问为目的,更多地关注访问的性能和数据的可靠性,以NFS和AFS(AndrewFileSystem)最具代表性,它们对以后的文件系统设计也具有十分重要的影响。
NFS从1985年出现至今,已经经历了四个版本的更新,被移植到了几乎所有主流的操作系统中,成为分布式文件系统事实上的标准。
NFS利用Unix系统中的虚拟文件系统(VirtualFileSystem,VFS)机制,将客户机对文件系统的请求,通过规范的文件访问协议和远程过程调用,转发到服务器端进行处理;
服务器端在VFS之上,通过本地文件系统完成文件的处理,实现了全局的分布式文件系统。
Sun公司公开了NFS的实施规范,互联网工程任务组(TheInternetEngineeringTaskForce,IETF)将其列为征求意见稿(RFC-RequestforComments),这很大程度上促使NFS的很多设计实现方法成为标准,也促进了NFS的流行。
NFS不断发展,在第四版中提供了基于租赁(Lease)的同步锁和基于会话(Session)语义的一致性等。
CarnegieMellon大学在1983年设计开发的AFS将分布式文件系统的可扩展性放在了设计和实现的首要位置,并且着重考虑了在不安全的网络中实现安全访问的需求。
因此,它在位置透明、用户迁移、与已有系统的兼容性等方面进行了特别设计。
AFS具有很好的扩展性,能够很容易地支持数百个节点,甚至数千个节点的分布式环境。
同时,在大规模的分布式文件系统中,AFS利用本地存储作为分布式文件的缓存,在远程文件无法访问时,依然可以部分工作,提高了系统可用性。
后来的CodaFileSystem、Inter-mezzoFileSystem都受到AFS的影响,更加注重文件系统的高可用性(HighAvailability)和安全性,特别是Coda,在支持移动计算方面做了很多的研究工作。
早期的分布式文件系统一般以提供标准接口的远程文件访问为目的,在受网络环境、本地磁盘、处理器速度等方面限制的情况下,更多地关注访问的性能和数据的可靠性。
AFS在系统结构方面进行了有意义的探索。
它们所采用的协议和相关技术,为后来的分布式文件系统设计提供了很多借鉴。
第二代分布式文件系统(1990~1995)
20世纪90年代初,面对广域网和大容量存储应用的需求,借鉴当时先进的高性能对称多处理器的设计思想,加利福尼亚大学设计开发的xFS,克服了以前的分布式文件系统一般都运行在局域网(LAN)上的弱点,很好地解决了在广域网上进行缓存,以减少网络流量的难题。
它所采用的多层次结构很好地利用了文件系统的局部访问的特性,无效写回(Invalidation-basedWriteBack)缓存一致性协议,减少了网络负载。
对本地主机和本地存储空间的有效利用,使它具有较好的性能。
TigerShark并行文件系统是针对大规模实时多媒体应用设计的。
它采用了多种技术策略保证多媒体传输的实时性和稳定性:
采用资源预留和优化的调度手段,保证数据实时访问性能;
通过加大文件系统数据块的大小,最大限度地发挥磁盘的传输效率;
通过将大文件分片存储在多个存储设备中,取得尽量大的并行吞吐率;
通过复制文件系统元数据和文件数据,克服单点故障,提高系统可用性。
基于虚拟共享磁盘Petal的Frangipani分布式文件系统,采用了一种新颖的系统结构—分层次的存储系统。
Petal提供一个可以全局统一访问的磁盘空间。
Frangipani基于Petal的特性提供文件系统的服务。
这种分层结构使两者的设计实现都得到了简化。
在Frangipani中,每个客户端也是文件系统服务器,参与文件系统的管理,可以平等地访问Petal提供的虚拟磁盘系统,并通过分布式锁实现同步访问控制。
分层结构使系统具有很好的扩展性,可以在线动态地添加存储设备,增加新用户、备份等,同时系统具有很好的机制来处理节点失效、网络失效等故障,提高了系统的可用性。
SliceFileSystem(SFS)考虑标准的NFS在容量、性能方面存在的限制,采用在客户机和服务器之间架设一个μproxy中间转发器,以提高性能和可扩展性。
它将客户端的访问分为小文件、元数据服务、大文件数据三类请求。
通过μproxy将前两种请求转发到不同的文件服务器上,将后者直接发送到存储服务器上。
这样SFS系统就可以支持多个存储服务器,提高整个系统的容量和性能。
μproxy根据请求内容的转发是静态的,对于整个系统中负载的变化难以做出及时反应。
第三代分布式文件系统(1995~2000)
网络技术的发展和普及应用极大地推动了网络存储技术的发展,基于光纤通道的SAN、NAS得到了广泛应用。
这也推动了分布式文件系统的研究。
在这个阶段,计算机技术和网络技术有了突飞猛进的发展,单位存储的成本大幅降低。
而数据总线带宽、磁盘速度的增长无法满足应用对数据带宽的需求,存储子系统成为计算机系统发展的瓶颈。
这个阶段,出现了多种体系结构,充分利用了网络技术。
出现了多种分布式文件系统体系结构,如GlobalFileSystem(GFS)、GeneralParallelFileSystem(GPFS)、惠普的DiFFS、SGI公司的CXFS、EMC的HighRoad、Sun的qFS、XNFS等。
数据容量、性能和共享的需求使得这一时期的分布式文件系统管理的系统规模更大、系统更复杂,对物理设备的直接访问、磁盘布局和检索效率的优化、元数据的集中管理等都反映了对性能和容量的追求。
规模的扩展使得系统的动态性,如在线增减设备、缓存的一致性、系统可靠性的需求逐渐增强,更多的先进技术应用到系统实现中,如分布式锁、缓存管理技术、SoftUpdates技术、文件级的负载平衡等。
第四代分布式文件系统(2000年以后)
随着SAN和NAS两种结构逐渐成熟,研究人员开始考虑如何将两种结构结合起来。
网格的研究成果等也推动了分布式文件系统体系结构的发展。
随着SAN和NAS两种体系结构逐渐成熟,研究人员开始考虑如何将两种体系结构结合起来,以充分利用两者的优势。
另一方面,基于多种分布式文件系统的研究成果,人们对体系结构的认识不断深入,网格的研究成果等也推动了分布式文件系统体系结构的发展。
这一时期,IBM的StorageTank、Cluster的Lustre、Panasas的PanFS、蓝鲸文件系统(BWFS)等是这种体系结构的代表。
各种应用对存储系统提出了更多的需求:
∙大容量:
现在的数据量比以前任何时期更多,生成的速度更快;
∙高性能:
数据访问需要更高的带宽;
∙高可用性:
不仅要保证数据的高可用性,还要保证服务的高可用性;
∙可扩展性:
应用在不断变化,系统规模也在不断变化,这就要求系统提供很好的扩展性,并在容量、性能、管理等方面都能适应应用的变化;
∙可管理性:
随着数据量的飞速增长,存储的规模越来越庞大,存储系统本身也越来越复杂,这给系统的管理、运行带来了很高的维护成本;
∙按需服务:
能够按照应用需求的不同提供不同的服务,如不同的应用、不同的客户端环境、不同的性能等。
处于这个阶段的系统都在研究中,但从中也可以看出一些发展趋势:
体系结构的研究逐渐成熟,表现在不同文件系统的体系结构趋于一致;
系统设计的策略基本一致,如采用专用服务器方式等;
每个系统在设计的细节上各自采用了很多特有的先进技术,也都取得了很好的性能和扩展性。
另外,在协议方面的探索也是研究的热点之一,如DirectAccessFileSystem利用了远程内存直接访问的特性,借鉴了NFS第四版本和CommonInternetFileSystem等协议,设计了一套新的网络文件访问协议。
NFS文件系统
研究分布式文件系统,不得不提NFS文件系统,NFS已经成为分布式文件系统事实上的标准。
历史:
Sun公司公开了NFS的实施规范,互联网工程任务组(TheInternetEnginee
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式 文件系统 研究