Lustre文件系统优质PPT.ppt
- 文档编号:14297545
- 上传时间:2022-10-21
- 格式:PPT
- 页数:63
- 大小:693.50KB
Lustre文件系统优质PPT.ppt
《Lustre文件系统优质PPT.ppt》由会员分享,可在线阅读,更多相关《Lustre文件系统优质PPT.ppt(63页珍藏版)》请在冰豆网上搜索。
StorageTank,Lustre,Panasas,作为开源的面向下一代存储的基于对象的分布式文件系统的开创者,目前已经在集群存储尤其是大规模高性能并行计算领域取得了巨大的成功。
由ClusterFileSystems公司开发的一个开源的、高性能的文件系统源于卡耐基梅隆大学的Coda项目研究工作Lustre消除了传统网络文件系统(AFS、NFS)在可扩展性、可用性和性能上的问题,背景Lustre文件系统,背景-Lustre文件系统,针对大文件读写进行优化,提供高性能的I/O;
元数据独立存储;
服务和网络失效的快速恢复;
基于意图的分布式锁管理基于对象存储,使存储更具智能化,可以实现基于对象一级的数据保护技术;
系统可快速配置,体系结构-Lustre文件系统I/O结构,体系结构-Lustre文件系统I/O结构,文件系统组成:
客户端(CFS,ClientFileSystem)对象存储服务器(OST,ObjectStorageTarget)元数据服务器(MDS,MetaDataServer)一个高度模块化的系统三个子系统可以分别运行在不同的计算机节点上,也可以多个子系统运行在同一个节点上,体系结构-总体模块结构图,体系结构Lustre子系统交互图,体系结构Lustre子系统交互图,Client同OST进行文件数据的交互,包括文件数据的读写、对象属性的改变等.同MDS进行元数据的交互,包括目录管理、命名空间管理等.OST负责对象数据的存储,将I/O数据保存到由它管理的后端基于对象存储设备(OBD,ObjectBasedDevice)中.MDS负责向客户端提供整个文件系统的元数据,管理整个文件系统的全局命名空间,维护整个文件系统的目录结构、用户权限,并负责维护文件系统的元数据一致性,LustreClient,Meta-dataServer,MDS,OST1,OST2,OST3,OSC3,Filemeta-data,InodeA(obj1,obj2),Fileopenrequest,Write(obj1),Write(obj2),OSC1,Fileopen&
write,MDC,LinuxVFSLustreclientFSLOV,Oddblocks,evenblocks,AchieveparallelBandwidthtoallOSTs,Lustre文件系统数据分布布局,由于Lustre采用了数据和元数据分离的基于对象存储的体系结构,下面将从这两个方面分别讨论Lustre数据的分布布局:
文件数据文件元数据,文件数据布局策略(本地文件系统),数据,.块号,数据,数据,.块号、长度,块分配分配器尝试分配顺序块如Ext2一级索引二级索引三级索引,范围(extent)分配基于连续快分配,描述:
逻辑偏移/长度/物理偏移三元组B+树如:
VxFS,JFS,reiserfs,xFS,多数据块,文件数据布局策略(Lustre文件系统),基于对象分配,文件数据布局策略Lustre,每个常规文件,目录,符号连接和特殊文件都有一个唯一的inode,作为文件元数据对象文件数据按照一定的条带模式分布存储在几个OST的存储对象中文件的分带大小,存储对象数目,分带模式对应的OST索引等定位信息都作为数据分布布局属性对象保存在元数据对象的inode的扩展属性中,NetworkStripping,借鉴RAID,将文件数据以某种RAID模式分布存储在多个OST的存储对象中能够同时容忍磁盘和节点失效。
NetworkStrippingdatalayout,JOINFile,原理与MD/RAID的线性模式有点类似。
每个连接文件的元数据扩展属性中包含有多个数据分布布局属性对象(LayoutObject,LAO)所有的数据分布布局属性对象一般都采用相同的条带模式,并附带有它所管理的文件范围域信息,每个数据分布布局属性对象负责定位文件一部分连续的数据区域.,JOINFile(cont),LAO1,EA,LAO2,LAO3,.,OST1,OST2,OST3,object,LAOi,LayoutObject,JOINFile(cont),文件可以根据大小变化动态的增加或减少数据分布属性对象突破了文件大小的限制,理论上它可以占有整个系统所有OST对象存储设备的空间。
连接文件优点就是数据迁移的代价相对较低,迁移策略灵活大的存储对象可分裂成多个小的存储对象文件数据范围连续的较小存储对象可进行合并灵活的文件数据分布策略:
对于小文件采用RAID1镜像模式存储;
对于大文件采用RAID0/5模式存储;
或者文件开始部分用RAID1方式,随着文件增大,后续部分采用RAID0/5模式存储。
Lustre元数据服务器集群(ClusterMetadata,CMD),元数据服务器功能及特点:
存储和管理文件元数据;
控制对文件元数据的访问以及创建、删除、修改等操作当客户端从元数据服务器获得文件元数据及其属性信息后,就可以直接和对象数据存储节点交互访问文件数据;
控制流与数据流分离的传输方法,可以有效的分布IO负载,减轻对存储服务器CPU和内存等计算资源的消耗,大大提高了系统的I/O性能,Lustre元数据服务器集群(ClusterMetadata,CMD),单一元数据服务器局限:
整个系统的集中控制点,如果发生故障,将会导致整个系统不可用;
随着客户端和对象存储节点的增加,单个元数据服务器很可能成为整个系统的性能瓶颈,导致系统响应时间变长,降低系统的吞吐率。
CMD元数据分配方法,多元数据服务器构建方法主要有两类:
目录子树分区法;
纯哈希法;
CMD-元数据分配方法(目录分区法),将命名空间划分为不同的目录子树每一个目录子树对应的元数据由同一个元数据服务器进行管理一个元数据服务器也可以管理多个目录子树每个目录子树就是一个可安装的小文件系统,CMD-元数据分配方法-目录分区法优点,静态的、由系统管理员决定怎样分割命名空间不需要与其他节点通讯就能处理元数据请求,具有很强的独立性保留了文件系统的层次结构,可以利用客户端的预取技术和缓存机制,提高元数据服务的处理效率,CMD-元数据分配方法-目录分区法缺点,增加元数据服务器并不能有效的重新均衡元数据服务器间的工作负载不能有效的处理“热点“目录问题目录分区法中根目录所在的元数据服务器失效,会导致整个文件系统不可用。
CMD-元数据分配方法(哈希法),基本思想:
当客户端创建一个文件时,以文件的标志符(或者路径名)为键值(Key),通过哈希函数选择负责创建文件的元数据服务器采用这种方法分配元数据的分布式文件系统有Intermezzo,Vesta,zFS等,CMD-元数据分配方法-哈希法优点,通过哈希函数可以快速的定位到管理该文件的MDS文件系统的负载可以更均匀的分布到各个MDS上能够有效的避免热点目录的出现,CMD-元数据分配方法-哈希法缺点,消除了命名空间层次结构的local特性为了满足POSIX语义,MDS必须遍历该文件的前缀目录检查当前用户是否具有访问权限。
而文件和其前缀可能位于不同的元数据服务器上,这将导致很高的查询开销。
MDS间的前缀缓存开销很大,不同元MDS的前缀缓存的重叠度也非常高,降低了元数据服务其内存的利用效率,CMD-lustre元数据分配方法,Lustre结合了目前目录子树分区法和哈希法的优点,提出了一种管理元数据的混合方法创建新目录时总是通过哈希法选择一个与父目录可能不同的元数据服务器当一个目录变得很大或者非常繁忙时,Lustre通过目录分割策略将该目录拆分成由若干个不同的元数据服务器管理的子目录,CMD(目录分割),CMD的恢复,通过硬件/软件等措施实现了高可用的元数据服务对象存储上的元数据可用通过本地格式化的日志文件系统进行恢复自恢复机制重放处理任何来自客户端未完成请求相关的恢复以及锁服务的恢复类似数据库的基于日志的回滚技术,实现了涉及到多个元数据服务器服务的不一致性恢复,文件系统一致性语义,当多个用户对同一个文件进行读写操作时,各个用户看到的文件是一样的.按照UNIX的POSIX共享语义标准,在本地文件系统中,如果一个进程修改了某个文件的属性或内容,应该很快能够被其他进程察觉到。
文件系统一致性语义分布式锁管理器(LDLM),在分布式文件系统中要想按照严格的POSIX语义,就意味着要进行即时更新来维持共享资源的一致性视图,增加了大量的传输和一致性管理的开销,不仅实现困难而且会大大降低系统性能.分布式锁管理器技术为实现对共享存储资源的协同访问避免单个节点的访问以及冲突给出了一套行之有效的解决方法锁服务器也被分布到多个存储节点上,不会成为性能瓶颈.,LDLM锁的类型,基本模型在Lustre文件系统中被称为普通锁(plainlock)普通锁模型进行了扩展引入了两种新类型锁:
意图锁(intentlock)范围锁(extentlock)。
LDLM-锁模式(cont),LDLM-锁模式(cont),锁模式的兼容性,LDLM-锁模式(cont),授权锁队列转换锁队列等待锁队列,LDLM-queues(cont),Lock1CR,GrantedQueue,Resource,ConvertingQueue,WaitingQueue,GrantedQueue,Resource,ConvertingQueue,WaitingQueue,GrantedQueue,Resource,ConvertingQueue,WaitingQueue,Lock2CR,Lock1CR,Lock2CW,Lock3PW,Lock1CR,Lock3CW,Lock2CR-EX,LDLMintentlock,LDLM(cont),意图锁主要用于文件元数据的访问,它通过执行锁的意图减少元数据访问所需的消息传递的次数从而减少每次操作的延迟.范围锁主要用来保护细粒度的文件数据并发访问,实现了文件数据的writebackcache,为所有用户提供一致性的文件系统视图.其实现过程与GPFS文件系统采用的范围锁类似.正在研究一种元数据写回锁(WritebackLock)来实现了元数据的目录级客户端写回缓冲策略。
ConsistencyExtentlock,Lustre结合锁机制采用回写缓冲(writebackcache)算法来实现分布式文件缓存机制,以解决缓存一致性问题,过程为:
当客户端要某个文件某部分进行读写时,先从锁服务器获得相应的锁,然后就可以对缓存数据执行读写操作。
执行完I/O的操作后一般并不立即释放锁,ConsistencyExtentlock,根据数据访问的局部性原理,最近被访问的数据在不久的将来可能会被再次访问,所以一般采用一种lazy的思想,定义一个回调函数接口,当OST服务器产生更新或其他的用户要获得的锁与该锁有冲突时,通过回调函数通知客
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Lustre 文件系统