Google关于大数据处理的论文简述Word格式文档下载.docx
- 文档编号:15061463
- 上传时间:2022-10-27
- 格式:DOCX
- 页数:8
- 大小:24.88KB
Google关于大数据处理的论文简述Word格式文档下载.docx
《Google关于大数据处理的论文简述Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《Google关于大数据处理的论文简述Word格式文档下载.docx(8页珍藏版)》请在冰豆网上搜索。
二、Google经典三篇大数据论文介绍
Google在2003年到2006年公布了关于GFS、MapReduce和BigTable三篇技术论文。
三篇论文主要阐述:
2.1、GFS
公布时间:
2003年。
GFS阐述了GoogleFileSystem的设计原理,GFS是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。
虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处,但是,我们设计还是以我们对自己的应用的负载情况和技术环境的分析为基础的,不管现在还是将来,GFS和早期的分布式文件系统的设想都有明显的不同。
所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。
GFS完全满足了我们对存储的需求。
GFS作为存储平台已经被广泛的部署在Google内部,存储我们的服务产生和处理的数据,同时还用于那些需要大规模数据集的研究和开发工作。
目前为止,最大的一个集群利用数千台机器的数千个硬盘,提供了数百TB的存储空间,同时为数百个客户机服务。
为了满足Google迅速增长的数据处理需求,我们设计并实现了Google文件系统(GoogleFileSystem–GFS)。
GFS与传统的分布式文件系统有着很多相同的设计目标,比如,性能、可伸缩性、可靠性以及可用性。
但是,我们的设计还基于我们对我们自己的应用的负载情况和技术环境的观察的影响,不管现在还是将来,GFS和早期文件系统的假设都有明显的不同。
首先,组件失效被认为是常态事件,而不是意外事件。
GFS包括几百甚至几千台普通的廉价设备组装的存储机器,同时被相当数量的客户机访问。
GFS组件的数量和质量导致在事实上,任何给定时间内都有可能发生某些组件无法工作,某些组件无法从它们目前的失效状态中恢复。
我们遇到过各种各样的问题,比如应用程序bug、操作系统的bug、人为失误,甚至还有硬盘、内存、连接器、网络以及电源失效等造成的问题。
所以,持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在GFS中。
其次,以通常的标准衡量,我们的文件非常巨大。
数GB的文件非常普遍。
每个文件通常都包含许多应用程序对象,比如web文档。
当我们经常需要处理快速增长的、并且由数亿个对象构成的、数以TB的数据集时,采用管理数亿个KB大小的小文件的方式是非常不明智的,尽管有些文件系统支持这样的管理方式。
因此,设计的假设条件和参数,比如I/O操作和Block的尺寸都需要重新考虑。
第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。
对文件的随机写入操作在实际中几乎不存在。
一旦写完之后,对文件的操作就只有读,而且通常是按顺序读。
大量的数据符合这些特性,比如:
数据分析程序扫描的超大的数据集;
正在运行的应用程序生成的连续的数据流;
存档的数据;
由一台机器生成、另外一台机器处理的中间数据,这些中间数据的处理可能是同时进行的、也可能是后续才处理的。
对于这种针对海量文件的访问模式,客户端对数据块缓存是没有意义的,数据的追加操作是性能优化和原子性保证的主要考量因素。
第四,应用程序和文件系统API的协同设计提高了整个系统的灵活性。
比如,我们放松了对GFS一致性模型的要求,这样就减轻了文件系统对应用程序的苛刻要求,大大简化了GFS的设计。
我们引入了原子性的记录追加操作,从而保证多个客户端能够同时进行追加操作,不需要额外的同步操作来保证数据的一致性。
本文后面还有对这些问题的细节的详细讨论。
Google已经针对不同的应用部署了多套GFS集群。
最大的一个集群拥有超过1000个存储节点,超过300TB的硬盘空间,被不同机器上的数百个客户端连续不断的频繁访问。
2.2、MapReduce
2004年。
MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。
用户首先创建一个Map函数处理一个基于key/valuepair的数据集合,输出中间的基于key/valuepair的数据集合;
然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。
现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个模型。
MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。
这个系统在运行时只关心:
如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中计算机之间必要的通信。
采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。
我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的集群上:
一个典型的MapReduce计算往往由几千台机器组成、处理以TB计算的数据。
程序员发现这个系统非常好用:
已经实现了数以百计的MapReduce程序,在Google的集群上,每天都有1000多个MapReduce程序在执行。
2.3、BigTable一个分布式的结构化数据存储系统
2006年。
Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:
通常是分布在数千台普通服务器上的PB级的数据。
Google的很多项目使用Bigtable存储数据,包括Web索引、GoogleEarth、GoogleFinance。
这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批量处理到实时数据服务)。
尽管应用需求差异很大,但是,针对Google的这些产品,Bigtable还是成功的提供了一个灵活的、高性能的解决方案。
本论文描述了Bigtable提供的简单的数据模型,利用这个模型,用户可以动态的控制数据的分布和格式。
老三篇即使我们常用的Hadoop系统的设计理论基石。
虽然Google没有公布这三个产品的源码,但是根据google发布了这三个产品的详细设计论文。
而且,Yahoo资助的Hadoop也有按照这三篇论文的开源Java实现:
Hadoop对应Mapreduce,HadoopDistributedFileSystem(HDFS)对应Googlefs,Hbase对应Bigtable。
不过在性能上Hadoop比Google要差很多
三、Google新大数据论文介绍
Hadoop来源自Google在2003年底和2004年发表的两篇研究论文。
第一篇介绍了GoogleFileSystem,它是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。
它运行于廉价的普通电脑服务器上,但可以提供容错功能并且可以给大量的用户提供总体性能较高的服务;
另一篇介绍的是MapReduce,这是是一种编程模型,用于大规模数据集(大于1TB)的并行运算,能够极大地方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
八年之后,Hadoop在网络上得到了广泛的使用,应用领域涉及数据分析到各种这样的数值计算任务。
但Google却研发出了更好的技术。
2009年,网络巨头Google开始用新的技术取代GoogleFileSystem和MapReduce。
相应替代的理论基础来自以下三篇论文为主导:
Caffeine、Pregel、Dremel。
3.1、Caffeine:
处理个体修改
2010年。
Google并没有止步于MapReduce。
事实上,随着Internet的指数增长,从零开始重算所有搜索索引变得不切实际。
取而代之,Google开发了一个更有价值的系统,同样支持分布式计算系统。
GoogleCaffeine是google全球数据中心网络上的新的搜索基础设施——是基于分布式数据处理系统Percolator的。
Percolator引入了事务,而一些NoSQL数据库仍然在强调得到高扩展性的同时你必须牺牲(或者不再需要)事务处理。
它是一个增量处理平台——一种可以持续更新Google公司的核心搜索索引而不需要从头开始处理所有数据的方法。
在本质上Caffeine丢弃MapReduce转而将索引放置在由Google开发的分布式数据库BigTable上。
作为Google继GFS和MapReduce两项创新后的又一项创新,其在设计用来针对海量数据处理情形下的管理结构型数据方面具有巨大的优势。
这种海量数据可以定义为在云计算平台中数千台普通服务器上PB级的数据。
在本论文中,Google展示了其网络搜索是如何保持着与时俱进。
Percolator建立于已存类似Bigtable的技术,但是加入了事务以及行和表上的锁和表变化的通知。
这些通知之后会被用于触发不同阶段的计算。
通过这样的方式,个体的更新就可以“渗透”整个数据库。
这种方法会让人联想到类似Storm(或者是Yahoo的S4)的流处理框架(SPF),然而Percolator内在是以数据作为基础。
SPF使用的一般是消息传递而不是数据共享,这样的话更容易推测出究竟是发生了什么。
然而问题也随之产生:
除非你手动的在某个终端上储存,否则你将无法访问计算的结果。
Caffeine大大提升了google搜索速度。
在原有的系统中,Google公司每天爬数以亿万计的文档,把它们和现有文档的集合一起经过约100次MapReduce工序进行处理。
由于系统是顺序的,每个文档都要花2到3天来索引才能出现在google的在线搜索结果中。
Percolator提供对现有的PB级索引数据的随机访问,让google可以更新索引而不需要重新处理所有数据,通过这种方式减少了这个延迟。
“随机访问让我们可以处理单个文档,而不是像MapReduce那样需要对整个数据仓库进行扫描。
”论文中说道。
该系统运行于海量计算机上,通过被称作ACID兼容数据库事务的方式,并行的对索引进行大量修改。
3.2、Pregel:
可扩展的图计算
最终Google还需要挖掘图数据,比如在线社交网络的社交图谱;
所以他们开发了Pregel,并在2010年公布其论文。
Pregel是一个用于分布式图计算的计算框架主要用于图遍历(BFS)、最短路径(SSSP)、PageRank计算等等。
共享内存的运行库有很多但是对于google来说一台机器早已经放不下需要计算的数据了所以需要分布式的这样一个计算环境。
没有Pregel之前用MapReduce来做,但是效率很低;
也可以用已有的并行图算法库ParallelBGL或者CGMgraph来做,但是这两者又没有容错
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Google 关于 数据处理 论文 简述