纵横大数据云计算数据基础设施.docx
- 文档编号:6201656
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:8
- 大小:22.93KB
纵横大数据云计算数据基础设施.docx
《纵横大数据云计算数据基础设施.docx》由会员分享,可在线阅读,更多相关《纵横大数据云计算数据基础设施.docx(8页珍藏版)》请在冰豆网上搜索。
纵横大数据云计算数据基础设施
简介
大数据的概念很火,但人们对它的认识却是混乱的:
有人说大数据就是指所有的数据,有人说大数据是指线上行为、日志等半结构/非结构化的数据形态,有人说大数据就是以Hadoop为代表的新技术……到底什么是大数据?
同样风风火火了很久的云计算与大数据有什么关系?
令人眼花缭乱的众多大数据技术的本质是什么?
各有什么优缺点?
争论不休的“小变大”与“大变小”技术策略到底孰正孰邪?
企业究竟应该如何定位与使用大数据,难道是为了Hadoop而Hadoop?
未来的技术方向究竟如何?
《纵横大数据(云计算数据基础设施)/云计算实践指南丛书》结合现代企业数据管理实践,从策略、技术、应用、企业数据架构等多个维度,体系化地对大数据及相关技术进行了全面深入的论述:
首先对大数据相关概念予以澄清;接着深入剖析各种大数据技术的内在本质,指出其各自的优缺点、适用场景与相互关系;同时对大数据技术“分”与“合”这两种广受争议的技术策略的内在联系进行了分析与讨论,明确指出现代数据管理技术的发展趋势;最后结合大数据时代企业新一代数据架构规划的实际,对大数据及相关技术在企业数据体系中的具体定位给出了切实可行的建议,并且面向云数据中心建设,提出了大数据云——云计算数据基础设施的概念与方法。
序言
“云计算”与“大数据”应该说是目前IT界最为热门的两个概念了。
云计算以各种软硬件资源新的消费与交付模式为核心理念,被普遍认为将会成为未来社会最为深远的革新。
而现实却是:
在多“云”的天空,成功的实践却少得可怜,致使其很多情况下只是充当了一个时髦的噱头。
令人遗憾的是,如今风头已远远盖过“云计算”的“大数据”,其现实情况与此类似。
大数据概念最初是伴随着Hadoop等开源技术的推广而出现的,在国内外众多互联网公司依靠它们取得巨大成功的强力推动下,传统数据管理技术的地位受到了严重的挑战,似乎不知Hadoop、不用Hadoop就会落后!
但如何才能在本企业或者某个具体需求中正确有效地使用这些新技术呢?
这至今依然是众多企业技术决策者的困惑。
大多数企业目前对大数据潮流的热烈响应其实是“雷声大,雨点小”,其中相当一部分是不分青红皂白,纯粹为了Hadoop而Hadoop,很少有产生实际成效的案例。
本书认为,要正确回答这些问题,给出合适的决策,必须对这些技术本身进行较为深入的了解与分析,然后结合自己企业的实际,做出自己的判断。
任何其他企业的经验都不可以照搬照抄;任何资料中关于各种技术的适用场景描述,即使是正确的,也都有其特殊的上下文环境,不可以当成普遍真理去盲目遵从。
这里所说的对技术的了解,并不是指具体如何去使用它,而是指其内在本质、特点与相互联系,这些往往比使用方法更重要,也是本书区别于其他大数据资料的主要特点之一。
首先,让我们看看云计算与大数据的关系,目前人们对此的理解更是混乱不堪,有人认为两者完全不同,有人则认为大数据技术其实就是云计算。
对“云”,最开始,人们普遍认为那是一种采用一堆闲散资源完成一件重大任务的技术。
后来,人们又意识到现代社会对“云”的诠释,其实更多的是指一种以服务为主的商业模式,而不是一种技术。
现在,绝大多数人对“云”的理解停留于此,认为“云计算”与技术无关的人大都是这种思路。
但在对“云”业务模式的实践中却发现,要搞“云”服务,必须从技术手段与商业模式两个维度同时入手才有意义,只拥有其中任何一个方面都是不行的,甚至可以说前者要比后者重要得多。
大多数情况下,在“云”能适用的领域内,如果没有前者,后者所能提供的服务水平自然也就很有限,从而也就自然失去了“云”的含义。
所以说,云计算的本质是商业模式,但其核心却仍然是技术问题。
而云在技术层面的核心问题又是什么呢?
有人认为是“小变大”的分布式计算,有人认为是“大变小”的虚拟化,而本书认为,云计算最核心的问题是数据,具体地讲,是现代业务环境下的数据管理问题,也就是能实现海量、多类型、高负载、高性能、低成本需求的数据管理技术,这实际上就是传统数据管理技术在现代的最大挑战。
这其中最耀眼的,就是各种新兴的大数据家族成员的出现,包括开源体系的Hadoop、各种NoSQL数据库、NewSQL数据库(关系数据库联邦)、分布式文件系统等,甚至还包括非开源体系的新一代关系数据库。
这样看来,“大数据”应该是“云计算”业务模式得以实现在数据管理层面的核心技术支撑,两者密不可分。
而从纯技术的角度看,“云计算”概念最初出现时就是指采用网络互联起来的设备共同完成一项庞大任务的技术策略,而Hadoop等流行大数据技术的核心思路大多如此。
因此,我们又可以说:
“云计算”是大数据的技术实现方法。
这便是云计算与大数据的联系,两者无论是在业务上,还是技术上,都是相互依存的。
一句话,无论叫什么名称,其实都是代表现代IT发展的最新进展而已。
再来看看各种流行的大数据技术本身,包括Hadoop,NoSQL,NewSQL,甚至一些新一代的关系数据库等。
对它们,在现代数据管理领域内,目前的状态却是:
人们普遍困惑的并不是能不能掌握这些技术的具体用法,而是到底什么时候,在什么场景下,如何定位与使用这些技术?
这主要表现在以下几个方面。
一是如何定位新旧技术。
即指新兴的以Hadoop为代表的开源技术,与传统的关系数据库技术,到底是新技术彻底颠覆传统技术,还是两者共存?
如果是共存,如何共存?
这是目前各个企业普遍感到困惑的最重要的问题。
二是部分技术人员对新事物只是盲从。
大家在应用实践中或多或少地会遇到一些困难,于是很多技术人员就会把希望寄托在新出现的技术上,认为只要一用上如Hadoop或NoSQL这些新东西,目前的问题就会迎刃而解。
接下来就立即紧张地投入到新技术的学习与使用上去,而不做是否适合自己需求的合理判断。
很显然,这种对新技术的崇拜是盲目的。
三是各种技术之间出现了互相攻击、互相否定的态势。
一度以来,传统的主流关系数据库(如Oracle,DB2等)在实践中出现了一些问题,主要是对高负荷环境下的海量数据应用出现了力不从心的现象,同时,其水平扩展性的限制与高昂的成本问题使客户越来越难以忍受。
于是,一些非关系型的NoSQL数据库,或者一些低端数据库集群方案(如MySQL集群)就在一些场合替代了主流的商业数据库,并且表现出很优秀的性价比;另外,有些企业在分析领域也出现了以HadoopMapReduce等开源产品全面替代关系型数据仓库的现象。
于是,便出现了一种思潮,认为关系数据库最终将退出历史舞台。
而另有一部分人则认为,所谓极其成功的新技术,只是昙花一现的暂时现象而已,传统的关系数据库经过改良以后,依然会是数据管理领域的王者,其他的技术会像30多年前关系数据库与其他数据管理技术之争的结果一样,逐渐消失。
这些观点中,大多都是凭直觉、凭感觉、凭个人经验的判断得出,虽然不能说是武断,但如果没有令人信服的技术分析做支撑,就很难说谁对谁错。
四是新技术本身在实践中也出现了很多的问题。
例如HadoopMapReduce,虽然已经出现了Hadoop2.0中的各项重要改进,但相信只要是真正用过它的人都知道,其在方便性、可靠性、可用性、效率等方面都还很不尽如人意。
笔者记得一位很熟悉Hadoop的朋友说:
“如果企业能用关系数据库解决问题,就尽量不要用它!
”再如Twitter放弃了用Cassandra替代MySQL的决策,Digg使用Cassandra后出现的一系列严重问题等,都使很多人开始重新审视这些新技术。
其实,究其根本,以上现象出现的主要原因是:
人们只是去学习如何使用这些新技术,却很少独立思考,对它们进行较为深入的学习与剖析;很少在设计思想、技术架构、内在本质等方面将它们与其他技术进行对比,以能在真正掌握后,做出属于自己、适合自己的判断。
而这些又正是本书的主体内容。
如果在数据库技术领域继续探究,会发现NoSQL技术虽然适合海量数据的快速存取,却无法满足较复杂的关系模型数据管理及人们对习惯使用SQL语言的要求,而标准的关系数据库在水平扩展性上又严重受限。
那么,是否存在一种技术,既可以使用关系模型存储数据,使用SQL操作数据,又可以像NoSQL一样方便扩展?
于是,本书还与读者分享了笔者自主研发的一个关系型云数据库的设计与实践,它既不同于目前流行的Hadoop/NoSQL等开源技术,也不同于传统的关系数据库,是一种介于两者之间的技术模式,目前的状态正好满足Hadoop与传统关系数据库都不太适用的企业级海量历史数据管理的需求,并已经在实践中取得一定的成果。
接着,由该自主产品的设计实践活动出发,我们产生了对Hadoop本身许多固有技术问题更大胆的、更进一步的深入思考:
PB级海量数据的批量分析能不能比Hadoop再提高一个数量级,例如,达到秒级?
在保守的认识中,这样的要求似乎是不合理的,也是不可能实现的。
然而大数据领域最新的技术进展—Hadoop的缔造者Google近年来一系列更前沿的、被称为“Google新三驾马车”的研究成果,通过模式(Schema)的回归与精巧的设计,已经向这样似乎是“不可能的任务”的宏伟目标迈出了一大步。
这使我们意识到:
技术的发展瞬息万变,Hadoop本身已不见得有多么先进了,想要在实践中做出正确的决策,就必须不断学习,勇于创新,不断经历破与立的过程,而不能故步自封,原地不动。
除了需要对各种大数据技术手段进行深入剖析以外,当今IT界还在云计算技术两个不同的技术策略上有着广泛的争议,即“分”为云与“合”为云,前者是指数据切分后以小变大,后者是指以大变小,将分散的小资源集中整合起来管理后,再将资源进行统一的按需调度与分配。
两者都称自己是云计算技术(或者说是大数据技术)的正宗,相互攻击与否定的现象极为激烈,并且各自都有坚实的成功实践为基础。
表现最明显的就是以淘宝为代表的新兴互联网技术力量与IBM、Oracle等老牌的数据库厂商之间关于以“分”为主的开源技术及以“合”为主的一体机技术之间的争论与竞争,可以说已经到了白热化的阶段。
他们各说各话,各有千秋,已经成为企业技术决策者的主要困惑之一。
而实际上,经过研究与分析,很容易就可以发现,他们所争论的“分”与“合”,看起来是完全相反的,实际上并不矛盾,其实是你中有我,我中有你,两者是有机结合的统一体,在现代数据管理的需求中都有各自的定位。
企业所要做的并不是对技术策略进行非你即他的选择,而是根据自己的实际情况与需求,对各种技术与产品进行合理的定位;同时,更加重要的工作并不是某一项技术的正确定位与使用,而是能站在云数据中心建设的高度,将传统关系数据库资源与Hadoop集群资源集中起来形成PaaS平台,再对外提供分散的、数据相关的云服务,包括数据库云与Hadoop平台云,可以将之统称为大数据云。
将大数据的话题提高到这样的层面,虽然相关的资源池调度与分配技术也非常重要,但更重要的却已经是面向云计算的大数据服务模式了。
另一方面,虽然关系数据库将与Hadoop等技术共存的思想被大多数人接受,也是本书所认同的观点,但广大读者可能还注意到一个现象:
新兴的Hadoop/NoSQL等非SQL技术在不断发展的过程中,已经在逐步引进一些原本属于SQL技术体系的功能,如索引与事务;而关系数据库领域,也在逐步将这些新兴的技术引入其技术体系,如AsterData与最新Oracle12C所具备的InDBMapReduce功能,都是除原有的SQL引擎以外,在其数据库内引入MapReduce处理引擎。
那么,未来数据管理技术的发展趋势究竟如何呢?
我们说,在物理基础设施上,分布式集群架构应该是未来发展的大趋势,而在软基础设施层面,虽然SQL与非SQL技术体系在相当长的时间内会共存,但未来的趋势是相互融合的。
现在看来,起码对数据管理技术来讲,开源是大趋势,摒弃产品销售为主导的商业模式,以技术服务为主体应该是各大厂商应该尽早考虑的策略。
在本书最后,笔者结合企业数据架构规划的实际,针对当今各个企业在响应大数据潮流时最为关心、最为困惑的问题:
“到底如何在本企业实施与推广大数据”给出了切实可行的建议。
可以看到,企业引入大数据的本质就是:
以适合更多更广的数据源,以及提供更强大的数据管理处理能力为目标,面向新时代的业务规划(如互联网金融),对现有数据体系的各个层面(包括采集、传输、加工、集成、分析、展现等)进行全面改造,推出大数据时代的新一代企业级数据架构,并将其作为现代企业IT架构的重要组成部分之一。
笔者认为,企业引入云计算与大数据的战略思想应该是:
“业务上是改造,技术上是改进;业务上是创新,技术上是补充”,仅供企业参考。
最后借此机会向王建波、李鹏、葛荪葳等朋友表示感谢,与他们的讨论使我受益匪浅,也一并感谢所有对我的写作有过帮助的人。
希望本书是一个成功的尝试,同时也希望能为广大读者与企业的相关设计、规划与实践活动提供有用的借鉴与帮助。
目录
第1部分 大数据概论
第1章大数据与云计算
1.1云计算概论
1.2大数据概论
1.2.1现代数据管理需求分析
1.2.2大数据的引入
1.2.3大数据的定义与特征
1.2.4大数据与互联网
1.2.5大数据战略、大数据与大数据技术
1.3大数据的技术实现——云计算
1.4本章小结
第2章关系数据库的挑战与应对
2.1关系数据库技术的核心特征
2.2主流关系数据库的挑战
2.2.1经典DBMS的挑战
2.2.2Share
2.2.3SharedN
2.3改进型关系数据库
2.3.1技术改进
2.3.2主要产品代表
2.4本章小结
第3章非SQL技术简介
3.1大数据技术家族
3.1.1NoSQL
3.1.2关系数据库联邦N
3.1.3分布式海量文件管理
3.1.4Map
3.2分与合——云计算的两种技术路线
3.3本章小结
第2部分“分”为云——数据切分
第4章NoSQL
4.1NoSQL的引入
4.1.1概念诠释与特征分析
4.1.2NoSQL的本质
4.2NoSQL家族
4.2.1NoSQL产品目录与分类
4.2.2Hadoop?
4.2.3Facebook之Cas
4.2.4MongoDB与C
4.2.5OracleNo
4.2.6Memcached?
4.2.7图数据库
4.2.8其他NoSQL数据库
4.2.9问题与疑惑
4.3NoSQL技术探研
4.3.1NoSQL理论基础
4.3.2NoSQL技术手段
4.3.3NoSQL技术解析
4.4NoSQL与关系数据库
4.5本章小结
第5章NewSQL——关系数据库联邦
5.1数据库联邦的引入
5.1.1企业业务数据管理面临的问题
5.1.2垂直分库
5.1.3水平分表
5.1.4读写分离
5.1.5联邦的引入
5.2“联邦”的设计与实践
5.2.1企业级“联邦”架构设计
5.2.2公共基础服务设计
5.2.3联邦的元数据库
5.2.4联邦的应用实践
5.3“联邦”技术分析
5.3.1关于“垂直分库”
5.3.2如何“水平分表”
5.3.3关于“读写分离”
5.3.4基本方法——分布与聚合
5.3.5关于分布式事务
5.3.6关联操作
5.2.7冗余策略
5.2.8异步解耦策略
5.2.9使用缓存
5.2.10其他问题
5.4数据库联邦、NoSQL与主流关系数据库
5.4.1技术与应用——八仙过海,各显神通
5.4.2互联网的神话
5.5本章小结
第6章文件系统联邦
6.1问题的引入
6.1.1关于几个数据概念的澄清
6.1.2文件数据管理的困难
6.1.3文件系统联邦的引入
6.2典型开源技术介绍
6.2.1Mog
6.2.2Fa
6.2.3MogileFS与FastDFS的对比
6.3技术分析
6.4本章小结
第7章平民化的分布计算——MapR
7.1分布式计算概述
7.1.1几个概念的澄清
7.1.2分布式计算技术综述
7.1.3MapReduce的引入
7.2MapReduce技术介绍
7.2.1设计思想
7.2.2MapReduce框架介绍
7.3MapReduce技术分析
7.3.1关于效率
7.3.2关于扩展性
7.3.3关于可靠性与可用性
7.3.4关于MapReduce与关系数据库
7.3.5关于适用的数据类型
7.3.6关于数据存储与管理
7.4MapReduce的应用实践
7.5本章小结
第8章后Hadoop时代
8.1Hadoop体系及其困惑
8.2Google的新三驾马车
8.2.1新一代搜索引擎Caff
8.2.2大规模图处理系统Pr
8.2.3Dremel——秒级实现PB级数据分析
8.3SymphonyMapR
8.4后Hadoop时代即将来临
8.5本章小结
第9章InfiniData—一种关系型云数据库的设计与实践
9.1现代企业数据管理需求再分析
9.1.1新的企业数据需求——海量关系数据管理
9.1.2技术分析
9.2关系型云数据库架构设计
9.2.1关系型云数据库的引入
9.2.2技术架构设计
9.3云存储层
9.3.1逻辑架构
9.3.2物理架构
9.3.3关系模型云存储元
9.4云计算层
9.4.1MapReduce云计算引擎
9.4.2集群式云计算引擎
9.4.3两种引擎的比较
9.5云存储索引层
9.5.1存储索引的管理
9.5.2索引云运行时动态创建
9.6技术分析
9.7本章小结
第3部分 云计算的分与合
第10章合为“云”——数据整合
10.1数据整合的需求分析
10.2存储整合云
10.3数据库整合云
10.4本章小结
第11章关于分与合的讨论
11.1困惑——分与合,孰是孰非?
11.2分为技,合为神
11.3分为雨,合为云——大数据云
11.4数据管理技术发展趋势总结
11.4.1数据管理物理基础设施发展趋势
11.4.2数据管理软基础设施发展趋势
11.5本章小结
第12章企业大数据技术体系与云计算数据基础设施
12.1现代企业数据管理需求再分析
12.2新一代企业数据体系建设
12.2.1新一代企业数据体系建设的定义与内容
12.2.2新一代企业数据分类体系
12.2.3新一代企业数据分布与流转规划
12.3大数据技术在企业数据架构中的定位
12.3.1技术规划战略
12.3.2大数据技术架构规划
12.3.3典型场景——电子渠道线上行为分析
12.4云计算数据基础设施概念的引入
12.5本章小结
后记——超越技术
参考文献倚窗远眺,目光目光尽处必有一座山,那影影绰绰的黛绿色的影,是春天的颜色。
周遭流岚升腾,没露出那真实的面孔。
面对那流转的薄雾,我会幻想,那里有一个世外桃源。
在天阶夜色凉如水的夏夜,我会静静地,静静地,等待一场流星雨的来临…
许下一个愿望,不乞求去实现,至少,曾经,有那么一刻,我那还未枯萎的,青春的,诗意的心,在我最美的年华里,同星空做了一次灵魂的交流…
秋日里,阳光并不刺眼,天空是一碧如洗的蓝,点缀着飘逸的流云。
偶尔,一片飞舞的落叶,会飘到我的窗前。
斑驳的印迹里,携刻着深秋的颜色。
在一个落雪的晨,这纷纷扬扬的雪,飘落着一如千年前的洁白。
窗外,是未被污染的银白色世界。
我会去迎接,这人间的圣洁。
在这流转的岁月里,有着流转的四季,还有一颗流转的心,亘古不变的心。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 纵横 数据 计算 基础设施