大数据技术综述.docx
- 文档编号:10047118
- 上传时间:2023-02-08
- 格式:DOCX
- 页数:39
- 大小:424.10KB
大数据技术综述.docx
《大数据技术综述.docx》由会员分享,可在线阅读,更多相关《大数据技术综述.docx(39页珍藏版)》请在冰豆网上搜索。
大数据技术综述
大数据技术综述
Abstract:
Weareenteringintoa“bigdata”era.Duetothebottlenecks,suchaspoorscalability,installationandmaintenancedifficulties,faulttoleranceandlowperformance,intraditionalinformationtechniqueframework,weneedtoleveragethecloudcomputingtechniquesandsolutionstodealwithbigdataproblems.Cloudcomputingandbigdataarecomplementarytoeachotherandhaveinherentconnectionofdialecticalunity.Thebreakthroughofbigdatatechniqueswillnotonlyresolvethecurrentsituation,butalsopromotethewideapplicationofcloudcomputingandtheinternetofthingstechniques.Wefocusondiscussingthedevelopmentandthepivotaltechniquesofbigdata.Andprovideacomprehensivedescriptionofbigdatafromseveralperspectives,includingthedevelopmentofbigdata,thecurrentdata-burstsituation,therelationshipbetweenbigdataandcloudcomputingandthebigdatatechniques.Finally,weintroducetherelatedtechniqueresearchesandourcurrentwork.
Keywords:
bigdatatechnique;cloudcomputing;dataacquisition;datastorage;datacomputation;presentationandinteraction
摘要:
我们正在进入一个“大数据”时代,传统的信息技术架构,存在着扩展性差、容错性差、性能低、安装部署及维护困难等诸多瓶颈,需要以现代云计算手段和技术来解决大数据问题.云计算与大数据是相辅相成、辨证统一的关系,大数据技术的突破不仅能解决现实困难,同时也会促使云计算、物联网技术真正落地并深入推广和应用.针对大数据的发展历程以及关键性的大数据技术进行探讨,从大数据的发展历程、当前面临的大数据问题、大数据与云计算的关系以及大数据技术等方面进行综合描述.归纳总结相关的技术研究和我们的研究成果.
关键词:
大数据技术;云计算;数据采集;数据存储;数据计算;展现与交互
中图法分类号:
TP301 文献标识码:
A
1大数据的发展背景及定义
当今,信息技术为人类步入智能社会开启了大门,带动了互联网、物联网、电子商务、现代物流、网络金融等现代服务业发展,催生了车联网、智能电网、新能源、智能交通、智能城市、高端装备制造等新兴产业发展.现代信息技术正成为各行各业运营和发展的引擎.但这个引擎正面临着大数据这个巨大的考验[57].各种业务数据正以几何级数的形式爆发[1],其格式、收集、储存、检索、分析、应用等诸多问题,不再能以传统的信息处理技术加以解决,对人类实现数字社会、网络社会和智能社会带来了极大的障碍.纽约证券交易所每天产生1TB的交易数据;Twitter每天就会生成超过7TB的数据;Facebook每天会产生超过10TB的数据;位于欧洲粒子物理实验室的大型强子对撞机每年产生约15PB的数据.根据著名咨询公司IDC的调查与统计,07年全球信息量约为165EB,即使在全球遭遇金融危机的2009年,全球信息量仍达到800EB,比上一年度增长62%;未来每隔18个月,整个世界的数据总量就会翻倍;预计2020年这一数字将达到35ZB,约为2007年的230倍,而人类历史5000年的文字记载只有5EB数据.上述统计与调查预示着TB、PB、EB的时代已经成为过去,全球将正式进入数据存储的“泽它(Zetta)时代”.
从2009年开始,“大数据”成为互联网信息技术行业的流行词汇,大数据起初成熟应用多在互联网行业,互联网上的数据每年增长50%,每两年翻一番,全球互联网企业都意识到“大数据”时代的来临,数据对于企业有着重要意义.2011年5月,麦肯锡全球研究院发布题为《大数据:
创新、竞争和生产力的下一个新领域》[2]的报告.报告发布后,“大数据”迅速成为计算机行业的热门概念.2012年4月美国奥巴马政府推出”大数据研究和发展倡议”[3],并划拨2亿美元的专项资金之后,在全球掀起了一股大数据的热潮.根据Wikibon2011年发布的大数据报告[4],大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将高达500亿美元.2012年初,大数据相关软件、硬件和服务的收入总和只有约50亿美元.但随着企业逐渐认识到大数据和相关分析将形成新的差异化竞争优势,提升运营效率,大数据相关技术和服务将获得长足发展,大数据将逐渐落地,并在未来五年保持58%的惊人复合增长速度.投资银行JMPSecurities分析师GregMcDowell则表示大数据工具市场预计将在10年内由去年的90亿美元增长至860亿美元.到2020年,企业在大数据工具方面的投资将占整体企业IT开支的11%.
目前,业界对大数据还没有一个统一的定义,常见的大数据定义如下:
“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合.”——麦肯锡.
“大数据是指无法在一定时间内用常规软件工具对其内容迚行抓取、管理和处理的数据集.”——维基百科
“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产.”----Gartner
大数据具备Volume、Velocity、Variety和Value四个特征[47](简称为“4V”,即数据体量巨大、处理速度快、数据类型繁多和价值密度低),下面对每个特征分别作简要描述.
Volume:
表示大数据的数据量巨大.数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数.比如一个中型城市的视频监控头每天就能产生几十TB的数据.
Variety:
表示大数据的类型复杂.以往我们产生或者处理的数据类型较为单一,大部分是结构化数据.而如今,社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生大量半结构化或者非结构化数据,如XML、邮件、博客、即时消息等,导致了新数据类型的剧增.企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据.随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类型无以计数,包括:
文本、微博、传感器数据、音频、视频、点击流、日志文件等.
Velocity:
数据产生、处理和分析的速度持续在加快,数据流量大.加速的原因是数据创建的实时性天性,以及需要将流数据结合到业务流程和决策过程中的要求.数据处理速度快,处理能力从批处理转向流处理.业界对大数据的处理能力有一个称谓——“1秒定律”,也就充分说明了大数据的处理能力,体现出它与传统的数据挖掘技术有着本质的区别;
Value:
大数据由于体量不断加大,单位数据的价值密度在不断降低,然而数据的整体价值在提高.有人甚至将大数据等同于黄金和石油,表示大数据当中蕴含了无限的商业价值.根据IDC调研报告中预测,大数据技术与服务市场将从2010年的32亿美元攀升至2015年的169亿美元,实现年增长率达40%,并且将会是整个IT与通信产业增长率的7倍.通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润.
大数据处理技术在具体的应用方面,可以为国家支柱企业的数据分析和处理提供技术和平台支持,为企业进行数据分析、处理、挖掘,提取出重要的信息和知识,再转化为有用的模型,应用到研究、生产、运营和销售过程中.同时,国家大力倡导“智慧城市”建设,在城市化与信息化融合等背景下,围绕改善民生、增强企业竞争力、促进城市可持续发展等关注点,综合利用物联网、云计算等信息技术手段,结合城市现有信息化基础,融合先进的城市运营服务理念,建立广泛覆盖和深度互联的城市信息网络,对城市的资源、环境、基础设施、产业等多方面要素进行全面感知,并整合构建协同共享的城市信息平台,对信息进行智能处理利用,从而为城市运行和资源配置提供智能响应控制,为政府社会管理和公共服务提供智能决策依据及手段,为企业和个人提供智能信息资源及开放式信息应用平台的综合性区域信息化发展过程.
数据无疑是新型信息技术服务和科学研究的基石,而大数据处理技术理所当然地成为当今信息技术发展的核心热点,大数据处理技术的蓬勃发展也预示着又一次信息技术革命的到来.另一方面,随着国家经济结构调整、产业升级的不断深化,信息处理技术的作用将日益凸显,而大数据处理技术无疑将成为在国民经济支柱产业信息化建设中实现核心技术的弯道追赶、跟随发展、应用突破、减少绑架的最佳突破点[16].
2大数据问题
大数据因为它所蕴含的潜在价值,正在成为企业的隐形“金矿”.随着生产、运营、管理、监控、销售、客服等各个环节的数据不断累积和增长,以及用户数的不断上升,通过从庞大的数据中分析出相关模式以及趋势,可以实现高效管理、精准营销,成为企业打开这一“金矿”的钥匙.然而传统的IT基础架构和数据管理分析方法已经不能适应大数据的快速增长.大数据的爆发是我们在信息化和社会发展中遇到的棘手问题,需要我们采用新的数据管理模式,研究和发展新一代的信息技术才能解决.我们把大数据问题归纳为表1中所列7类:
Table1Problemsofbigdata
表1大数据问题
大数据问题分类
大数据问题描述
速度方面的问题
导入导出问题
统计分析问题
检索查询问题
实时响应问题
种类及架构问题
多源问题
异构问题
原系统的底层架构问题
体量及灵活性问题
线性扩展问题
动态调度问题
成本问题
大机与小型服务器的成本对比
原有系统改造的成本把控
价值挖掘问题
数据分析与挖掘问题
数据挖掘后的实际增效问题
存储及安全问题
结构与非结构
数据安全
隐私安全
互联互通与数据共享问题
数据标准与接口
共享协议
访问权限
2.1速度方面的问题
传统的关系型数据库管理系统(RDBMS)一般都是集中式的存储和处理,没有采用分布式架构,在很多大型企业中的配置往往都是基于IOE(IBM服务器,Oracle数据库,EMC存储).在这种典型配置中单台服务器的配置通常都很高,可以多达几十个CPU核,内存也能达到上百GB;数据库的存储放在高速大容量的磁阵上,存储空间可达TB级.这种配置对于传统的信息管理系统(MIS)需求来说是可以满足需求的,然而面对不断增长的数据量和动态数据使用场景,这种集中式的处理方式就日益成为瓶颈,尤其是在速度响应方面捉襟见肘.在面对大数据量的导入导出、统计分析、检索查询方面,由于依赖于集中式的数据存储和索引,性能随着数据量的增长而急速下降,对于需要实时响应的统计及查询场景更是无能为力.比如在物联网中,传感器的数据可以多达几十亿条,对这些数据需要进行实时入库、查询及分析,传统的RDBMS就不再适合应用需求.
2.2种类及架构问题
RDMBS对于结构化的、固定模式的数据,已经形成了相当成熟的存储、查询、统计处理方式.随着物联网、互联网以及移动通信网络的飞速发展,数据的格式及种类在不断变化和发展.在智能交通领域,所涉及的数据可能包含文本、日志、图片、视频、矢量地图等来自不同数据采集监控源的,不同种类的数据.这些数据的格式通常都不是固定的,如果采用结构化的存储模式将很难应对不断变化的需求.因此对于这些种类各异的多源异构数据,需要采用不同的数据和存储处理模式,结合结构化和非结构化数据存储.在整体的数据管理模式和架构上,也需要采用新型的分布式文件系统及分布式NoSQL数据库架构,才能适应大数据量及变化的结构.
2.3体量及灵活性问题
如前所述,大数据由于总体的体量巨大,采用集中式的存储,在速度、响应方面都存在问题.当数据量越来越大,并发读写量也越来越大时,集中式的文件系统或单数据库操作将成为致命的性能瓶颈,毕竟单台机器的承受压力是有限的.我们可以采用线性扩展的架构和方式,把数据的压力分散到很多台机器上,直到可以承受,这样就可以根据数据量和并发量来动态增加和减少文件或数据库服务器,实现线性扩展.
在数据的存储方面,需要采用分布式可扩展的架构,比如大家所熟知的Hadoop文件系统[25],和HBase数据库[27].同时在数据的处理方面,也需要采用分布式的架构,把数据处理任务,分配到很多计算节点上,同时还需考虑数据存放节点和计算节点之间的位置相关性.在计算领域中,资源分配,任务的分配实际上是一个任务调度问题.其主要任务是根据当前集群中各个节点上面的资源(包括CPU、内存、存储空间和网络资源等)的占用情况,和各个用户作业服务质量要求,在资源和作业或者任务之间做出最优的匹配.由于用户对作业服务质量的要求是多样化的,同时资源的状态也在不断变化,因此,为分布式数据处理找到合适的资源是一个动态调度问题.
2.4成本问题
集中式的数据存储和处理,在硬件软件选型时,基本采用的方式都是配置相当高的大型机或小型机服务器,以及访问速度快、保障性高的磁盘阵列,来保障数据处理性能.这些硬件设备都非常昂贵,动辄高达数百万元,同时软件也经常是国外大厂商如Oracle,IBM,SAP,微软等的产品,对于服务器及数据库的维护也需要专业技术人员,投入及运维成本很高.在面对海量数据处理的挑战时,这些厂商也推出了形似庞然大物的“一体机”解决方案,如Oracle的Exadata,SAP的Hana等,通过把多服务器、大规模内存、闪存、高速网络等硬件进行堆叠,来缓解数据压力,然而在硬件成本上,更是大幅跳高,一般的企业很难承受.
新型的分布式存储架构、分布式数据库如HDFS,HBase,Cassandra[28],MongoDB[29]等由于大多采用去中心化的、海量并行处理MPP架构,在数据处理上不存在集中处理和汇总的瓶颈,同时具备线性扩展能力,能有效地应对大数据的存储和处理问题.在软件架构上,也都实现了一些自管理、自恢复的机制,以面对大规模节点中容易出现的偶发故障,保障系统整体的健壮性,因此对每个节点的硬件配置,要求并不高,甚至可以使用普通的PC作为服务器,因此在服务器成本上可以大大节省,在软件方面开源软件也占据非常大的价格优势.
当然,在谈及成本问题时,我们不能简单地进行硬件软件的成本对比.要把原有的系统及应用迁移到新的分布式架构上,从底层平台到上层应用都需要做很大的调整.尤其是在数据库模式以及应用编程接口方面,新型的NoSQL数据库与原来的RDBMS存在较大的差别,企业需要评估迁移及开发成本、周期及风险.除此之外,还需考虑服务、培训、运维方面的成本.但在总体趋势上,随着这些新型数据架构及产品的逐渐成熟与完善,以及一些商业运营公司基于开源基础为企业提供专业的数据库开发及咨询服务,新型的分布式、可扩展数据库模式必将在大数据浪潮中胜出,从成本到性能方面完胜传统的集中式大机模式.
2.5价值挖掘问题
大数据由于体量巨大,同时又在不断增长,因此单位数据的价值密度在不断降低.但同时大数据的整体价值在不断提高,大数据被类比为石油和黄金,因此从中可以发掘巨大的商业价值[54].要从海量数据中找到潜藏的模式,需要进行深度的数据挖掘和分析.大数据挖掘与传统的数据挖掘模式也存在较大的区别:
传统的数据挖掘一般数据量较小,算法相对复杂,收敛速度慢.然而大数据的数据量巨大,在对数据的存储、清洗、ETL(抽取、转换、加载)方面都需要能够应对大数据量的需求和挑战,在很大程度上需要采用分布式并行处理的方式,比如Google,微软的搜索引擎,在对用户的搜索日志进行归档存储时,就需要多达几百台甚至上千台服务器同步工作,才能应付全球上亿用户的搜索行为.同时,在对数据进行挖掘时,也需要改造传统数据挖掘算法以及底层处理架构,同样采用并行处理的方式才能对海量数据进行快速计算分析.Apache的Mahout[30]项目就提供了一系列数据挖掘算法的并行实现.在很多应用场景中,甚至需要挖掘的结果能够实时反馈回来,这对系统提出了很大的挑战,因为数据挖掘算法通常需要较长的时间,尤其是在大数据量的情况下,在这种情形下,可能需要结合大批量的离线处理和实时计算才可能满足需求.
数据挖掘的实际增效也是我们在进行大数据价值挖掘之前需要仔细评估的问题.并不见得所有的数据挖掘计划都能得到理想的结果.首先需要保障数据本身的真实性和全面性,如果所采集的信息本身噪音较大,或者一些关键性的数据没有被包含进来,那么所挖掘出来的价值规律也就大打折扣.其次也要考虑价值挖掘的成本和收益,如果对挖掘项目投入的人力物力、硬件软件平台耗资巨大,项目周期也较长,而挖掘出来的信息对于企业生产决策、成本效益等方面的贡献不大,那么片面地相信和依赖数据挖掘的威力,也是不切实际和得不偿失的.
2.6存储及安全问题
在大数据的存储及安全保障方面,大数据由于存在格式多变、体量巨大的特点,也带来了很多挑战.针对结构化数据,关系型数据库管理系统RDBMS经过几十年的发展,已经形成了一套完善的存储、访问、安全与备份控制体系.由于大数据的巨大体量,也对传统RDBMS造成了冲击,如前所述,集中式的数据存储和处理也在转向分布式并行处理.大数据更多的时候是非结构化数据,因此也衍生了许多分布式文件存储系统,分布式NoSQL数据库等来应对这类数据.然而这些新兴系统,在用户管理、数据访问权限、备份机制、安全控制等各方面还需进一步完善.安全问题,如果简而言之,一是要保障数据不丢失,对海量的结构、非结构化数据,需要有合理的备份冗余机制,在任何情况下数据不能丢.二是要保障数据不被非法访问和窃取,只有对数据有访问权限的用户,才能看到数据,拿到数据.由于大量的非结构化数据可能需要不同的存储和访问机制,因此要形成对多源、多类型数据的统一安全访问控制机制,还是亟待解决的问题.大数据由于将更多更敏感的数据汇集在一起,对潜在攻击者的吸引力更大;若攻击者成功实施一次攻击,将能得到更多的信息,“性价比”更高,这些都使得大数据更易成为被攻击的目标.LinkedIn在2012年被曝650万用户账户密码泄露;雅虎遭到网络攻击,致使45万用户ID泄露.2011年12月,CSDN的安全系统遭到黑客攻击,600万用户的登录名、密码及邮箱遭到泄漏.
与大数据紧密相关的还有隐私问题.由于物联网技术和互联网技术的飞速发展,与我们工作生活相关各类信息都被采集和存储下来,我们随时暴露在“第三只眼”下面.不管我们是在上网、打电话、发微博、微信,还是在购物、旅游,我们的行为都在随时被监控分析.对用户行为的深入分析和建模,可以更好地服务用户,实施精准营销,然而如果信息泄露或被滥用,则会直接侵犯到用户的隐私,对用户形成恶劣的影响,甚至带来生命财产的损失.2006年,美国DVD租赁商Netflix公司举办了一个算法竞赛.该公司公布了大约来自50万用户的一亿条租赁记录,并且公开悬赏100万美金,举办一个软件设计大赛来提高他们的电影推荐系统的准确度,胜利的条件是把准确度提高10%.尽管该公司对数据进行了精心的匿名化处理,还是被一个用户认出来了,一个化名“无名氏”的未出柜的同性恋母亲起诉了Netflix公司,她来自保守的美国中西部.在美国的微博网站T上面,很多用户习惯随时发布他们的位置和动态信息,结果有几家网站,如“PleaseRobM”-请来抢劫我,“WeKnowYourH”-我知道你的家,能够根据用户所发的信息,推测出用户不在家的时间,找到用户的准确家庭住址,甚至把房子的照片都能找出来.他们的做法旨在提醒大家我们随时暴露在公众视线下,如果不培养安全和隐私意识,将会给自身带来灾难.目前世界的很多国家,包括中国,都在完善与数据使用及隐私相关的法律,来保护隐私信息不被滥用.
2.7互联互通与数据共享问题
在我国的企业信息化建设过程中,普遍存在条块分割和信息孤岛的现象.不同行业之间的系统与数据几乎没有交集,同一行业,比如交通、社保系统内部等,也是按行政领域进行划分建设,跨区域的信息交互和协同非常困难.严重的甚至在同一单位内,比如一些医院的信息系统建设,病历管理、病床信息、药品管理等子系统都是分立建设的,没有实现信息共享和互通.“智慧城市”是我国十二五信息化建设的重点,而智慧城市的根本,是要实现信息的互联互通和数据共享,基于数据融合实现智能化的电子政务、社会化管理和民生改善.因此在城市数字化的基础上,还需实现互联化,打通各行各业的数据接口,实现互联互通,在此之上才能实现智慧化.比如在城市应急管理方面,就需要交通、人口、公安、消防、医疗卫生等各个方面的数据和协助.当前美国联邦政府建立的数据共享平台www.data.gov,我国北京市政府数据资源网()等都是朝着数据开放、数据共享的有力的尝试.
为实现跨行业的数据整合,需要制定统一的数据标准、交换接口以及共享协议,这样不同行业、不同部门、不同格式的数据才能基于一个统一的基础进行访问、交换和共享.对于数据访问,还需制定细致的访问权限,规定什么样的用户在什么样的场景下,可以访问什么类型的数据.在大数据及云计算时代,不同行业、企业的数据可能存放在统一的平台和数据中心之上,需要对一些敏感信息进行保护,比如涉及到企业商业机密及交易信息方面的数据,虽然是依托平台来进行处理,但是除了企业自身的授权人员之外,要保证平台管理员以及其他企业都不能访问此类数据.
3大数据与云计算的辩证关系
云计算技术自2007年以来取得了蓬勃的发展.云计算的核心模式是大规模分布式计算,将计算、存储、网络等资源以服务的模式提供给多用户,按需使用[5].云计算为企业和用户提供高可扩展性、高可用性和高可靠性,提高资源使用效率,降低企业信息化建设、投入和维护成本.随着美国亚马逊、Google、以及微软公司提供的公共云服务的不断成熟与完善,越来越多的企业正在朝着云计算平台上迁移.
由于国家的战略规划需要以及积极引导,云计算及技术在我国近几年来取得了长足的发展.我国设立了北京、上海、深圳、杭州、无锡作为第一批云计算示范城市,北京的“祥云”计划,上海的“云海”计划,深圳的“云计算国际联合实验室”,无锡的“元云计算项目”,以及杭州的“西湖云计算公共服务平台”也先后启动和上线,其他城市如天津、广州、武汉、西安、重庆、成都等也都推出了相应的云计算发展计划或成立了云计算联盟,积极开展云计算的研究开发和产业试点.然而中国云计算的普及在很大程度上仍然局限在基础设施的建设方面,缺乏规模性的行业应用,没有真正实现云计算的落地.究其原因,物联网及云计算技术的全面普及是我们的美好愿景,能够实现信息采集、信息处理,以及信息应用的规模化、泛在化、协同化.然而其应用的前提是大部分行业、企业在信息化建设方面已经具备良好的基础和经验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 综述