大数据发展概述及关键技术.docx
- 文档编号:4365877
- 上传时间:2022-11-30
- 格式:DOCX
- 页数:5
- 大小:20.82KB
大数据发展概述及关键技术.docx
《大数据发展概述及关键技术.docx》由会员分享,可在线阅读,更多相关《大数据发展概述及关键技术.docx(5页珍藏版)》请在冰豆网上搜索。
大数据发展概述及关键技术大数据发展概述及关键技术大数据发展概述及关键技术随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。
近年来,我国政府、企业、科研机构都投入了大量的精力开展大数据相关的研究工作,大数据在政策、技术、产业、应用等方面均获得了长足发展。
1、大数据概述大数据是信息化发展的新阶段。
随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。
近年来大数据在政策、技术、产业、应用等多个层面都取得了显著进展。
在政策层面,大数据的重要性进一步得到巩固。
党的十九大提出“推动互联网、大数据、人工智能和实体经济深度融合”,深刻分析了我国大数据发展的现状和趋势,对我国实施国家大数据战略提出了更高的要求。
在技术层面,以分析类技术、事务处理技术和流通类技术为代表的大数据技术得到了快速的发展。
以开源为主导、多种技术和架构并存的大数据技术架构体系已经初步形成。
大数据技术的计算性能进一步提升,处理时延不断降低,硬件能力得到充分挖掘,与各种数据库的融合能力继续增强。
在产业层面,我国大数据产业继续保持高速发展。
权威咨询机构Wikibon的预测表示,大数据在2018年将深入渗透到各行各业。
在应用层面,大数据在各行业的融合应用继续深化。
大数据企业正在尝到与实体经济融合发展带来的“甜头”。
利用大数据可以对实体经济行业进行市场需求分析、生产流程优化、供应链与物流管理、能源管理、提供智能客户服务等,这不但大大拓展了大数据企业的目标市场,更成为众多大数据企业技术进步的重要推动力。
随着融合深度的增强和市场潜力不断被挖掘,融合发展给大数据企业带来的益处和价值正在日益显现。
在利用大数据提升政府治理能力方面,我国在2017年出台了政务信息系统整合共享实施方案、政务信息资源目录编制指南(试行)等多项政策文件推进政府数据汇聚、共享、开放,取得了诸多进展。
各地纷纷将大数据作为提升政府治理能力的重要手段,通过高效采集、有效整合、深化应用政府数据和社会数据,提升政府决策和风险防范水平,提高社会治理的精准性和有效性。
在地方大数据发展实践方面,截至2018年2月底,我国各地方政府对外公布了超过110份大数据相关政策文件,覆盖全国31个省级行政区划。
总体来看,我国大数据产业目前仍处于蓬勃发展阶段,各地更加注重结合当地发展特色和优势进行大数据产业发展,区域协调的发展局面正在形成。
在大数据的发展过程中,无论是政府还是企业,近年来都愈发关注数据治理和数据资产管理的重要性。
2018年3月,银监会出台银行业金融机构数据治理指引,要求银行金融机构建立自上而下、协调一致的数据治理体系。
政府和企业的数据资产管理也正在从理论走向实践,为大数据应用打下坚实的基础。
为应对大数据发展带来的各种问题和需求,各国政府在立法方面也动作频频,在政府数据开放、个人信息保护和数据跨境流动方面都有了一些进展。
无论是政策还是立法,都旨在实现数据价值的安全释放,提升数据管理的科学化水平。
2、大数据政策环境2014年,大数据首次写入政府工作报告,而这一年也成为实际意义上的“中国大数据政策元年”。
从这一年起,“大数据”逐渐成为各级政府关注的热点,政府数据开放共享、数据流通与交易、利用大数据保障和改善民生等概念逐渐深入人心。
2015年8月31日,国务院正式印发了促进大数据发展的行动纲要(以下简称“行动纲要”),成为我国发展大数据产业的战略性指导文件。
行动纲要作为我国推进大数据发展的战略性、指导性文件,充分体现了国家层面对大数据发展的顶层设计和统筹布局,为我国大数据应用、产业和技术的发展提供了行动指南。
2016年,中华人民共和国国民经济和社会发展第十三个五年规划纲要(以下简称“十三五规划纲要”)正式公布。
“十三五规划纲要”的第二十七章题目为“实施国家大数据战略”。
这也是“国家大数据战略”首次被公开提出。
十三五规划纲要对“国家大数据战略”的阐释,成为各级政府在制订大数据发展规划和配套措施时的重要指导,对我国大数据的发展具有深远意义。
2016年底,工业和信息化部正式发布大数据产业发展规划(2016-2020年)。
大数据产业发展规划以大数据产业发展中的关键问题为出发点和落脚点,明确了“十三五”时期大数据产业发展的指导思想、发展目标、重点任务、重点工程及保障措施等内容,成为大数据产业发展的行动纲领。
农业林业、环境保护、国土资源、水利、交通运输、医疗健康、能源等主管部门纷纷出台了各自行业的大数据相关发展规划,大数据的政策布局逐渐得以完善。
在党的十九大报告“贯彻新发展理念,建设现代化经济体系”一章中,专门提到“推动互联网、大数据、人工智能和实体经济深度融合”,高屋建瓴地指出了我国大数据发展重点方向。
2017年12月8日,十九届中共中央政治局就实施国家大数据战略进行了集体学习,深刻分析了我国大数据发展的现状和趋势,对我国实施国家大数据战略提出了五个方面的要求。
在2019年10月召开的十九届四中全会上,提出要“建立健全运用互联网、大数据、人工智能等技术手段进行行政管理的制度规则”,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。
”这意味着互联网、大数据、人工智能等新一代信息技术,将成为国家治理体系和治理能力现代化的核心推动力,而技术赋也将助推把制度优势转变为治理效能。
3、大数据关键技术如今,大数据技术体系纷繁复杂,但其中有诸多技术格外受到关注。
随着社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统和分析技术开始不断发展。
从2005年Hadoop的诞生开始,形成了数据分析技术体系这一热点。
伴随着数据量的急剧增长和核心系统对吞吐量以及时效性的要求提升,传统数据库需要向分布式转型,形成了事务处理技术体系这一热点。
然而,时代的发展使得单个组织、甚至单个行业的数据都难以满足要求,数据融合的价值更加显现,形成了数据流通技术体系这一热点。
1)数据分析技术从数据在信息系统中的生命周期看,数据分析技术生态主要有5个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。
在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。
在存储层,HDFS已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图这四类NoSQL数据库体系,Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。
计算处理引擎方面,Spark已经取代MapReduce成为了大数据平台统一的计算平台,在实时计算领域Flink是SparkStreaming强力的竞争者。
在数据查询和分析领域形成了丰富的SQLonHadoop的解决方案,Hive、HAWQ、Impala、Presto、SparkSQL等技术与传统的大规模并行处理(massivelyparallelprocessor,MPP)数据库竞争激烈,Hive还是这个领域当之无愧的王者。
在数据可视化领域,敏捷商业智能(businessintelligence,BI)分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。
相比传统的数据库和MPP数据库,Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持,但失去了传统数据库对数据精细化的操作,包括压缩、索引、数据的分配裁剪以及对SQL的支持度。
经过10多年的发展,数据分析的技术体系渐渐在完善自己的不足,也融合了很多传统数据库和MPP数据库的优点,从技术的演进来看,大数据技术正在发生以下变化:
(1)更快Spark已经替代MapReduce成为了大数据生态的计算框架,以内存计算带来计算性能的大幅提高,尤其是Spark2.0增加了更多了优化器,计算性能进一步增强。
(2)流处理的加强Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图处理等多种能力,但其本质还是小批的架构,在流处理要求越来越高的现在,SparkStreaming受到Flink激烈的竞争。
(3)硬件的变化和硬件能力的充分挖掘大数据技术体系本质是数据管理系统的一种,受到底层硬件和上层应用的影响。
当前硬件的芯片的发展从CPU的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。
而存储中大量使用SSD来代替SATA盘,NVRAM有可能替换DRAM成为主存。
大数据技术势必需要拥抱这些变化,充分兼容和利用这些硬件的特性。
(4)SQL的支持从Hive诞生起,Hadoop生态就在积极向SQL靠拢,主要从兼容标准SQL语法和性能等角度来不断优化,层出不穷的SQLonHadoop技术参考了很多传统数据库的技术。
而Greenplum等MPP数据库技术本身从数据库继承而来,在支持SQL和数据精细化操作方面有很大的优势。
(5)深度学习的支持深度学习框架出现后,和大数据的计算平台形成了新的竞争局面,以Spark为首的计算平台开始积极探索如何支持深度学习能力,TensorFlowonSpark等解决方案的出现实现了TensorFlow与Spark的无缝连接,更好地解决了两者数据传递的问题。
2)事务处理技术随着移动互联网的快速发展,智能终端数量呈现爆炸式增长,银行和支付机构传统的柜台式交易模式逐渐被终端直接交易模式替代。
以金融场景为例,移动支付以及普惠金融的快速发展,为银行业、支付机构和金融监管机构带来了海量高频的线上小额资金支付行为,生产业务系统面临大规模并发事务处理要求的挑战。
传统事务技术模式以集中式数据库的单点架构为主,通过提高单机的性能上限适应业务的扩展。
而随着摩尔定律的失效(底层硬件的变化),单机性能扩展的模式走到了尽头,而数据交易规模的急速增长(上层应用的变化)要求数据库系统具备大规模并发事务处理的能力。
大数据分析系统经过10多年的实践,积累了丰富的分布式架构的经验,Paxos、Raft等一致性协议的诞生为事务系统的分布式铺平了道路。
新一代分布式数据库技术在这些因素的推动下应运而生经过多年发展,当前分布式事务架构正处在快速演进的阶段,综合学术界以及产业界工作成果,目前主要分为三类:
(1)基于原有单机事务处理关系数据库的分布式架构改造:
利用原有单机事务处理数据库的成熟度优势,通过在独立应用层面建立起数据分片和数据路由的规则,建立起一套复合型的分布式事务处理数据库的架构。
(2)基于新的分布式事务数据库的工程设计思路的突破。
通过全新设计关系数据库的核心存储和计算层,将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中,提供对业务透明和非侵入式的数据管理和操作/处理能力。
(3)基于新的分布式关系数据模型理论的突破。
通过设计全新的分布式关系数据管理模型,从数据组织和管理的最核心理论层面,构造出完全不同于传统单机事务数据库的架构,从数据库的数据模型的根源上解决分布式关系数据库的架构。
分布式事务数据库进入到各行各业面临诸多挑战,其一是多种技术路线,目前没有统一的定义和认识;其二是除了互联网公司有大规模使用外,其他行业的实践刚刚开始,需求较为模糊,采购、使用、运维的过程缺少可供参考的经验,需要较长时间的摸索;其三缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品,规范市场,促进产品的进步。
故应用上述技术进行交易类业务进行服务时,应充分考虑“可持续发展”、“透明开放”、“代价可控”三原则,遵循“知识传递先行”、“测试评估体系建立”、“实施阶段规划”三步骤,并认识到“应用过度适配和改造”、“可用性管理策略不更新”、“外围设施不匹配”三个误区。
大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局以及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。
3)数据流通技术数据流通是释放数据价值的关键环节。
然而,数据流通也伴随着权属、质量、合规性、安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。
为了解决这些问题,大数据从业者从诸多方面进行了探索。
目前来看,从技术角度的探索是卓有成效和富有潜力的。
从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。
然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。
数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。
安全多方计算和区块链是近年来常用的两种技术框架。
由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作,也是可以接受的。
安全多方计算这个技术框架就实现了这一点。
其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分的、定制化的提供安全性服务,使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。
区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。
业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 发展 概述 关键技术