2018-2019年大数据行业分析报告Word文档下载推荐.docx
- 文档编号:12970139
- 上传时间:2022-10-01
- 格式:DOCX
- 页数:24
- 大小:296.81KB
2018-2019年大数据行业分析报告Word文档下载推荐.docx
《2018-2019年大数据行业分析报告Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《2018-2019年大数据行业分析报告Word文档下载推荐.docx(24页珍藏版)》请在冰豆网上搜索。
2、重点企业 14
3、国内运营商分析 19
四、存在问题及对策分析 20
1、数据量的成倍增长挑战数据存储能力 20
2、数据类型的多样性挑战数据挖掘能力 20
3、对大数据的处理速度挑战数据处理的时效性 20
4、数据跨越组织边界传播挑战信息安全 20
5、大数据时代的到来挑战人才资源 21
五、大数据方面的相关政策和法规 21
1、数据生产的相关政策和法规 21
2、数据共享的相关政策与法规 22
3、隐私保护的相关政策和法规 22
一、大数据概述
1、大数据简介
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。
大量新数据源的出现导致了非结构化、半结构化数据爆发式的增长。
这些数据已经远远超越了目前人力所能处理的范畴,如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
2、大数据特征
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到收集、管理、处理、并整理成为帮助企业经营决策目的的咨询。
大数据不单单是指数量的量大,而且包括了以下的四个方面:
首先,数据的体量(volumes)大,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),和我们所熟知的G相比,体量不可谓不大。
其次,是数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
再次,是数据处理速度(velocity)快,在数据体量庞大的情况下,也能够做到数据的实时处理。
最后,是指数据的真实性(veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,
9
信息的真实性和安全性显得极其重要。
3、大数据的技术
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。
主要可分为:
数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等8种技术。
同时,由这几种技术形成了批处理、流处理和交互分析三种计算模式。
4、大数据的应用
大数据的应用范围非常广。
有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。
在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失。
在商业上,国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。
在政府决策上,分析几十年来的天气数据,将各地降雨、气温、土壤状况和历年农作物产量做成精密图表,就可以预测农产品生产趋势,政府的激励措施、作物存储量和农业服务也可以随之确定。
5、大数据处理方法
大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
(1)、采集。
大数据的采集是指利用多个数据库来接收发自客户端(Web、
App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。
比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因
为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。
并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。
(2)、导入/预处理。
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。
也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
(3)、统计分析。
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的
Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)、挖掘。
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测
(Predict)的效果,从而实现一些高级别数据分析的需求。
比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
二、大数据发展现状与趋势分析
1、国外现状
大数据的快速发展,使它成为IT领域的又一大新兴产业。
据中央财经大学中国经济管理研究员估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。
全球数据量存储情况
(1)、政府积极介入推动
2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。
2012
年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。
美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。
美国在开放政府上非常积极,通过Data.gov开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。
除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41个国家相应。
美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位臵,从国家层面推进。
(2)、资本市场对大数据钟爱有加
2012年4月,大数据分析公司Splunk高调宣传大数据,引发投资者关注。
12月初,为企业市场提供Hadoop解决方案的创业公司Cloudera获得6500万美元融资,估值约为7亿美元。
近期,高盛联席主席斯科特.斯坦福说:
“投资大数据及其运用回报率最高”。
大数据领域的企业并购热度也在上升,单笔平均并购金额方面,大数据超过云计算位居IT领域榜首,在总并购额上也位居第二。
(3)、人才需求巨大
盖特纳咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非
IT岗位。
麦肯锡公司预测美国到2018年需要深度数据分析人才44万-49万,缺口14万-19万人;
需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。
2、国内现状
目前,大数据在国内还处于初步阶段,尽管起步较晚,但发展迅速。
2011
年作为大数据在国内的元年,规模还只有2.6亿元,而到2013年就已达到11.2
亿元,预计未来几年大数据市场将迎来高速增长期,有望突破40亿元。
2011年-2016年国内大数据市场规模
2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。
其中工信部发布的《物联网“十二五”发展规划》,把信息处理技术作为四项关键技术创新工程之一被提出来,其中包括海量数据存储、数据挖掘、
图像视频智能分析,这都是大数据的重要组成部分。
而另外三项关键技术创新工程,包括信息感知技术、信息传输技术和信息安全技术,也都与“大数据”密切相关。
应用方面,中国三大通信运营商都在结合自身业务情况,积极推进大数据应用工作,并取得了较好的进展。
电子商务企业阿里巴巴提出要做中国数据分析第一平台,通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。
据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。
企业方面,我国能够处理大数据的企业并不是很多,这主要是因为国内企业在数据库、数据仓库和商业智能等领域基础比较薄弱。
但作为国内走在大数据行业前列的一些企业,技术水平也能达到较高水平,比如永洪科技在大数据、分布式计算、数据分析等领域具备核心竞争力、自主创新并拥有多项发明专利。
推出的Z系列产品在大数据的应用分析中在国际上也是领先的。
另外,还有其他的一些“大数据”相关的上市公司:
数据处理、分析环节、综合处理:
拓尔思、美亚柏科;
语音识别:
科大讯飞;
视频识别:
海康威视、大华股份、华平股份、中威电子、国腾电子;
商业智能软件:
久其软件、用友软件;
数据中心建设与维护:
天玑科技、银信科技、荣之联;
IT咨询、方案实施:
汉得信息;
信息安全:
卫士通、启明星辰。
数据处理、分析环节、综合处理:
拓尔思、美亚柏科
大数据的热潮也触发了一场思想启蒙运动,使得“大数据是资产,不是包袱”、
“要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累,不相信数据分析等认识。
有了这种思维模式的改变,大数据的应用就有了希望。
3、发展趋势分析
据统计2011年全球被创建和被复制的数据总量达1.8ZB;
预计2020年全球电子设备存储的数据将增至35.2ZB。
人类社会继蒸汽时代、电气时代和网络时
代后,正在加速跨进大数据时代。
大数据的发展阶段及预测
(1)、开源软件和产业垂直整合
大数据时代开源技术的发展已经可以和商用软件分庭抗礼,传统的操作系统、中间体、数据库等平台级软件的同质化趋势已经渐趋明显。
最终用户的关注焦点集中如何解决企业的业务问题,而不是购买谁的数据库或者操作系统。
因此,越靠近最终用户的企业,将在产业链中拥有越大的发言权。
开源软件加剧了基础软件的同质化趋势,而软、硬件一体化的趋势,进一步弱化了产业链上游的发言权。
垂直整合推动大数据产业集约化的发展道路,从而最大限度的获得商业利润。
(2)、非结构化大数据处理分析成为难点和重点
随着互联网和通信技术的迅猛发展,数据类型早已不是单一的结构化数据,还充斥着广泛存在于社交网络、物联网、电子商务等之中网络日志、音频、视频、图片、地理位臵信息等等多类型的数据。
这些数据被命名为非结构化数据。
据统计,85%的数据都属于非结构化数据。
这些非结构化数据的产生往往伴随着社交网络、移动计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2018 2019 数据 行业 分析 报告