大数据分析与决策(2016-1).ppt
- 文档编号:464283
- 上传时间:2022-10-10
- 格式:PPT
- 页数:57
- 大小:7.10MB
大数据分析与决策(2016-1).ppt
《大数据分析与决策(2016-1).ppt》由会员分享,可在线阅读,更多相关《大数据分析与决策(2016-1).ppt(57页珍藏版)》请在冰豆网上搜索。
大数据分析与决策,姜昱汐(大连交通大学经济管理学院经济学教研室),一、大数据的相关概念二、大数据分析三、大数据应用的典型案例四、大数据的可靠性五、大数据与贝叶斯方法,报告内容,2022/10/10,2,数据管理技术发展历史,数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段,-3-,1946,1951,1956,1961,1970,1974,1979,1991,2001,2003,2008,2011,第一台计算机ENIAC面世,磁带+卡片人工管理,磁盘被发明,进入文件管理时代,SQL,E-R,GE公司发明第一个网络模型数据库,但仅限于GE自己的主机,1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导,IBME.F.Dodd提出关系模型,SQL语言被发明,关系型数据库,ORACLE发布第一个商用SQL关系数据库,后续快速发展,数据仓库,数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期,2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求,1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分,Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算,GFS,谷歌发表论文介绍分布式计算,大数据发展背景,全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2.88万小时视频上传到YoutubeFacebook每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直倡导的云计算外,还抛出大数据(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布大数据相关研究报告,予以积极跟进2011年10月,Gartner认为2012年十大战略技术将包括大数据2011年11月底,IDC(互联网数据中心)将大数据放入2012年信息通信产业十大预测之一,-4-,IDC全球数据量预测(1ZB=1百万PB=10亿TB),Google网站Bigdata关键词搜索及新闻引用量,大数据的定义理解,大数据的“4V”特征,大数据的产生、增长,2022/10/10,5,“大数据”是如何产生的?
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。
互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。
它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。
信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。
如今,这个概念几乎应用到了所有人类智力与发展的领域中。
2022/10/10,6,大数据时代的爆炸增长,想驾驭这庞大的数据,我们必须了解大数据的特征。
地球上至今总共的数据量:
在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。
而有市场研究机构预测:
到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!
1GB=230字节1TB=240字节1PB=250字节1EB=260字节1ZB=270字节,2022/10/10,7,大数据的4V特征,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
2022/10/10,8,数据体量巨大(Volume):
百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。
有资料证明,到目前为止,人类生产的所有印刷材料的数据仅为200PB(不能在单个计算机上集中存储,一般需要用到分布式/云计算模式等)。
数据类型多样化:
现在的数据不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多种类型的数据,个性化、非结构化数据占据较大比例。
大数据的4V特征,处理速度快数据处理遵循“1秒定律”,可从各种类型的数据中快速获取高价值的信息,价值密度低:
以视频为例,几小时的视频,在不间断的监控过程中,有用的数据可能仅仅几秒。
单个数据可能价值不大,但是数据整体还是有高价值的(比如一个班级大家发的微博可能没有特别大的意义,但是全国高校大学生发的微博就可以反映当代大学生思想理念),2022/10/10,9,大数据的构成,大数据=海量数据+复杂类型的数据,海量交易数据:
企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。
通过这些数据,我们能了解过去发生了什么。
大数据包括:
交易数据和交互数据集在内的所有数据集,海量交互数据:
源于Facebook、Twitter、微博、微信及其他来源的社交媒体数据构成。
它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。
可以告诉我们未来会发生什么。
海量数据处理:
大数据的涌现已经催生出了设计用于数据密集型处理的架构。
例如具有开放源码、在商品硬件群中运行的ApacheHadoop。
2022/10/10,10,2022/10/10,11,大数据的市场潜力,利用GPS数据了解交通状况,2012年3月29日奥巴马政府公布了”大数据研发计划”。
该计划的目标是改进现有人们从海量和复杂的数据中获取知识的能力,从而加速美国在科学与工程领域发明的步伐,增强国家安全,转变现有的教学和学习方式。
“大数据战略”上升为美国最高国策对数据占有和控制,做为在陆权、海权、空权之外的另一种国家核心能力。
大数据的浪潮,大数据与乔布斯的癌症治疗,沃尔玛的啤酒与纸尿布,沃尔玛蛋挞与飓风用品的关系,谷歌流感预测,中国大数据市场分析,13,1,2011年-2016年中国大数据市场规模,2,2012年各行业大数据市场规模,计世资讯预测,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。
由于各个行业都存在大数据应用需求,潜在市场空间非常可观。
计世资讯认为,2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。
2012年-2016年,将迎来大数据市场的飞速发展。
计世资讯预测,2012年中国大数据市场规模将达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。
大数据的商业价值,一、大数据的相关概念二、大数据分析三、大数据应用的典型案例三、大数据的可靠性四、大数据与贝叶斯方法,报告内容,2022/10/10,15,分析技术:
数据处理:
自然语言处理技术统计和分析:
A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:
关联规则分析;分类;聚类模型预测:
预测模型;机器学习;建模仿真大数据技术:
数据采集:
ETL工具数据存取:
关系数据库;NoSQL;SQL等基础架构支持:
云存储;分布式文件系统等计算结果展现:
云计算;标签云;关系图等,相关技术,存储结构化数据海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,解决方案:
Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!
的S4),2022/10/10,16,二、大数据分析,二、大数据分析,AnalyticVisualizations(可视化分析)DataMiningAlgorithms(数据挖掘算法)PredictiveAnalyticCapabilities(预测性分析能力)SemanticEngines(语义引擎)DataQualityandMasterDataManagement(数据质量和数据管理),二、大数据分析-可视化分析,AnalyticVisualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。
可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
二、大数据分析-数据挖掘算法,DataMiningAlgorithms(数据挖掘算法)可视化是给人看的,数据挖掘就是给机器看的。
集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。
这些算法不仅要处理大数据的量,也要处理大数据的速度。
二、大数据分析-预测性分析能力,PredictiveAnalyticCapabilities(预测性分析能力)数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
二、大数据分析-语义引擎,SemanticEngines(语义引擎)我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。
语义引擎需要被设计成能够从“文档”中智能提取信息。
二、大数据分析-数据质量和数据管理,DataQualityandMasterDataManagement(数据质量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。
通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
一、大数据的相关概念二、大数据分析三、大数据应用的典型案例三、大数据的可靠性四、大数据与贝叶斯方法,报告内容,2022/10/10,23,三、大数据应用的典型案例-流感预测,2022/10/10,24,全球每年约10%15%的人群会患上流感,受感染人群约5000万人,死亡人数约50万。
这可不是个小数字。
如果我们能够尽早提前预测到流感即将爆发,无疑将使全球公众都将受益:
政府和医疗机构提前拿出应对措施,就能挽救大量生命。
2008年,谷歌推出了其著名的流感趋势网站(http:
/www.google.org/flutrends)。
该网站假定的前提是:
如果用户患上了流感,则他们会搜索更多同流感相关的信息。
如此一来,如果对任何一个国家或地区有关流感的搜索量进行统计,就能较好推断出某个国家或地区是否正爆发流感。
2009年,谷歌在甲型H1N1流感爆发之前,用“谷歌流感趋势”(GFT)模型成功预测了流感在美国境内的传播。
谷歌的相应数据,同美国疾病控制与预防中心(CDC)等政府机构所统计的数据非常接近(97%)。
在某些情况下,谷歌甚至能够比CDC提前一周预测出哪些地区将爆发流感。
2022/10/10,25,全球每星期会有数以百万计的用户在网上搜索健康信息。
正如您所预料的那样,在流感季节,与流感有关的搜索会明显增多;到了过敏季节,与过敏有关的搜索会显著上升;而到了夏季,与晒伤有关的搜索又会大幅增加。
某些搜索字词非常有助于了解流感疫情。
Google流感趋势会根据汇总的Google搜索数据,近乎实时地对全球当前的流感疫情进行估测。
搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。
当然,并非每个搜索“流感”的人都真的患有流感,但将与流感有关的搜索查询汇总到一起时,便可以找到一种模式。
将统计的查询数量与传统流感监测系统的数据进行了对比,结果发现许多搜索查询在流感季节确实会明显增多。
通过对这
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 决策 2016