大数据技术与产业发展.pptx
- 文档编号:30789561
- 上传时间:2023-10-01
- 格式:PPTX
- 页数:43
- 大小:12.31MB
大数据技术与产业发展.pptx
《大数据技术与产业发展.pptx》由会员分享,可在线阅读,更多相关《大数据技术与产业发展.pptx(43页珍藏版)》请在冰豆网上搜索。
大数据技术与产业发展,汪东升清华大学,引言,早在20世纪,瑞士心理学家荣格就发现了易经筮法中蕴涵的一种不同于因果原理的普遍联系法则,这同大数据技术的复杂相关性有着相似的地方。
2012年3月,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,并且定义为“未来的新石油”,希望增强政府收集、分析和萃取海量数据的能力。
2,大数据挖掘与利用,尿布&啤酒沃尔玛在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。
产生这一现象的原因是:
美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
智能交通-交通蝴蝶效应英国布里斯托尔大学埃迪威尔逊博士的一项研究结果显示,适当条件下,一名司机急刹车或超车可能引发一场“交通海啸”,受影响路段长达80公里。
GOOGLE提前一个月预测电影上映首周的票房收入,准确度高达94%根据麦肯锡的估计,如果零售商能够充分发挥大数据的优势,其营运利润率就会有年均60%的增长空间,生产效率将会实现年均0.5%1%的增长幅度。
3,关于大数据,4,没有标准的定义“BigData”isdatawhosescale,diversity,andcomplexityrequirenewarchitecture,techniques,algorithms,andanalyticstomanageitandextractvalueandhiddenknowledgefromit,计算模型发展,以人为本!
6,技術演進歷史揭示未來是大数据驅動的智慧型經濟模式,大数据的特点,8,大数据的3V特性之于存储Volume-经济存储Velocity-层次存储Variety-策略存储,BigData:
3Vs,9,4V特性,10,Sina的抑郁症研究,11,存在抑郁倾向的微博用户与普通用户发博时间有明显差异,这部分人群发博高峰在23点,其夜间活跃度比普通用户平均约高出30%。
该群体微博关键词为:
死、抑郁症、生命、痛苦、自杀。
有60%为女性,40%为男性,女性比例比男性略高,大数据之于色情业,12,陈坤VS黄晓明:
用大数据解读大明星,13,知其然而不知其所以然,BigData:
ARevolutionThatWillTransformHowWeLive,Work,andThink关注“是什么(关联)”,而不是“为什么(因果)”“龙王”萧劲腾,83.3%2012年7月21日,北京演唱会8月8日,上海演唱会50年最大台风10月31日,纽约,飓风“桑迪”11月5日,天津演唱会雨太大延期,14,科学研究的第四范式,科学实验理论科学(开普勒定律牛顿定律)计算科学大数据完整的科学研究周期数据采集数据整理数据分析和数据可视化。
15,16,数据处理的变迁,OLTP:
OnlineTransactionProcessing(DBMSs)OLAP:
OnlineAnalyticalProcessing(DataWarehousing)RTAP:
Real-TimeAnalyticsProcessing(BigDataArchitecture&technology),17,大数据的源头,Socialmediaandnetworks(allofusaregeneratingdata),Scientificinstruments(collectingallsortsofdata),Mobiledevices(trackingallobjectsallthetime),Sensortechnologyandnetworks(measuringallkindsofdata),TheprogressandinnovationisnolongerhinderedbytheabilitytocollectdataBut,bytheabilitytomanage,analyze,summarize,visualize,anddiscoverknowledgefromthecollecteddatainatimelymannerandinascalablefashion,18,生产/消费数据模型发生了变化,OldModel:
Fewcompaniesaregeneratingdata,allothersareconsumingdata,19,IDC公司发布的数字宇宙研究报告称:
全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021)。
IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。
预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。
数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。
20,超越BI,-Ad-hocqueryingandreporting-Dataminingtechniques-Structureddata,typicalsources-Smalltomid-sizedatasets,-Optimizationsandpredictiveanalytics-Complexstatisticalanalysis-Alltypesofdata,andmanysources-Verylargedatasets-Moreofareal-time,21,大数据分析的价值,Bigdataismorereal-timeinnaturethantraditionalDWapplicationsTraditionalDWarchitectures(e.g.Exadata,Teradata)arenotwell-suitedforbigdataappsSharednothing,massivelyparallelprocessing,scaleoutarchitecturesarewell-suitedforbigdataapps,22,大数据的挑战,TheBottleneckisintechnologyNewarchitecture,algorithms,techniquesareneededAlsointechnicalskillsExpertsinusingthenewtechnologyanddealingwithbigdata,23,利用用户”行为指纹”创造新商机,用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。
互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。
这是传统企业花费重金都难以企及的梦想。
所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。
大数据的构成,大数据=海量数据+复杂类型的数据,海量交易数据:
企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。
通过这些数据,我们能了解过去发生了什么。
大数据包括:
交易数据和交互数据集在内的所有数据集,海量交互数据:
源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。
它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。
可以预测未来。
海量数据处理:
大数据的涌现已经催生出了设计用于数据密集型处理的架构。
例如具有开放源码、在商品硬件群中运行的ApacheHadoop。
26,27,Gartner2013年技术成熟度曲线,28,BD,2013年技术成熟度曲线解读,大数据正在由过热期转向低谷期物联网将成为新的热点话题云计算、内存分析和企业3D打印日益成熟,29,Gartner总结2014年十大科技趋势-,第一、移动设备的多样性和管理Gartner暗示从现在起直到2018年,自发形成的“自带设备”办公(BYOD)引发种类繁多的移动设备层出不穷,不同的用户环境和交互模式将导致“任一设备、任一地点”的战略无法实现。
引发的新问题便是企业如何针对自带设备制定新的政策,以便平衡好灵活性与保密和隐私需求。
第二、移动应用和应用程序第三、万物互联(InternetofEverything)互联网的四个基本应用模型分别为管理、货币化、操作和扩展。
这些模型可以应用于任何人、物、信息和场所,因此,“物联网”终将会被“万物互联”所取代。
第四、混合云和IT成为服务经纪人Gartner暗示个人云和外部私有云服务整合势在必行。
第五、云/客户端架构第六、个人云时代个人云技术的发展将导致设备向服务转移。
在此情况下,设备的特性将不再重要,个人云数据可以在多种设备上访问,并将会取代传统设备所具有的部分功能。
第七、软件定义一切第八、Web-scaleIT。
第九、智能机器第十、3D打印,30,Gartner发布2014年及未来十大预测,数字产业革命数字业务到2020年,数字化带来的劳动力缩减将导致社会不稳定,数个成熟经济体也将需要新经济模型。
短期关注点:
到2014年底,将会出现更大规模的“占领华尔街”型的运动,意味着社会动荡将开始推动政治讨论。
到2017年,80%的消费者将收集、追踪和交易其个人信息,以实现成本节约、方便以及定制化。
短期关注点:
到2014年,基于Kickstarter的个人数据的拍卖数量将以三位数增长。
到2020年,企业和政府将无法保护75%的敏感数据,并会取消保密等级,允许大范围人群/公众访问。
短期关注点:
到2015年,至少会出现一个斯诺登或维基泄密事件,意味着企业和政府对于他们不能保护所有敏感信息这一事实的情况呈上升趋势。
企业和政府存储和使用的数据量在大规模地增加,要保护所有这些数据是不现实的。
相比较承担保护所有数据这一无底的任务,企业和政府会更专注于保护其中一小部分,并且要保护得很好。
智能机器物联网在当代社会,物联网结合了机器、人类和商业之间的互联。
让“参与”这个词成为真正有价值的资产。
2020年,从可穿戴设备获取的消费者数据将推动来自全球1000强的5%的销售。
短期关注点:
到到2015年,分享消费者数据的智能手机应用数量将增长两倍,意味着想要获取消费者个人数据的营销人员或所有者的数目在增加。
五年内,消费者可穿戴产品将变得更加先进,他们可以捕捉用户所见,甚至通过生物响应进行倾听或感知。
31,智慧城市,保增长,智慧电网,智能交通,智慧金融,智慧通讯,食品安全,医疗保障,水源水质,智能楼宇,公共安全,工作就业,政府服务,指挥中心,保民生,保稳定,-IBM,33,云计算-物联网-大数据,“云”、“物”的核心是“大数据”云计算计算/业务模式物联网应用模式大数据财富、资产隐性货币,34,35,36,分析技术:
数据处理:
自然语言处理技术统计和分析:
A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:
关联规则分析;分类;聚类模型预测:
预测模型;机器学习;建模仿真大数据技术:
数据采集:
ETL工具数据存取:
关系数据库;NoSQL;SQL等基础架构支持:
云存储;分布式文件系统等计算结果展现:
云计算;标签云;关系图等,一些相关技术,存储结构化数据:
海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,解决方案:
Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!
的S4),大数据大机会大挑战,Bigdata,biganalysisGreatchallenges,mostopportunitiesBigstore,parallelcomputingSafetyismoreimportant,38,大数据带来的问题,核心技术人才数据科学家工程师统计学人才(小样本概率统计)数据挖掘人才(多变量统计)信息资源保护意识的缺失造成的极大安全隐患国家安全大数据利用的不开放性会带来新的垄断和社会资源浪费数据共享大数据对思维方式、商业模式、个人的影响大数据时代的个人隐私,39,4V的再次解读,Volume-数据的高效管理存储&压缩Velocity-1s界限数据的高效组织管理Variety多样性组合运用结构化和非结构化数据来寻找问题的答案,是成功进行预测分析的基础。
但只有利用全部可用数据构建一幅完整的图景,才有可能做出精确预测Varacity诚信大数据时代成立的基本假定是“基本数据是准确、可靠、值得信赖的,来龙去脉清楚,并且具有一致性,40,建议和意见,自然科学研究、环境保护、生物医药研究、教育以及国家安全等领域才是大数据技术突破的重点建立数据生态系统政府-引领者和催化剂科研院所-机构-企业-政府制定法律法规建立开放数据共享平台(组织)-数据慈善事业商业模式-鼓励企业为社会效益而分享和使用数据(搜索社会网络免费行为指纹价值)鼓励发展技术基础设施和训练个人分析大数据的能力公共数据:
人口普查医疗卫生记录税收支出设施数据由公共部门保护的的敏感群众的不记名数据众包数据开放数据共享平台隐私标准和安全个性化数据数据共享激励机制退出人力资本,41,引用专家的话,从国家高度重视未来大数据的作用,尽早制定国家大数据研究与产业发展规划。
充分考虑统筹物联网、云计算以及智慧城市建设的发展趋势,加强顶层设计,统筹相关政策。
明确大数据产业发展方向。
在扶持大数据在电商企业应用的同时,更要大力支持大数据在基础科学研究、国防以及若干关键领域的应用研究,通过加大大数据的应用提高各行各业的能力和水平。
加强大数据的关键技术研究,确保我国未来在该领域的控制能力,逐步摆脱我国长期以来在信息化建设的各个方面都受制于人的被动局面。
尤其要密切关注国内大数据产业的市场动态,分析未来发展趋势,加强应对措施。
着力培育国内IT企业的大数据产业发展环境,从政府采购、财税金融以及人才开发等方面制定积极的促进措施,支持国内IT企业在大数据领域的研究开发与投资建设的积极性和主动性。
42,谢谢(本ppt部分数据和图片选自网络),43,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 产业 发展