走进大数据时代.pptx
- 文档编号:27743
- 上传时间:2022-10-01
- 格式:PPTX
- 页数:65
- 大小:4.67MB
走进大数据时代.pptx
《走进大数据时代.pptx》由会员分享,可在线阅读,更多相关《走进大数据时代.pptx(65页珍藏版)》请在冰豆网上搜索。
规划设计部2015年5月,走进大数据时代,目录:
大数据时代的思维变革思维变革商业变革管理变革大数据时代的技术变革中国移动的大数据时代,1.1大数据时代的思维变革,莫里的导航图大数据的最早实践之一马修方丹莫里(MatthewFontaineMaury)美国海军军官、水文学家、海洋学创始人之一。
1842年在美国海军天文台和水道测量处任职,主管海图及仪器库。
当时海军依赖于陈旧的图表,其中大部分还有重大的错误,而潮汐、风和洋流的经验知识是无法从书籍和地图中学到的。
他清点库房时发现,库房里存放着许多航海书籍、地图和图表;还有塞满了旧日志的发霉木箱,这些都是以前的海军舰长写的航海日志。
这里有他所需要的信息,例如对特定日期、特定地点的风、水和天气情况的记录。
大部分信息都非常有价值,莫里意识到,如果把它们整理到一起,将有可能呈现出一张全新的航海图。
莫里和他的20个助手把这些破损的航海日志里记录的信息绘制成了表格,把整个大西洋按经纬度划分成了五块,并按月份标出了温度、风速和风向。
整合之后,莫里知道了一些良好的天然航线,这些航线上的风向和洋流都非常利于航行。
他所绘制的图表帮助商人们节省了一大笔钱,因为航海路程减少了三分之一左右。
1855年他已经绘制了120万数据点,在这些图表的帮助下,年轻的海员们不用再亲自去探索和总结经验,而能够通过这些图表立即得到来自成千上万名经验丰富的航海家的指导。
他的工作为敷设横越大西洋的海底电缆创造了条件。
所以无论在海面上或在海底下,莫里都可被认为是海洋学的奠基人。
即使到今天,美国海军颁布的导航图上仍然有他的名字。
1.1大数据时代的思维变革,样本总体大数据中的“大”不是绝对意义上的大,大数据是指不用随机分析方法这样的捷径,而采用所有数据的方法。
因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上,所以我们就可以正确的考察细节并进行新的分析。
在任何细微的层面,我们都可以用大数据去论证新的假设。
,,因果关系相关关系相关关系强是指当一个数据值变化时,另一个数据值很有可能也会随之变化。
相关关系通过识别有用的关联物来帮助我们分析一个现象和预测未来,而不是通过揭示其内部的运作机制。
客户之间的相似性产品之间的关联性1998年协同过滤技术,所有DNA和肿瘤DNA排序30亿个碱基对,精确无需精确对于“小数据”而言,最基本、最重要的要求就是减少错误,因为收集信息量的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
但是即使只是少量的数据,这些规避错误的策略实施起来也是耗费巨大。
大数据不要求数据全部精确,因为数量的巨大可以弥补精确性的不足。
1个温度测量仪100个温度测量仪,1.1大数据时代的思维变革,预测一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。
现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被用来记录散发的热量、振幅、承压和发出的声音等。
通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。
早产儿的病情诊断收集和分析数据的花费比出现问题的损失小得多。
预测性分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题,直观、高效。
安大略理工大学一支研究队伍与IBM一起和很多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产儿的病情诊断。
系统会监控16个不同地方的数据,比如心率、呼吸、体温、血压和血氧含量,这些数据可以达到每秒钟1260个数据点之多。
在明显感染症状出现的24小时之前,系统就能监测到早产儿细微的身体变化发出的感染信号。
1.2大数据时代的商业变革,这些数据被用来翻译、查重,甚至可以通过一个词或词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。
一切皆可量化当文字变成数据,当方位变成数据格网线,公元前200年公元1400年1884年,经纬度比例尺,本初子午线零度经纬线,20世纪40年代,墨卡托方位法,1978年现在,GPS,对电塔、无线路由器的信号强度三角测量来定位,总部位于亚特兰大的AirSageInc.公司每天通过处理来自上百万手机用户的150亿条位置信息,为超过100个美国城市提供实时交通信息。
还可以揭示城市夜生活最繁荣的地方或者有幸队伍聚集了多少人。
当沟通变成数据Facebook通过“社交图谱”将社交关系数据化,一些消费者信贷领域的公司考虑开发以此为依据的信用评分,因为研究显示个人会偿还债务的可能性和其朋友会偿还债务的可能性呈正相关。
Twitter让人们能轻易记录以及分享他们零散的想法,从而使情绪数据化。
它与两家公司合作对微博做了句法分析,还有情感分析技术,以获得顾客反馈意见的汇总或对营销活动的效果进行判断。
自动翻页的扫描仪识别数字图像的光学字符识别软件,谷歌,1.2大数据时代的商业变革,数据潜在价值1、数据再利用数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的,当然如果以某种方式收集的单一数据集有多种不同的用途,它就具有双重功能。
2、数据重组处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。
用新的方式混合这些数据,我们可以做出很有创意的东西来。
3、数据有效性随着时间推移,有些数据会失去部分用途,继续使用旧数据,不仅不能增加价值,反而会破坏新数据的价值。
但是并非所有数据都会贬值,例如地域、宗教等固有的数据还是可以保存尽可能长的时间4、数据废气网络公司可以捕捉到用户在其网站上做的所有事情,然后将每个离散交互当作一个“信号”,作为网站个性化、提高服务或创建全新数字化产品的反馈。
数据废气可以成为巨大的竞争优势。
5、数据开放政府是大规模信息的原始采集者,并且可以强迫人们提供信息而不必加以说服或者支付报酬,但往往利用率很低。
于是“开放政府数据”的倡议响彻全球,奥巴马就职第一天就明了美国联邦机构公布尽可能多的数据,英国政府也已经颁布相关规定鼓励信息公开,欧盟、澳大利亚、巴西、智利也相继出台并实施了开放数据策略。
1.2大数据时代的商业变革,大数据价值链,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。
推荐,先驱者的优势会逐渐减弱,越来越多的人掌握技能加上外包公司使得编程技术越来越廉价,思维,谁在这个大数据价值链中获益最大呢?
数据才是真正的财富数据技术随着大数据时代的,数据中间商从各种地方搜集数据进行整合,然后提取有用的信息进行利用。
而数据拥有者不介意行业外的中间商汇聚他们手里的数据,间接的实现数据共享而从分析结果中受益。
1.3大数据时代的管理变革,大数据的风险而大数据的价值潜力极大地激励着他们进一步采集、存储、循环利用我们个人数据。
随着存储成本继续暴跌而分析工具越来越先进,采集和存储数据的数量和规模也将爆发式地增长。
未知的数据用途用户规模巨大客户流失此地无银三百两小数据时代可行2006年8月,美国在线(AOL)公布了大量的旧搜索查询数据,本意是希望研究人员能够从中得出有趣的见解。
这个数据库是由从3月1日到5月31日之间的65.7万用户的2000万搜索查询记录组成的,整个数据库进行过精心的匿名化用户名称和地址等个人信息都使用特殊的数字符号进行了代替。
这样,研究人员可以把同一个人的所有搜索查询记录联系在一起来分析,而并不包含任何个人信息。
尽管如此,纽约时报还是在几天之内通过把“60岁的单身男性”、“有益健康的茶叶”、“利尔本的园丁”等搜索记录综合分析考虑后,发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁的寡妇出现这种无效性是由两个因素引起的:
一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据,1.3大数据时代的管理变革,管理规范的变革1、数据使用者承担责任未来的隐私保护法应当区分用途,对于一些危险性较大的项目,管理者必须设立规章,规定数据使用者如何评估风险、如何规避或者减轻潜在伤害,数据使用者承担法律责任。
监管机制根据数据内在风险和社会价值决定不同种类的个人数据必须删除的时间。
2、个人动因保护确保政府对我们行为的评判是基于真实行为而非单纯依靠大数据分析。
即政府只能依法对过去的真实行为进行追究,而不可以追究大数据预测到的未来行为;或者,在政府评判我们过去的行为时,也应该防止单纯依赖大数据的分析。
3、外部审计大数据预测分析基于海量数据和庞大的统计计算,难以追踪运算法则,因此大数据将需要被监测并保持透明度,于是将出现新型专业技术和机构“算法师”,计算机科学、数学和统计学领域的专家,将担任大数据分析和预测的评估专家。
他们可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型及计算结果的解读是否正确。
一旦出现争议,有权考察与分析结果相关的运算法则、统计方法及数据集。
4、反数据垄断当数据成为经济结构中“信息基础设施”的核心组成部分,为了防止其垄断,法律的支持必不可少,如反垄断法大数据的发展循序渐进,相关的管理监督策略也是逐步完善,网络安全和信息安全则是信息社会永远不变的课题。
伴随着从核技术到生物工程学其他领域的发展,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制。
在这方面,大数据也和其他领域的新技术一样,带来了无法彻底解决的问题。
外部算法师,第三方机构承担法律责任严苛的责任规范,内部算法师,自由公正职业道德,目录:
大数据时代的思维变革大数据时代的技术变革MPP数据库HADOOP特点比较中国移动的大数据时代,大数据处理技术,大数据对传统数据处理技术体系提出挑战大数据具备数据量大、数据类型多,数据处理速度要求高和价值密度低的特点,传统数据库无法支撑海量数据(如100TB以上,性能下降)、非结构化数据,现有IOE架构无法线性扩展且成本较高。
传统数据分析,主要利用统计和机器学习算法,来源单一,以内部结构化数据为主采集环节扩展到传感、互联网、交易等多来源多类型数据,主要是面向结构化数据事务处理的关系型数据库存储环节扩展到面向非结构化数据和分析梳理的关系型数据库,依赖高性能计算机、单机或并行技术计算环节需用分布式并行计算,Scaleout能力,分析环节需要发展更加智能的挖掘技术,人工智能和机器学习技术,大数据分析,NoSQL,SQL支持,新型计算框架,Hadoop,MPP数据库,Hadoop,Hadoop:
基于HDFS和Mapreduce,被,互联网厂商广泛用于非结构化数据处理和半结构化日志处理。
编程灵活,扩展性好,基于廉价硬件,MPP数据库:
基于关系代数,面向结构化数据处理设计。
近年演进方向包括:
采用MPP提高扩展性、高性能优化支持快速复杂查询、引入x86降低成本、一体机性能优化及高集成度、列存储、打通与Hadoop交互,关键技术包括:
数据分析及批处理:
Hadoop日渐成熟,广泛应用;MPP替代现有关系数据结构下的大数据分析处理;流计算等新型计算框架的引入提高实时数据流处理效率。
数据交易及查询:
分布式关系型数据库和NoSQL解决容量扩展性的同时满足事务处理的不同需求,内存数据库用于提高实时数据处理效率。
NoSQL:
抛弃了关系数据库复杂的关系操作、事务处理等功,能,仅提供简单的键值对(Key,Value)数据的存储与查询,换取高扩展性和高性能。
Cassendra,Hbase,内存计算技术:
为了提高数据分,析效率,将数据存储到内存进行数据分析spark,大数据,Hadoop,流式计算技术:
针对流式数据,分布式、低延迟、具有自身容错性的实时计算技术storm,大数据处理技术,2.1MPP数据库,无共享架构,MPPSharedNothing架构:
将任务及数据分布到集群中不同的节点上,尽量使得计算在本地完成,通过网络彼此协调计算,集群作为一个整体对外提供服务。
MPP数据库:
SharedNothing架构,普遍采用了列存储技术,硬件基于X86PC服务器,存储基于服务器自带的本地硬盘,基于大规模分布式计算(MPP),拥有极高的横
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 走进 数据 时代