对大数据的透彻理解Word文档格式.docx
- 文档编号:19336256
- 上传时间:2023-01-05
- 格式:DOCX
- 页数:13
- 大小:380.71KB
对大数据的透彻理解Word文档格式.docx
《对大数据的透彻理解Word文档格式.docx》由会员分享,可在线阅读,更多相关《对大数据的透彻理解Word文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
静态与动态忽现:
动态演进与静态关联
多元与异质共处:
多元多变与异质异性
量大与可用矛盾:
量大低值与可用稀少
目前大数据的外延
大数据规模大小是一个不断演化的指标:
当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB«
PB«
EB«
ZB)
处理大数据的可等待的合理时间依赖任务的目标:
地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内
二、大数据悖论
大数据已被定义为科学探索的第四范式。
继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。
大数据已被誉为“非竞争性”生产要素。
大数据具有“取之不尽,用之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的财富。
根源在于,大数据的价值在于预测未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题。
而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场需求。
解决悖论的过程,恰恰是理论和方法应运而生的过程。
而人们试图解决悖论的努力,正好是大数据落地生根的推动力。
方法论缺位
自2008年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化转型,进而上升到“开放政府数据”的战略布局。
然而,单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开,因为三者均没有设置数量级等门槛。
方法论缺位是最大的障碍。
大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望需要数据、技术和思维三大要素。
在计算技术、通信技术日益成熟的今天,在廉价的、便捷的数字化存储普及的当下,数据无处不在,技术正以标准化、商品化的方式提供,事实上思维和方法论才是决定大数据成败的关键,但目前来看,跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善。
在社会难题中淘金
正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样,悖论是理论、技术和应用进步的巨大推动力。
大数据悖论的解决,也将推动大数据应用的普及和社会价值的释放。
经过新闻媒体和学术会议的大肆宣传之后,大数据技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危……根据这条著名的Gartner技术成熟度曲线,大数据已经走过了萌芽期和泡沫化的炒作期,并将在未来3~5年内步入低谷期。
市场中的鸿沟
大数据营销模型将经历创新者、早期采用者、早期大众、后期大众和落后者等5个阶段。
这5个阶段之间存在着4条裂缝,其中最大、最危险的裂缝存在于早期市场与主流市场之间,我们称之为“鸿沟”。
大数据的主流市场来源于实用主义的早期大众和保守主义的后期大众,两者各自占据大数据市场1/3的份额。
这两个群组的共同特征是均具备良好的信息技术基础和深厚的大数据积累,并深谙大数据的社会价值和经济价值。
有所不同的是,前者希望看到成熟的解决方案和成功的应用案例,它们大多是金融、能源、电信等公共服务部门。
而后者需要有更安全可靠的大数据保障和广泛的社会应用基础,它们大多是致力于解决环境、能源和健康等社会问题的公共管理部门。
大数据技术和应用获得创新者的追捧是显而易见的,获得早期市场的拥护也是轻而易举的。
但是,不因“时髦”而加入,不因“过时”而退出,才能成为大数据主流市场的掘金者。
遗憾的是,不少企业或许会成为“鸿沟中的牺牲者”,而无缘迎接大数据真正应用市场的到来。
规划整体产品
现代营销奠基人之——西奥多·
莱维特给出了“整体产品”的概念。
根据这一概念,大数据产品应该包括作为“核心吸引物”的一般产品、满足初级心理需求的期望产品和实现更高阶参与以及自我实现的延伸产品和潜在产品4个部分。
三、大数据挑战性问题
现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。
而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。
数据的移动已成为IT系统最大的开销,目前传送大数据最高效也是最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。
在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。
应对处理大数据的各种技术挑战中,以下几个问题值得重视:
1、大数据对科学规范的挑战
大数据带来了新的科研范式
科研第四范式是思维方式的大变化,已故图灵奖得主吉姆格雷提出的数据密集型科研“第四范式”,将大数据科研从第三范式中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数据模型的传统研究方式。
PB级数据使我们可以做到没有模型和假设就可以分析数据。
将数据丢进巨大的计算机机群中,只要有相关关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。
大数据如何应用于开放的研究
大数据基于对海量数据的分析产生价值,那么如何获得海量数据来让大数据真正落地呢?
这其中最不可或缺的一个环节就是数据开放。
现在推进数据开放更为重要的是通过数据的共享来产生更多的价值。
数据开放能够提高社会运行效率,积极整合各方公开的数据,建立基于大数据的城市规划来缓解交通和社会治安问题。
数据开放能够激发巨大的商业价值,数据开放是面向社会大众的开放,任何人只要有能力都可以用它来创造新的商机。
加强数据开放,为大数据发展打牢基础。
在大数据应用日益重要的今天,数据资源的开放共享已经成为在数据大战中保持优势的关键。
促进商业数据和个人数据的开放与共享。
商业数据和个人数据的共享应用,不仅能促进相关产业的飞速发展,产生巨大的经济价值,也能给我们的生活带来巨大的便利。
经常网购的人会有这样一种体验。
很多电商网站能够在我们买书的时候,推荐我们刚好喜欢的其他书籍,这正是网站根据成千上万甚至上亿人的个人数据的统计分析而得出的,但是我们也感受到了这样强大的数据分析能力对我们“隐私权”的冲击。
因此,完善个人隐私保护等相关立法,对哪些个人数据可以进行商业化应用、应用范围如何界定、数据滥用应承担哪些责任等具体问题做出规范,从而保证数据开放工作稳步推进,为大数据发展应用打好根基。
重现大数据研究结果
数据量的增大,会带来规律的丧失和严重失真。
维克托·
迈尔-舍恩伯格在其著作《大数据的时代》中也指出“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库,”此外,大数据的另外一层定义,多样性,即来源不同的各种信息混杂在一起会加大数据的混乱程度,统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。
大数据意味着更多的信息,但同时也意味着更多的虚假关系信息,海量数据带来显著性检验的问题,将使我们很难找到真正的关联。
我们以一个实际的案例来看一下样本量不断增大之后,会出现的问题:
上表是关于某年网络游戏历程扩散的回归分析,当样本量是5241个的时候,你会发现用一个简单的线性回归拟合这个数据,年龄、文化程度、收入这三个变量显著,当我们把样本量增加到10482个的时候,发现独生子女和女性开始显著,增加到20964个的时候,体制外这个变量也开始显著,当样本增加到33万的时候,所有变量都具有显著性,这意味着世间万物都是有联系的。
样本大到一定程度的时候,很多结果自然就会变得显著,会无法进行推论,或者得出虚假的统计学关系。
此外,断裂数据、缺失数据(下文将会进行分析)的存在将会使这种虚假关系随着数据量的增长而增长,我们将很难再接触到真相。
事实上,真实的规律是这样的:
对一个社会现象进行客观深刻准确的分析,对事物的理解需要数据,但更需要分析思维,在大数据时代,理论并非不重要,而是变得更加重要。
我们所指的理论也并非僵化一成不变的固守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性,坚持分析方法和理论的不断创新。
大数据研究结果可信与否
《大数据时代》一书的作者维克托·
迈尔-舍恩伯格说,大数据的核心就是预测。
它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。
他认为,大数据大大解放了人们的分析能力。
一是可以分析更多的数据,甚至是相关的所有数据,而不再依赖于随机抽样;
二是研究数据如此之多,以至于我们不再热衷于追求精确度;
三是不必拘泥于对因果关系的探究,而可以在相关关系中发现大数据的潜在价值。
因此,当人们可以放弃寻找因果关系的传统偏好,开始挖掘相关关系的好处时,一个用数据预测的时代才会到来。
不可否认,大数据标志着人类在寻求量化和认识世界的道路上前进了一步。
这是计算技术的进步,是人类决策工具的进步。
改编自迈克尔·
刘易斯的《魔球:
逆境中制胜的智慧》的影片《点球成金》,讲述了一个真实的故事,介绍了奥克兰运动家棒球队总经理比利·
比恩的经营哲学,描述了他抛弃几百年延续的选择球员的惯常做法,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。
比利·
比恩的成功称得上是对球探们经验决策的颠覆,是让数据说话的成功范例。
正如维克托·
迈尔-舍恩伯格将大数据视为人工智能的一部分,视为机器学习的一种应用一样,数据决策和数据旁证的博弈其实是人和机器的博弈。
即便是有一将难求的数据科学家的协助,大数据决策依然是辅助系统。
在这一阶段,云计算是基础设施,大数据是服务工具,两者将满足特定语境下的、短线的市场需求,更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。
换言之,大数据将演绎“信息转化为数据,数据集聚成知识,知识涌现出智慧”的进程。
2、大数据带来的社会问题
在基于社交媒体和数字化记忆的大数据时代,人们不仅担心无处不在的“第三只眼”,而且担心隐私被二次利用。
因为,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎什么都知道,包括我们的社交关系网……可怕的不是这些隐私数据,而是大数据的全数据分析、模糊计算和重关联却不求因果的特性,让隐私数据与社交网络等关联起来。
按照维克托·
迈尔-舍恩伯格的说法,危险不再是隐私的泄漏,而是被预知的可能性——这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险,无法贷款,甚至实施犯罪前就被预先逮捕。
无论如何,大数据正在推动产权认知和结构的变革,以往IT产业链的主宰者或将在变革中遭遇冲击。
大数据的魅力在于它能够让企业在无边界的数据海洋里遨游,发现社会进步的内在韵律,捕捉社会发展的先行参数。
比如从消费者兴趣图谱中萃取研发创新智慧,而不局限于产品关联性分析;
比如对企业内外部利益相关者群体智慧的发掘,开展企业和产业的健康诊断,而不局限于短效的精益管理;
比如对地震等自然灾害的预警,构架社会应急机制……
3、大数据带来的技术挑战
抽样分析+全数据验证的分析思路
增加样本容易,降低算法复杂度难。
迈尔·
舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点,其中之一是:
分析所有的数据,而不再仅仅依靠一小部分数据。
全数据一时甚嚣尘上,企业、研究者以为大数据就是全数据,以至于再谈抽样都似乎带有保守主义色彩,这种看法无疑是对大数据和抽样二者都存在偏见和不足,如果认为大数据就是收集所有样本的信息,让数据自己说话,那么在方法论上就是狭隘的。
这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全:
谷歌利用搜索记录而预测到流感爆发的案例被广为引用以说明数据自会说话,当人们开始在网上搜索关于感冒的词汇表明他感染了流感,建立流感与空间、病毒的关系,能够成功的预测一场流感)数据确实能看到变化,通过变化作出“预测”,但无法解释变化的影响因素,维克托·
舍恩伯格对此的回答是:
我们要相关性,不要因果关系。
这并非是这位作者有选择的选择,而是放弃抽样而直接采用大数据的必然。
《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据,而盖洛普仅在严格抽样基础上研究了5000人,是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。
没有抽样的拟合,直接面对大数据,将使我们失去对人的了解,对真实规律的追寻,毕竟不是所有的社会事实都一场流感一样易于预测,况且即便是谷歌被广为赞誉的流感预测案例也被认为存在问题:
在与传统的流感监测数据比较之后,根据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。
科学家指出基于搜索有太多的噪音影响了它的精确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络。
他们正在开发噪音较少的替代跟踪方法,例如基于Twitter的流感跟踪只包含真正病人的帖子,而不是转载的流感新闻报道。
分析理解大数据——盲人摸象
数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。
但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此,因此我们需要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。
有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。
4、大数据管理的挑战
每一种非结构化数据均可被视为大数据。
这包括在社交网站上的数据、在线金融交易数据、公司记录、气象监测数据、卫星数据和其他监控、研究和开发数据。
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。
重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。
主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。
开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;
突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;
突破大数据索引技术;
突破大数据移动、备份、复制等技术;
开发大数据可视化技术。
通过隔离管理大数据存储
如果有多个存储箱,那么将数据库、线交易处理(OLTP)和微软Exchange应用到特定的存储系统是个不错的选择。
其它存储系统则用于大数据应用如门户网站,在线流媒体应用等。
如果没有存储系统,将特定的前端存储端口到数据库,OLTP等等;
致力于大数据应用到其他端口。
背后的基本原理是使用专用端口,而大数据流量是以千字节或兆字节衡量,OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量,因为数据块的大小是比大数据更大而比OLTP应用程序更小。
OLTP应用程序是CPU密集型的,而大数据应用程序更多的使用前端端口。
因此,更多的端口可以专注于大数据应用。
专业的大数据存储管理
兼容数据管理的存储系统。
如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择,因为在一个单一的文件系统中大数据能增长到多字节的数据。
大数据分析
除了存储,大数据管理的另一项大的挑战是数据分析。
一般的数据分析应用程序无法很好的处理大数据,毕竟涉及到大量的数据。
采用专门针对大数据的管理和分析的工具,这些应用程序运行在集群存储系统上,缓解大数据的管理。
管理大数据的另一个需要重点考虑的是未来的数据增长。
你的大数据存储管理系统应该是可扩展的,足以满足未来的存储需求。
大数据的存储管理和云计算
目前正在寻找云计算服务来进行存储和管理海量数据。
而选择云服务来大型数据存储管理,可以确保数据的所有权。
有权选择将数据移入或移出云服务,而不被供应商锁定。
5、大数据挖掘挑战
面临的挑战
(1)大数据集的挑战
如下图为数据到知识的演化过程示意图:
缺少大数据复杂度冗余度的度量方法
缺少确保近似算法精度分析方法
缺少根据分布知识对大数据进行抽样的方法
(2)数据复杂性挑战
挖掘将会很大程度地提高数据分析的性能和灵活性。
源于数据仓库的数据立方体计算技术和OLAP(在线分析处理)技术极大地提高了大型数据库多维分析的性能。
除了传统的数据立方体技术,近期的研究致力于构建回归立方体、预测立方体以及其他的面向统计的复杂数据立方体。
这样的多维或高维分析工具对分层多维数据的有效分析提供了保证。
(3)数据动态增长的挑战
研究内容
(1)研究分布式并行计算环境下的大数据大数据分析的基本策略
I.与数据分布相联系的分治策略
II.与算法机理相结合的并行策略
(2)研究复杂度降精度可控的新的大数据分析算法
I.大数据分类、聚类、关联分析、异常发现等
(3)大数据分析平台研发
四、大数据挖掘的算法
分类和预测是两种分析数据的方法,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。
分类方法用于预测数据对象的离散类别;
而预测则用于预测数据对象的连续取值。
许多分类和预测方法已被机器学习、专家系统、统计学和神经生物学等方丽的研究者提出,其中的大部分算法属于驻留内存算法,通常假定的数据量很小,最初的数据挖掘方法大多都是在这些方法及基于内存基础上所构造的算法。
目前数据挖掘方法都要求,目前的数据挖掘研究已经在这些工作基础之上得到了很大的改进,开发了具有基于外存以处理大规模数据集合能力的分类和预测技术,这些技术结合了并行和分布处理的思想。
1、
数据变小——分类算法
分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。
可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。
空间覆盖算法-基于球邻域的空间划分
空间覆盖算法-仿生模式识别
空间覆盖算法-视觉分类方法
VCA把数据看作一幅图像,核心是基于尺度空间理论,选择合适的尺度使得同类样本区域融合在一起。
分类超曲面算法HSC
设训练样本所在空间为一封闭维方体区域,将此区域按照一定细分规则划分成若干小区域,使每个小区域只包含同一类样本点,并用样本点的类别标定该区域,合并相邻同类区域边界,获得若干超平面片封闭组成的分类超曲面。
输入新样本点,根据分类判别定理判断样本点所在的类别。
特点:
(1)通过特征区域细化直接解决非线性分类问题,不需要考虑使用何种函数,不需要升维变换。
(2)通用可操作的分类超曲面构造法,基于分类超曲面的方法通过区域合并计算获得分类超曲面对空间进行划分
(3)独特、简便、易行的分类判别方法,基于分类超曲面的方法是基于Jordan定理的分类判断算法,使得基于非凸的超曲面的分类判别变得简便、易行。
2、极小覆盖子集
覆盖型分类算法的极小覆盖子集——对特定的训练样本集,若其子样本集训练后得到的分类模型与与原样本集训练后得到的分类模型相同,则称子样本集是原样本集的一个覆盖。
在一个样本集的所有覆盖中,包含样本个数最少的覆盖称为样本集的极小覆盖子集。
(1)计算极小覆盖子集的基本步骤:
用一个方形区域覆盖所有样本点;
将该区域划分成一系列小区域(单元格),直到每个小区域内包含的样本点都属于同一类别;
将落在同一小区域内的样本点中选择且仅选择一个样本构成极小覆盖子集。
(2)采样受限于极小覆盖子集
全样本空间必然包含极小覆盖子集,任意一个数据集未必包含完整的极小覆盖子集。
大数据环境下,极小覆盖子集中的样本更多地包含在大数据中,较多的数据可以战胜较好的算法、再多的数据亦不会超过极小覆盖子集的代表性、再好的提升手段亦不会超过极小覆盖子集确定的精度。
是大数据分析(12.91%)、云数据库(11.82%)、Hadoop(11.73%)、内存数据库(11.64%)以及数据安全(9.21%)。
Hadoop已不再是人们心目中仅有的大数据技术,而大数据分析成为最被关注的技术。
从中可以看出,人们对大数据的了解已经逐渐深入,关注的技术点也越来越多。
既然大数据分析是最被关注的技术趋势,那么大数据分析中的哪项功能是最重要的呢?
从下图可以看出,排在前三位的功能分别是实时分析(21.32%)、丰富的挖掘模型(17.97%)和可视化界面(15.91%)。
从调查结果可以看出:
在未来一两年中有迫切部署大数据的需求,并且已经从一开始的基础设施建设,逐渐发展为对大数据分析和整体大数据解决方案的需求。
大数据将重点应用于以下几大大领域:
商业智能、政府决策、公共服务等。
行业拓展者,打造大数据行业基石
IBM:
IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉;
业务事件处理;
IBMMashupCenter的计量,监测,和商业化服务(MMMS)。
IBM的大数据产品组合中的最新系列产品的InfoSpherebigInsights,基于ApacheHadoop。
该产品组合包括:
打包的ApacheHadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析。
软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案微软:
2011年1月与惠普(具体而言是HP数据库综合应用部门)合作目标是开
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 透彻 理解