云计算与大数据Word文档下载推荐.docx
- 文档编号:18659472
- 上传时间:2022-12-31
- 格式:DOCX
- 页数:13
- 大小:112.28KB
云计算与大数据Word文档下载推荐.docx
《云计算与大数据Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《云计算与大数据Word文档下载推荐.docx(13页珍藏版)》请在冰豆网上搜索。
2、大数据4V特性解读
(2)
虽然有多种解读,但业界一般认为,大数据有4V特性:
Volume(容量),Variety(种类),Velocity(速度)和最重要的Value(价值)。
⑴、Volume(容量)
Volume是指大数据巨大的数据量与数据完整性。
IT业界所指的数据,诞生不过60多年。
而一直到个人电脑普及之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。
几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。
拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。
尽管业界对达到怎样的数量级才算是大数据并无定论,但在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否具有完整性才是最重要的。
⑵、Variety(种类)
Variety意味着要在海量、种类繁多的数据间发现其内在关联。
互联网时代,各种设备通过网络连成了一个整体。
进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。
这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。
这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的关联性,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。
⑶、Velocity(速度)
Velocity可以理解为更快地满足实时性需求。
数据的实时化需求正越来越清晰。
对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。
吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上。
还可以用LBS(基于位置的服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接。
这些连接不可避免地带来数据交换。
而数据交换的关键是降低延迟,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。
⑷、Value(价值)
比前面3个V更重要的就是Value。
它是大数据的最终意义:
获得洞察力和价值。
大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:
将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。
就大数据的价值而言,就像在沙子里淘金,大数据规模越大,真正有价值的数据相对越少。
所以真正好的大数据系统,重要的不是越多越好,其实越少越好。
开始数据要多,最好还是要少,把ZB、PB最终变成一个比特,也就是最后的决策。
这才是最关键的。
3、大数据的海量、多样性、高速、易变性
⑴、海量
企业面临着数据量的大规模增长。
例如,IDC最近的报告预测,到2020年,全球数据量将扩大50倍。
目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。
简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。
此外,各种意想不到的来源都能产生数据。
例如,从巴塞罗那至沙特首府利雅得的单程航行中,一架商用喷气飞机上收集的传感器数据量将超过1PB。
当用一次飞行的数据量,乘以每天所有飞行的航班数,数据总量将非常惊人。
⑵、多样性
普遍认为,人们使用互联网搜索是形成数据多样性的主要原因。
这一看法部分正确。
然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。
其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。
⑶、高速
高速描述的是数据被创建和移动的速度。
在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。
企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。
根据IMSResearch研究机构关于数据创建速度的调查,通过跟踪互联网设备的激活量,发现联网设备增长的第二波浪潮正在加速到来。
本轮增长后,将涌现更多新型互联网设备增长的浪潮。
据预测,到2020年,全球将拥有220亿部互联网连接设备。
⑷、易变性
大数据具有多层结构。
这意味着大数据会呈现出多变的形式和类型。
相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。
传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。
目前,企业面临的挑战是,处理并从以各种形式呈现的复杂数据中挖掘价值。
4、大数据七大特性
⑴、容量(Volume):
数据的大小决定所考虑的数据的价值和潜在的信息。
⑵、种类(Variety):
数据类型的多样性。
⑶、速度(Velocity):
指获得数据的速度。
⑷、可变性(Variability):
妨碍处理和有效地管理数据的过程。
⑸、真实性(Veracity):
数据的质量。
⑹、复杂性(Complexity):
数据量巨大,来源多渠道。
⑺、价值(value):
合理运用大数据,以低成本创造高价值。
5、记者访谈:
大数据有多大
据报道,有记者就大数据有关问题进行了访谈。
记者:
对于大数据,有一个形象的说法:
现在即使是一个孩子,也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个人类文明背上都不是问题。
经过大量数据的训练和装备,未来的电子产品或者机器可以成为“大有裨益的终身数据伴侣:
它可以预测你是想要一包方便面还是一颗感冒药;
你想去旅游还是选择最不堵车的路线去看球赛;
甚至还能以你的名义饱蘸激情投入工作。
大数据这个概念,看似从字面就能理解;
但确实以前没有这么火过。
首先,我们想知道的是,大数据到底有多大?
吴甘沙:
互联网搜索、电子商务交易平台和微博等社交网站,产生的各种数据内容,经常被用来证明大数据之大。
其实,在传统产业和我们的生活中,大数据也比比皆是。
以北京交通为例,北京市交通智能化分析平台,它的数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车,以及省际客运、旅游、化危运输、停车、租车等运输行业等。
4万辆浮动车,每天产生2000万条记录;
交通卡刷卡记录,每天1900万条;
手机定位数据,每天1800万条;
出租车运营数据,每天100万条;
高速ETC(ElectronicTollCollection,(不停车)电子收费(系统))数据,每天50万条……这些,从数据体量和速度上,也达到了大数据的规模。
发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会。
这也正是大数据最主要的特点。
比如,交通状况与其它领域的数据都存在较强的关联性。
有研究发现,可以从供水系统数据中发现,晨洗的高峰时间,加上一个偏移量,通常是40~45分钟,就是交通早高峰时间。
同样,可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。
国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。
而一直到个人电脑普及前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。
大数据有没有一个“门槛”?
一些定义准确吗?
国际数据统计机构IDC,对全世界每年创建和复制的信息的体量,做了估计和预测:
2011年1.8ZB,2012年2.8ZB。
按照每两年翻一番的速度,2020年将达到40ZB。
这个数据怎么算出来的?
IDC秘而不宣。
1.8ZB什么概念?
相当于4500亿张DVD,或6500万年的高清视频,或是1130亿台装满数据的iPad。
如果把这些iPad覆盖到足球场,并往上堆叠,高度将达到10.3公里,比珠穆朗玛峰还高。
思科公司也有一个类似的预测:
2016年数据移动的总量达到1.3ZB。
其实,所有这些数据加起来都不如谷歌的前CEO施密特说法有感染力:
从人类文明曙光到2003年数以万年计的时间长河里,人类一共产生了5EB(天知道他怎么算出来的),而到2010年每两天人类就能产生5EB的数据。
这类数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心;
但对其他人来说,没有太大意义。
他们更关心的是个体行业、企业和个人数据的状况。
美国咨询公司麦肯锡对大数据的定义,就是从个体数据集的大体量入手的:
大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。
传统数据库有效工作的数据上限,一般来说在10~100TB;
因此,10~100TB通常成为大数据的门槛。
无独有偶,IDC在给大数据做定义时,也设在100TB。
其实,这种方法未必科学。
不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。
6、大数据的三种特性
⑴、大数据特性之一:
数据的完整性和综合性
大数据的特性之一是数据的完整性和综合性。
很多业内朋友一谈起大数据,就习惯性地盘点起自己那点存货,或者那些可以直接从自身服务中可以获取的东西。
考虑到目前互联网的发展还在非常初级的阶段,现有网络服务都是简化、扭曲、片面地对现实世界的浓缩和裁剪。
由此产生的数据是零乱的、破碎的、局部的;
其中所含有的含金量是极其有限的。
如果同意这个世界上的万事万物可以而且正在被数据化和网络化,那么由此产生的大数据就必然是完整的和综合的。
它不仅包括网络公司通过自身服务所获得的用户行为数据,而且包括社会的、经济的、政治的、自然的方方面面的数据。
这些数据当然分散在不同企业、机构和政府部门手中,汇聚整合在一起绝非易事。
但操作上的困难并不能否定大数据本身的完整性和综合性。
今天之所以讨论大数据时代的到来,是因为互联网发展到目前阶段使得现实世界数据化发展到了一定程度,各种信息终端普及到了一定程度,数据获取的成本降到了一定程度,使得完整和综合的数据不仅是一种理想,也正在变为现实。
⑵、大数据特性之二:
数据的开放性和公共性
大数据的特性之二是数据的开放性和公共性。
正是因为完整、综合的大数据难以由一家公司、机构或政府部门所获得,所以大数据必然产生于一个开放的、公共的网络环境之中。
这种开放性和公共性的实现,取决于若干个网络开放平台或云服务以及一系列受到法律支持或社会公认的数据标准和规范。
任何封闭的或单向获取的数据,都不可能是大数据,无论这些数据的规模有多大。
⑶、大数据特性之三:
数据的动态性和及时性
大数据的特性之三是数据的动态性和及时性。
天体物理学和理论物理学早就依赖于从宇宙间获取的大量数据。
类似的学科还有:
环境生态学、医药学和自控技术。
但是,这和我们今天讨论的大数据不是一回事。
今天的大数据是基于互联网的及时动态数据,不是历史的或严格控制环境下产生的东西。
所以,今天我们谈论的大数据是完整综合的、开放公共的、动态及时的。
这样的大数据是我们过去从未有机会获取利用过的全新挑战,也是我们未来应该努力去争取利用的全新战略机会。
如果有人以为过去积累的那点数据就是大数据,或者过去积累的数据处理利用能力和经验就可以在大数据时代自然领先,那不是无知就是狂妄。
三、大数据的价值
1、记者访谈:
大数据的价值在于获得洞察力和价值
虽然有多种解读,但业界一般认为,大数据有四个“V”字开头的特性:
Volume(体量),Velocity(速度),Variety(种类),Value(价值)。
这其实也是大数据概念的组成。
Volume是指大数据巨大的数据量与数据完整性;
Velocity可以理解为更快地满足实时性需求;
而Variety则意味着要在海量、种类繁多的数据间发现其内在关联;
Value最重要,它是大数据的最终意义——获得洞察力和价值。
简单说,大数据4个V:
就是体量大,快速化,类型杂,价值大。
张亚勤:
体量容易理解。
速度可以理解为更快地满足实时性需求。
吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上,还可以用LBS(LocationBasedServices,基于位置服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间,产生无处不在的连接;
而数据交换的关键,是降低延迟,以近乎实时——意味着小于250毫秒的方式呈献给用户。
类型杂必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的关联性;
把似乎没有用的数据变成有用的信息,以支持我们做出的判断;
最终形成大数据的价值——获得洞察力和价值。
所以,真正好的大数据系统,重要的不是越多越好,其实越少越好,最终变成一个决策,这才是最关键的。
2、大数据价值具体体现
大数据最核心的价值,在于对于海量数据进行存储和分析。
相比现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。
大数据的价值并不在“大”,而在于“有用”。
价值含量、挖掘成本,比数量更为重要。
对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
大数据的价值具体体现在以下几个方面:
⑴、对为大量消费者提供产品或服务的企业,可以利用大数据进行精准营销;
⑵、对做小而美模式的中长尾企业,可以利用大数据做服务转型;
⑶、在面临互联网压力之下必须转型的传统企业,需要与时俱进充分利用大数据的价值。
3、大数据和高性能的分析对企业有益的情况
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。
企业组织利用相关数据和分析,可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。
例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
⑴、及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
⑵、为成千上万的快递车辆规划实时交通路线,躲避拥堵。
⑶、分析所有SKU,以利润最大化为目标来定价和清理库存。
⑷、根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
⑸、从大量客户中快速识别出金牌客户。
⑹、使用点击流分析和数据挖掘来规避欺诈行为。
链接:
SKU
SKU(StockKeepingUnit,库存量单位),即库存进出计量的基本单元,可以是以件,盒,托盘等为单位。
SKU是大型连锁超市DC(配送中心)物流管理的一个必要的方法。
现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。
单品:
对一种商品而言,当其品牌、型号、配置、等级、花色、包装容量、单位、生产日期、保质期、用途、价格、产地等属性与其他商品存在不同时,可称为一个单品。
点击流分析
点击流数据(ClickstreamData),随着Web技术的不断发展,电子商务活动客户对企业网站的每一次点击都会被企业网络服务器记录在日志中,由此产生了点击流数据。
对于一个网站来说,点击流分析(ClickstreamAnalysis),有时也叫做点击流分析学(ClickstreamAnalytics),是收集、分析和汇报有关访客访问哪个页面、访问页面的顺序以及每个访客鼠标连续点击的结果(即点击流)的整体数据的过程。
点击流分析有两种水平,分别是访问流量分析和电子商务分析。
数据挖掘
数据挖掘(DataMining,DM),又译为资料探勘、数据采矿。
它是数据库知识发现(Knowledge-DiscoveryinDatabases,KDD)中的一个步骤。
数据挖掘一般是指从大量的数据中,自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
四、云计算与大数据的关系
1、云计算与大数据的关系概说
云计算和大数据是一个硬币的两面。
云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。
云计算是大数据成长的驱动力,而另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。
30年前,存储1TB数据的成本,大约是16亿美元。
如今存储到“云”上,只需要不到100美元。
但是,存储下来的数据,如果不用云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。
目前,云计算已经普及并成为IT行业主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基础架构和商业模式。
个人用户将文档、照片、视频、游戏存档记录上传至“云”中永久保存。
企业客户根据自身需求,可以搭建自己的私有云,或托管、或租用公有云上的IT资源与服务。
这些都已不是新鲜事。
可以说,“云”是一棵挂满了大数据的苹果树。
2、大数据需要云计算技术
如上所述,从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。
大数据必然无法使用单台计算机进行处理,必须采用分布式计算架构。
它的特色在于对海量数据的挖掘。
但是,它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。
如上所述,大数据不采用随机分析法(抽样调查)这样的捷径,而采用对所有数据进行分析处理的方法。
大数据常和云计算联系到一起。
因为,实时的大型数据集分析,需要分布式处理框架来向数十、数百或甚至数万台电脑分配工作。
可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
云计算思想的起源是麦卡锡在20世纪60年代提出的:
把计算能力作为一种像水和电一样的公用事业提供给用户。
如今,一种行之有效的模式出现了:
云计算提供基础架构平台,而大数据应用则运行在这个平台上。
业内人士像这样形容这两者的关系的:
没有大数据的信息积淀,云计算的计算能力再强大,也难以找到用武之地;
而没有云计算的计算能力,则大数据的信息积淀再丰富,也终究只是镜花水月。
那么,大数据到底需要哪些云计算技术呢?
这里暂且列举来说,比如:
虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL(泛指非关系型数据库)、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。
云计算和大数据两者之间结合后会产生如下效应:
可以提供更多基于海量业务数据的创新型服务;
通过云计算技术的不断发展降低大数据业务的创新成本。
如果将云计算与大数据进行一些比较,最明显的区分在以下两个方面:
第一,在概念上两者有所不同。
云计算改变了IT,而大数据则改变了业务。
然而,大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同。
云计算是CIO(ChiefInformationOfficer,首席信息官,一种新型的信息管理者)等关心的技术层;
而大数据是CEO(ChiefExecutiveOfficer,首席执行官)关注的业务层产品。
3、大数据处理需要云计算技术配合
人们研究大数据,或是利用大数据技术,其战略意义并不在于是谁掌握了多么庞大的大数据信息,而是在于谁能否将已经捕捉到的那些含有一定意义的数据通过专业化处理,将其变成一种数据信息资产。
这也是大数据分析所需要达到的真正目的。
谁都不能否认,也不可能被否认,大数据既是一种科技,也是一种资产。
既然大数据是一种资产,那么如何利用大数据这种资产最终实现盈利,才是运用大数据的关键。
可是,将大数据加工成有增值的数据,并不是一件轻而易举的事情。
⑴、研究大数据绝对离不开计算机云计算技术
从某种观点上看,没有计算机云计算技术,就不会有大数据被分析和利用。
大数据技术跟计算机云计算技术的关系,就像是一只手的手心和手背,是绝对密不可分。
因为,分析和处理大数据,是无法用某一台计算机来完成的。
它必须需要采用计算机分布式架构。
处理大数据的特色,就在于对那些海量数据进行分布式数据挖掘。
但是,这种分布式大数据挖掘,还必须依托计算机分布式处理。
因为,计算机分布式数据库或是云存储以及计算机虚拟化技术,可以支撑起对大数据相关技术处理的能力。
⑵、云计算技术时代到来将大数据处理变为现实
大数据内部所含有的资产性质,被计算机云技术得到了实实在在的验证。
由此而引出来效果,就是让很多人都对大数据有了更多的关注或是重视。
比如《著云台》的分析师团队认为,可用大数据来形容某家公司所创造的那些大量非结构化数据和半结构化数据,但不能将这些数据下载到关系型数据库中进行处理。
因为,这样会在分析数据中浪费较多的时间或是金钱。
他们主张,大数据分析必须要跟计算机云计算技术紧密连在一起。
只有这样,才能将大数据的价值变成资产性的价值,并将大数据处理真正变成一种现实。
4、大数据有助于进一步明晰云计算的价值
大数据有助于进一步明晰云计算的价值。
在云计算概念刚被提出的几年里,许多政企行业用户对其应用价值一直存在疑虑。
而随着大数据的异军突起,云计算的价值又一次受到公众的关注。
由于云计算帮助解决了大数据无法进行抓取、管理和处理的问题,给予了它不同以往的存储和计算能力,使得结果获取更快速、分析更智慧。
可以预见,在未来云计算将成为大数据应用分析最活跃的舞台。
同样,大数据为云计算大规模与分布式的计算能力,提供了应用的空间,解决了传统计算机无法解决的问题,从而,进一步明晰了云计算的价值。
5、揭开云计算与大数据非同一般的关系
通常情况下,我们容易将大数据与云计算混淆在一起,笔者就概念定义先做科普工作。
著名的麦肯锡全球研究所给出大数据定义是一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 数据