从海量到精准的大数据摘录Word格式文档下载.docx
- 文档编号:19675192
- 上传时间:2023-01-08
- 格式:DOCX
- 页数:21
- 大小:1.57MB
从海量到精准的大数据摘录Word格式文档下载.docx
《从海量到精准的大数据摘录Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《从海量到精准的大数据摘录Word格式文档下载.docx(21页珍藏版)》请在冰豆网上搜索。
理解大数据的。
因此,想要明白“大数据”的概念,还要从“大数据”的名词本身入手。
首先要从“大”入手,那么“大数据”的“大”到底指的是哪些方面呢?
笔者认为,大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。
数据体量大:
大数据一般指在10TB规模以上的数据量。
但在实际应用中,很多
企业用户把多个数据集放在一起,已经形成了PB级的数据量。
数据多样性:
数据来自多种数据源,数据种类和格式日渐丰富,已经冲破了以前
所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
价值密度低:
大数据所创造的价值密度明显更低。
根据福利经济学的观点,生产
率与单位商品的价值无关,生产率只与生产的数量有关,即生产率高的企业在相
同的时间内生产更多的价值——因而可以把更高的生产率理解为通过生产和管理
技术的革新而形成的更高的劳动复杂度,劳动复杂度的提高使单位劳动时间具有
了更大的价值密度。
速度快:
有数据显示,在全球范围内,数据量以每年50%的速度增长,数据增长
的速度已经远远超过IT设计发展的速度。
数据本身已经成为企业发展的资产。
快
速捕捉数据信息,实现数字化生产和管理,已经成为未来企业赢得市场,应对行
业互联网化的必经之路。
另外,从“数据”这个词来分析,大数据是海量的,是巨大的,它关乎数据量。
笔
者认为可以从3个方面定义大数据:
(1)数据量;
(2)广度、分类;
(3)速度。
简而言之,
大数据就是一个体量特别大,数据类别特别丰富的数据集。
也就是说“大数据”本身并不
是一种新的技术,也不是一种新的产品,而是我们这个时代出现的一种现象。
而这个“大”
大到了一种什么样的程度呢?
可以说它即将突破现有常规软件所能提供的能力极限。
综上所述,全球最大的战略咨询公司麦肯锡给出了一个十分明确的定义:
大数据是
指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。
随着互联网革命性地改变了商业的运作模式、政府的管理方法以及人们的生活方
式,信息的积累足以引发新的变革。
世界充斥着比以往更多的信息,信息总量的变化导
致了信息形态的变化。
“大数据”这一概念应运而生。
“大数据”不同于互联网,它正在
以巨大的力量改变着世界,它是具有更强的决策力、洞察力、流程优化能力、高增长率
和多样化的信息资产。
如今,数据库、大数据已经成为变革的中心,事实上可以成为一场革命。
在IT领域、
制造业、零售业、政府管理、科技领域,大数据都在改变着这个世界的运行方式。
因此,
我们称之为大数据的新世界。
专家提醒
数据基本单位换算:
1B(byte,字节)=8b(bit位)
1KB(Kilobyte,千字节)=1024B
1MB(Megabyte,百万字节兆字节,简称“兆”)=1024KB
1GB(Gigabyte,十亿字节吉字节,又称“千兆”)=1024MB
1TB(Trillionbyte,万亿字节太字节)=1024GB
1PB(Petabyte,千万亿字节拍字节)=1024TB
1EB(Exabyte,百亿亿字节艾字节)=1024PB
1ZB(Zettabyte,十万亿亿字节泽字节)=1024EB
1.1.2大数据结构特征
如今,全球存储的数据量正在急剧增长,数据量大是大数据的一致特征。
在2000
年,全球存储了800000PB的数据。
预计到2020年,这一数字会达到35ZB。
单单Twitter
每天就会生成超过7TB的数据,Facebook为10TB,一些企业在一年中每一天的每一小时就会产生数TB的数据。
就传统IT企业来看,其结构化和非结构化的数据增长也是惊人的。
2005年企业存储的结构化数据为4EB,到2015年将增至29EB,年复合增长率逾20%。
非结构化数据发展更猛。
2005年为22EB,2015年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。
那么,一分钟到底会有多少数据产生呢?
电子邮件用户发送204166677条信息。
Google收到超过2000000个搜索查询。
Facebook用户分享684478条内容。
消费者在网购上花费272070美元。
Twitter用户发送超过100000条微博。
苹果公司收到大约47000个应用下载。
Facebook上的品牌和企业收到34722个“赞”。
Tumblr博客用户发布27778个新帖子。
Instagram用户分享36000张新照片。
Flickr用户添加3125张新照片。
Foursquare用户执行2083次签到。
571个新网站诞生。
WordPress用户发布347篇新博文。
由于数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法就是在并行计算的环境中进行大规模并行处理(MassivelyParallelProcessing,MPP),这使得并行摄取、并行数据装载和分析成为可能。
实际上,大多数的大数据都是非结构化或者半结构化的,这需要不同的技术和工具来处理和分析。
大数据的结构就体现了它最突出的特征,如表1-1所示,显示了几种不同数据结构类型数据的增长趋势。
据悉,未来数据增长的80%~90%将来自于非结构化的数据类型
(包括半非结构化、准非结构化和非结构化数据)。
1.1.3大数据与云计算
在过去3年当中,笔者经历了大数据的发展从无到有,3年前可能还没有人说这个词,现在已经如火如荼。
现在,每天有大量数据和信息生成,这为大数据分析提供了机会。
相较于传统数据,大数据更能反映这个世界的真实情况,例如,人们会上传和公布大量的图片来记录个人的生活和社会的变化。
如今,一天之内人们上传的照片数量就相当于柯达发明胶卷之后拍摄的图像总和。
过去,计算机主要是用于解决大企业交易型的数据,并不会记录其他无关的信息,只有在云计算产业规模化发展之后,分布式计算才给大数据提供了记录的载体。
可以说,云计算使大数据变成可能,打个比方,云计算充当了工业革命时期“发动机”的角色,而大数据则是“电”。
然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋
势下,传统数据库对于海量数据存储的需求、处理速度的需求、数据多样化的需求难以
满足,从而使各种各样的解决方案大行其道。
总之,云计算为大数据带来了硬件存储的条件——更便宜的分布式运算存储,而互
联网时代的今天也在不断呼唤数据应用和服务。
在技术和需求的双重推动下,会有越来
越多的政府机构、公司企业和个人意识到数据是巨大的经济资产,像货币或黄金一样,
它将带来全新的创业方向、商业模式和投资机会。
大数据和云计算的区别与联系如表1-2所示。
云计算和大数据注定将带来一次革命,无论是对社会、公司和个人来说,都是一次世界
观的改变。
届时,互联网不再是一个展示公司的工具或平台,而是属于未来的生产方式,是
关乎竞争和生存的关键。
1.1.4大数据规模预测
当你走进一家陌生的小餐厅时,耳边响起只有你才熟悉的音乐旋律。
这样的场景实现技术上并不难,餐厅只要读出你的手机音乐下载记录,通过数据分析,就可以定制播
放你喜欢的音乐,这就是大数据时代的潜力。
前面笔者已经说了,大数据由4个V组成,这4个V的组合推动了第5个因素——价值(Value)的出现。
随着云计算概念日渐深入人心,大数据也越来越受到关注。
国际知名数据公司IDC在长期对云计算市场进行跟踪研究的同时,也对大数据市场保持着密切关注。
如图1-6所示,IDC发现,目前大数据对市场的影响正日益提升,已经开始影响数据中心设计、移动应用投资、数据管理等相关领域。
图1-6IDC全球大数据市场规模与预测
1.1.5大数据的发展史
如今,越来越多的企业参与到大数据的竞争中来,那么“大数据”这个词汇是如何
诞生以及演变的呢?
大数据是一个修辞学意义上的词汇,在数据方面,“大”(big)是一个快速发展的术语。
早在1890年,美国统计学家赫尔曼•霍尔瑞斯为了统计这一年的人口普查数据,发明了一台电动器来读取卡片上的数据,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。
1961年,刚成立9年的美国国家安全局(NSA)是拥有超过12000个密码学家的情报机构,在间谍饱和的冷战年代,面对超量信息,他们开始采用计算机自动收集处理信号情报,并努力将仓库内积压的模拟磁带信息进行数字化处理。
仅1961年7月份,该机构就收到了17000卷磁带。
起初,许多科学家和工程师都嘲笑“大数据”只不过是一个营销术语。
2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织“计算社区联盟”(ComputingCommunityConsortium)发表了一份有影响力的白皮书《大数据计算》,中肯地阐述了大数据带来的机遇和挑战。
2009年5月,美国总统巴拉克•奥巴马政府推出data.gov网站,作为政府开放数据计划的部分举措。
该网站拥有超过4.45万的数据量集,这样一些网站和智能手机应用程序能跟踪如航班、产品召回、特定区域内失业率等信息,这一行动激发了肯尼亚、英国等政府相继推出类似举措。
2011年2月,扫描2亿页的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。
同时,IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者,后来《纽约时报》称这一刻为“大数据计算胜利”的时刻。
2011年,英国《自然》杂志曾出版专刊指出,倘若能够更有效地组织和使用大数据,人类将得到更多的机会发挥科学技术,这对社会发展有巨大的推动作用。
2012年3月,美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布了一项耗资两亿美元的大数据研究与发展项目。
2012年7月,美国国务卿希拉里•克林顿宣布了一个名为“数据2X”的公私合营企业,用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。
回顾过去的50多年,我们可以看到IT产业已经经历了几轮新兴和重叠的技术浪潮,如图1-7所示。
这里面的每一波浪潮都是由新兴的IT供应商主导的,他们改变了已有的秩序,重新定义了已有的计算机规范,并为进入新时代铺平了道路。
图1-7IT产业的发展浪潮
人们手中的手机和移动设备是数据量爆炸的一个重要原因,目前,全球拥有50亿台手机用户,其中20亿台为智能电话,这相当于20世纪80年代20亿台IBM的大型机掌握在消费者手里。
“大数据”是“数据化”趋势下的必然产物。
数据化最核心的理念是:
“一切都被记录,一切都被数字化”。
它带来了两个重大的变化:
一是数据量的爆炸性剧增,最近两年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和;
二是数据来源的极大丰富,形成了多源异构的数据形态,其中非结构化数据所占比重逐年增大。
1.1.6大数据技术架构
即便是在“摩尔定律”,即每18个月芯片性能将提高1倍的支撑下,硬件性能进化的速度也早已赶不上数据增长的速度了,并且差距越来越巨大。
例如,一分钟之内,新浪微博有数万条微博发送,苹果应用商店下载次数以万计,淘宝卖出了几万件商品,XX产生了百万次搜索查询……所有这些行为都由海量的数据来呈现。
那么,大数据是通过什么样的技术架构来接受、容纳并处理这些海量数据的呢?
要容纳数据本身,IT基础架构必须能够以经济的方式存储比以往更大量、类型更多的数据。
此外,还必须能适应数据速度,即数据变化的速度。
数量如此大的数据难以在当今的网络连接条件下快速来回移动。
大数据基础架构必须具有分布式计算能力,以便能在接近用户的位置进行数据分析,减少跨越网络所引起的延迟。
因此,云计算模式为大数据的成功提供了很好的条件,以实现大数据分析所需的效率、可扩展性、数据便携性和经济性。
另外,还可以用来跨越毫不相干的数据源比较不同类型的数据和进行模式匹配。
这使得大数据分析能以新视角挖掘企业传统数据,并带来传统上未曾有过的数据洞察力。
例如,LinkedIn是世界上最大的专业人士社交网络,在全球范围内有2.25亿用户,并且以每秒2个新用户的速度增长。
LinkedIn还是一个解决方案供应商,据悉,目前有88%的财富100强企业在使用LinkedIn的付费解决方案,LinkedIn还有超出290万的公司主页及相关信息。
LinkedIn之所以取得如此大的成功,是因为他们有专业的身份可以拓展人脉发现机遇,专业的内容全方位掌握业界资讯,专业的平台随时随地了解人脉动向。
从LinkedIn的业务模型不难看出,其本身就拥有海量的数据,通过这些数据创造出有价值的产品和服务,来增加用户数量和用户黏性,这样数据还会不断增长从而形成一个“闭环”。
LinkedIn有人才、市场、高级订阅服务三大商业解决方案,而且三大商业解决方案的盈收每年也呈翻倍增长趋势,而其中占盈收比例最大的是人才解决方案。
另外,LinkedIn的数据按用户可分为用户特征数据、用户行为数据、用户网络数据;
按数据存取速度可分为在线数据、近线数据、离线数据。
LinkedIn的三级数据架构根据不同性质的工作设计,其中近线数据存储在Voldemort分布式数据库中,在线数据存储在Oracle和Espresso中,服务器日志存储在WebLogs中。
使用Kafka发布数据,通过Databus捕获在线数据,而所有的离线数据由Hadoop和Teradata数据库构成。
基于上述考虑,大数据可以采用四层堆栈式技术架构,如表1-3所示。
表1-3采用四层堆栈式技术架构的大数据
云模型鼓励访问数据并提供弹性资源池来应对大规模问题,其解决了如何存储大量数据,以及如何积聚所需的计算资源来操作数据的问题。
在云中,数据可跨多个节点调配和分布,这使得数据更接近需要它的用户,从而缩短响应时间和提高生产率。
1.1.7大数据重要的理由
人们为什么如此关心大数据呢?
其实大数据可以使我们提出新问题,来了解我们的业务。
例如社交网络分析,一个企业,即使你是一个个体,你也有一个品牌,如何分析你的品牌影响力、品牌声誉,这些问题之前不容易回答,如今在大数据的时代可以很容易得到答案,并且几乎是以实时的速度来解答。
例如,有一家物流公司,有卡车等运输工具,希望优化车队的运输路线,提高运输效率,并且基于实时的交送信息、天气信息及其他类型的信息。
现在通过传感器和大数据就可以做到。
事实上,关于过去和现在,甚至是未来的事务,大数据分析都能够用得上。
虽然大数据是一个重大问题,但笔者认为,真正的问题是如何让大数据更有意义,如何在大数据里面寻找模式帮助组织机构做出更好的商业决策。
当前,随着互联网科技的日益成熟,各种类型数据的增长将会超越历史上任何一个时期。
因此,用户想要从这庞大的数据库中提取对自己有用的信息,就离不开大数据分析技术和工具。
如表1-4所示,向大家展示了大数据分析将越来越重要的10个理由。
表1-4大数据分析为何重要的理由
对大企业而言,大数据的兴起,首先,是因为计算能力可以更低的成本获得,且各类系统如今已能够支持多任务处理;
其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据;
最后,把计算机聚合成服务器集群越来越简单。
1.1.8大数据的解决方案
当前,越来越多的企业将大数据的分析结果作为其判断未来发展的依据。
同时,传统的商业预测逻辑正日益被新的大数据预测所取代。
既然大数据如此重要,那么大数据解决方案是否可以完全替代传统的数据库解决方案呢?
在这里,笔者先不说出答案,而是先带大家看一个典型的案例:
例如,一个优秀的棒球运动员知道自己的哪一只手更擅长抛球,哪一只手更擅长接球。
就像这样一种情形,每只手可以尝试执行它天生不适合的任务,但会非常笨拙,因此,通常不会看到棒球运动员使用一只手接球,停下来,丢掉他们的手套,然后使用同一只手抛球。
棒球运动员的左手和右手协同起来会实现最佳的结果。
上面的例子就是传统数据库和大数据技术的一个简单类比:
没有这两个重要实体的协同工作,任何组织或结构的信息平台都很难得到进一步发展,因为就像棒球运动员协调双手来抛接棒球一样,一个团结一致的分析生态系统才能实现最佳的结果。
此时,我们经过初步分析就可以了解到,有些类型的问题不是本来就属于传统数据库的,至少在最初不是,而且也不确定是否希望将一些数据放在仓库中,因为我们不知道它是否拥有较高的价值、是否是非结构化的,或者是否太庞大了。
更多的情况是,在投入精力和金钱将数据放在仓库之后,才能发现每个字节的数据价值;
但我们希望在投资之前,就能明确该数据值得保存,并拥有较高的价值。
典型的大数据解决方案应该是具有多种能力的平台化解决方案,这些能力包括结构化数据的存储、计算、分析和挖掘,多结构化数据的存储、加工和处理,以及大数据的商务智能分析。
笔者认为,这种解决方案在技术上应具有以下4个特性:
软硬集成化的大数据处理能力、全结构化数据处理的能力、大规模内存计算的能力、超高网络速度访问的能力。
因此,你一定要认识到传统数据库技术是整体解决方案中一个重要且相关的部分。
事实上,它们在与你的大数据平台结合使用时会变得更加重要。
但是,笔者觉得大家对于大数据的期望值要谨慎一些,因为海量数据只有在得到有效治理的前提下,才能进一步发挥其价值。
1.2预测未来,大数据的发展趋势
据悉,在1993年的美国《纽约人》杂志上刊登了一幅标题为“互联网上,没有人知道你是一条狗”的漫画,而作者彼得•施泰纳也因此赚取了超过5万美元。
此后的20年间,互联网发生了巨大的变化,移动互联、社交网络及电子商务大大拓展了互联网的疆界和应用领域。
如今,我们在享受便利的同时,也无偿贡献了自己的“行踪”,现在互联网不但知道对面是一只狗,甚至还知道这只狗喜欢什么食物,几点出去遛弯,几点回窝睡觉。
每个人在互联网进入到大数据时代,都将是透明性存在的,可以说是“处处行迹处处留痕”。
收集并分析海量的各种类型数据,并快速获取影响未来的信息的能力,这就是大数据技术的魅力。
事实上大数据的来源非常广泛,天上的卫星、地上的汽车、埋在土壤里面的各类传感器,无时无刻不在生成大量的数据。
这些数据如果加以综合利用,产生的社会价值和经济价值将是难以估量的。
大数据技术让人们看到未来解决预测问题的一丝曙光。
1.2.1大数据撬动全世界
大数据不仅体现为数据量的惊人增长,更前所未有地引入了正在不断扩展中的数据类型。
从量的增长来看,根据IDC(国际数据公司)的跟踪分析,全球产生的数据总量2011年已经达到1.8ZB(1ZB等于1万亿GB,1.8ZB也就相当于18亿个1TB移动硬盘的存储量);
2012年达到约2.8ZB,但当年全球产生的数据中仅有约0.5%得到有效分析。
据悉,到2020年,全球数据总量中有22%将来自中国。
电商投放广告、物流调度运力、证监会抓老鼠仓、金融机构卖基金、民航节约成本、农民破解猪周期、制片人拍电影……看似毫不相关的事情,背后都有大数据在发力。
随着互联网、移动互联网对各个领域的渗透越来越深,从政府到企业,从群体到个人,数据的积累与日俱增。
4G牌照的发放,又让移动数据通道由“乡村公路”升级为“高速公路”。
与此同时,社会上的各行各业,从电信、IT业,到金融、证券、保险、航空、酒店服务业等,地球上的各种存在事物,从每个人到每棵树、每朵花乃至每粒沙子,无一例外地都在成为大数据的生成者。
笔者可以预见,大数据席卷各行各业和人们生活的速度只会越来越快。
例如,世界上第一部“先拍照后对焦”光场相机Lytro,就运用了大数据处理分析理念。
与传统相机只记录一束光不同,Lytro可以记录整个光场里所有的光,也就是用总体数据取代了随机样本。
用户没必要一开始就对焦,想要什么样的照片可以在拍摄之后再决定。
因此,究竟该如何“开采”大数据这座丰富的矿藏,成为了一个令人着迷的问题,因为与正确答案相随的将是谁都渴望的巨大商业成功。
当前,伴随着变革的发生,传统的互联网企业已经站在了大数据时代的最前沿。
作为后PC时代的4大巨头,Facebook、谷歌、苹果、亚马逊正在成为大数据的拥有者和使用者,其主要特点如表1-5所示。
表1-54大互联网企业的大数据策略
大数据,正在撬动全世界的神经,无论是国家、企业,还是每一个独立存在的个人,都将成为大数据时代的贡献者和受益者。
目前,数据量的大幅增加对人们注重精确性的习惯提出了挑战。
大数据需要技术和思维上的变革才能利用,才能做到从海量到精准。
这一轮的变革,事关绝大多数企业的命运。
可以看到,用大数据这个视角,可以考察企业的兴衰。
第一,如果对大数据不关心,不了解,必将走向衰败;
第二,拥有大量的数据并善加运用的公司,必将赢得未来。
时代变了,判断企业价值的标准、判断软件价值的标准也变了。
1.2.2大数据是大势所趋
大数据有多火?
有媒体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海量 精准 数据 摘录