大数据应用分析技术与方法概述PPT文件格式下载.ppt
- 文档编号:14648241
- 上传时间:2022-10-23
- 格式:PPT
- 页数:37
- 大小:2.92MB
大数据应用分析技术与方法概述PPT文件格式下载.ppt
《大数据应用分析技术与方法概述PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《大数据应用分析技术与方法概述PPT文件格式下载.ppt(37页珍藏版)》请在冰豆网上搜索。
这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,由美国国家科学基金会、能源部等6个联邦部门共同投资。
美国的大数据战略1.1大数据概述大数据的概念大数据源于英文:
“BigData”,如“海量数据”“信息爆炸”等。
麦肯锡全球研究所给出的定义是:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
1.1大数据概述美国国家标准和技术研究院则认为:
大数据是由于数据的容量、数据的获取速度或数据的表示限制了使用传统关系方法对数据的分析处理能力。
需要使用扩展的机制来提高数据处理效率的技术。
1.1大数据概述大数据的特征容量大1谷歌每月处理数据量在400PB,能处理千亿以上的网页数量百度目前数据总量接近1000PB,存储网页数量近一万亿,每天处理60亿次搜索请求一个8Mbps的摄像头一小时可产生3.6G数据1.1大数据概述1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176BytesBB/NB/DB/CB一个汉字两个字节2byte,1Kb512个汉字1.1大数据概述红楼梦含标点87万字(不含标点853509字)每个汉字占两个字节:
1汉字=16bit=2*8位=2bytes1GB约等于671部红楼梦1TB约等于631,903部1PB约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:
收录数据235TB)1EB=4000倍美国国会图书馆存储的信息量1.1大数据概述种类多大数据的特征2越来越多非结构化数据;
工业、农业、音视频、天气、地理位置信息等多类型数据。
既有结构化数据也有非结构化数据,还有HTML和XML等半结构化数据。
1.1大数据概述消费行消费行业业金融服金融服务务食品安食品安全全医疗卫医疗卫生生军事军事交通环交通环保保电子商电子商务务气象气象1.1大数据概述高速度大数据的特征3大数据能够更快地满足实时性的需求。
实时分析、要有立竿见影而非事后见效效果。
对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。
1.1大数据概述Thisisanexampletext.Goaheadandreplaceit.03价值密度低大数据的特征4数据量大并不意味着数据价值大,想得到有价值的数据就像大海捞针,因为有用的数据一般都是隐性的,所以大数据面临的考验就是怎么从海量的数据中发现规律,找出有用的数据。
*1.2大数据的产生和发展马云对未来的预测,是建马云对未来的预测,是建立在对用户行文分析的基立在对用户行文分析的基础上。
础上。
大数据的产生和发展硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及物联网大数据产生的前提大数据产生的前提:
大数据的产生和发展什么是云计算?
狭义的云计算是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。
提供资源的网络被称为“云”。
“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
这种特性经常被称为像水电一样使用IT基础设施。
广义的云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。
这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务。
举个例子:
阿里云计算发布的Matrix+(码+)计划,通过连接全球PC、平板电脑、超便携设备和手机等设备,组建人类有史以来最为强大的计算网络,这些强大的计算能力将被用来搜索外星人。
大数据的产生和发展云计算(cloudcomputing)是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。
因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。
用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。
大数据的产生和发展Iaas(基础设施即服务InfrastructureasaServic),阿里云、亚马逊AWS、微软AzurePaas(平台即服务Platform-as-a-Service),GAE(谷歌)、阿里ACESaas(软件即服务Software-as-a-Service)大数据的产生和发展大数据的产生和发展*facebook社交网络淘宝、ebuy电子商务微博、Apps移动互联21世纪是数据信息大发展的时代,移动互联、社交网络、世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。
迅速膨胀并变大。
互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
“大数据”的诞生:
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。
它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。
信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。
如今,这个概念几乎应用到了所有人类智力与发展的领域中。
1.2大数据的产生和发展*GBTBPBEBZB想驾驭这庞大的数据,我们必须了解大数据的特征。
在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;
在2011年,这个数字达到了1.8ZB。
而有市场研究机构预测:
到2020年,整个世界的数据总量将会增长44倍,达到39.2ZB(1ZB=10亿TB)!
)!
1.2大数据的产生和发展大数据的发展大数据的发展大数据的产生和发展大数据的产生和发展1.3大数据与传统数据的区别数据规模:
GB,TB,甚至是PB和EB为基本单位数据类型:
结构化,半结构化,非结构化模式和数据的关系:
先模式后数据与先数据后模式处理对象:
数据作为处理对象与作为资源的区别存储方式:
关系型数据库存储与非关系型存储*数据的再利用:
数据的再利用:
由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。
例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。
但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。
大数据价值链的大数据价值链的3大构成:
数据本身、技能与思维大构成:
数据本身、技能与思维其中三者兼具的有谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想法。
比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与实景交汇的产品。
未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。
大数据时代传统行业最终都会转变为大数据行业,无论是金融服务业、医药还是制造业。
大数据的应用未来,改变一切又是崇山峻岭,又是长城,又是红色的中国地图我的老天鹅!
这也太厉害了大数据的应用(新的生活方式)购物:
购物:
不受时空限制,随时随地购物。
在看不到商品的情况下,口碑就是质量。
大数据的应用(新的生活方式)旅行:
旅行:
足不出户,安排好一切。
大数据的风险1.安全问题2.数据的真实性和规律性问题大数据的风险根据2012年6月16号纽约时报的一篇报道介绍了一个美国的父亲很生气的找到美国TARGET公司,因为TARGET公司说她女儿怀孕了,而他的女儿才15岁。
但是1个月后他又来到了TARGET公司道歉承认他的女儿确实怀孕了,TARGET是一家优惠券发行及网上零售公司,TARGET公司利用大数据发现怀孕的妇女有不同的购买习惯,比如怀孕3个月后会购买无香料的洗发水等,5-6个月后会买补品等,通过类似的搜索,发现相应的客户。
大数据的风险大数据时代没有隐私爱德华斯诺登谢谢
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 应用 分析 技术 方法 概述