大数据技术读书报告Word下载.docx
- 文档编号:13179139
- 上传时间:2022-10-07
- 格式:DOCX
- 页数:8
- 大小:25.58KB
大数据技术读书报告Word下载.docx
《大数据技术读书报告Word下载.docx》由会员分享,可在线阅读,更多相关《大数据技术读书报告Word下载.docx(8页珍藏版)》请在冰豆网上搜索。
目前,两天就能创造出自人类文明诞生以来到2003年所产生的数据总量。
大数据已经成为重要的时代特征,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元的收入,帮助欧洲公共部门的管理每年提升2500亿美元产值,帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长率。
由此可见,充分利用大数据和挖掘大数据商业价值将为行业企业带来强大经济效益与竞争力。
(3)数据是国家的核心资产
一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,对数据的占有和控制,甚至将成为陆权、海权、空权之外的另一种国家核心资产。
联合国也在2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府是一个历史性的机遇,通过极为丰富的数据资源,对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
2、大数据的来源(产生源泉)
早在1980年,著名未来学家阿尔文·
托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪大数据”。
不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。
大数据这个术语最早期的引用可追溯到apacheorg的开源项目Nutch。
当时,大数据被描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。
随着谷歌MapReduce和GoogleFileSystem(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。
有的资料上显示,“大数据”一次首次被提出是在2011年有关机构发布的研究报告——《大数据:
创新、竞争和生产力的下一个新领域》之中。
这份报告研究了数据和文档的状态,同时分析了处理这些数据能够释放出的潜在价值。
大数据主要来自于物理世界与互联网世界。
3、什么是大数据?
按照维基百科的定义,大数据(BigData)又被称为巨量资料或海量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为对企业经营决策具有较高参考价值的资讯。
4、大数据的特性
业界普遍认为,大数据具有4个关键特征,分别是海量化、多样化、快速化和价值化。
麦肯锡最早预言了大数据时代的到来:
“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。
人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
”IBM则最早定义了大数据的特征:
规模性Volume、多样性Variety、价值性Value和高速性Velocity,因此这些也被称作“4个V”。
“4个V”反映了大数据在四个层面上的特点:
第一,数据体量巨大。
第二,数据类型繁多。
第三,价值密度低、商业价值高。
第四,处理速度快。
5、中国政府对大数据的重视程度
习近平
政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日
“大数据”首次写入政府工作报告
奥巴马
“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。
李克强:
加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。
李克强
经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务
汪洋
数据为王,财政工作离不开大数据
二、主要内容与要点
大数据技术是指大数据的采集、传输、处理和应用的相关技术,一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结构的一系列数据处理技术,称之大数据技术。
而大数据技术的主要内容即是:
(1)结果呈现:
标签图、关系图
(2)数据分析:
统计分析数据挖掘模型分析
(3)数据处理:
自然语言处理技术
(4)数据采集:
ETL工具
一般来说,大数据处理的流程可以概括为四步,分别是大数据采集、大数据导入与预处理、大数据统计与分析、大数据挖掘。
(1)大数据采集
大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。
大数据技术在数据采集上的方法如下所述:
①系统日志采集方法
②网络数据采集方法
③其他数据采集方法
(2)大数据导入与预处理
虽然采集端本身设有很大数据库,但是如果要对这些数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上作一些简单的清洗和预处理工作。
也有一些用户在导入时使用来自Twitter的Storm平台来对数据进行流式计算,来满足部分业务的实时计算需求。
大数据导入与预处理过程的主要特点是导入的数据量大,每秒钟的导入量经常达到百兆,甚至千兆数量级。
(3)大数据统计与分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的大数据进行分析和分类汇总等,以满足常见的分析需求,在所需的工具方面,一些实时性需求应用EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析部分的主要特点是分析中涉及的数据量巨大,对系统资源,特别是I/O资源占用极大。
(4)大数据挖掘
与前面所述的统计与分析过程不同,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测的效果,从而实现一些高级别数据分析的需求。
比较典型算法有Kmeans聚算法、SVM统计学习算法和NaiveBayes分类算法,主要使用的工具有Hadoop的Mahout等。
该过程的特点主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
大数据处理的流程至少应该满足上述四个基本步骤,才能成为一个比较完整的大数据处理过程。
三、过去和现在的主要应用
1、大数据的商业价值
①客户关系管理
大数据根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失率、提高客户消费等。
②企业经营决策
某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。
③个性化营销
银行与客户的交流渠道进行了整合,只要某个客户在网上点击查询了有关房贷利率的信息,系统就会提示呼叫中心在电话交流时推荐房贷产品,如果发现顾客确实对此感兴趣,销售部门就会发送推介信息给客户,如果这位顾客到银行网点办事,业务人员就会详细介绍房贷产品,开始只有少量的线索,但通过多渠道的与顾客交互接触,在这个过程中,令顾客体验了银行精准、体贴的服务,其结果是营业收入大为增加,成本大幅降低。
④社会化管理
比如在大数据的帮助下,什么时间段、哪条路拥堵等问题,都可以通过分析得知。
通过同一条路上多个用户手机位移的速度便可以判断当时的路况,为拥堵作出准确预警。
大数据技术对历史性逮捕模式、发薪日、体育项目、降雨天气和假日等变量进行分析,从而优化警力配置。
2、医疗行业中的应用
①医疗保健内容预测分析。
利用医疗保健内容分析预测技术可以找到大量患者相关的临床医疗信息,通过大数据处理,能够更好地分析患者的信息。
②早产婴儿的预测分析。
在医院,针对早产婴儿,每秒钟有超过3000次的数据读取,通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
③精确诊断的预测分析。
通过社交网络可以收集数据的健康类应用,它们搜集的数据可使医生的诊断变得更为精确,例如,不是通用的成人每日三次一次一片,而是通过检测到人体血液中药剂已经代谢完成之后,自动提醒患者再次服药。
3、能源行业的应用
①智能电网现在已经进入了终端,也就是所谓的智能电表。
为了鼓励利用太阳能,在家庭安装太阳能,除了卖电给你,当家庭的太阳能有多余电的时候还可以买回来。
通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间内,整个电网大概需要多少电。
有了这个预测后,就可以向发电或者供电企业购买一定数量的电。
因为电如同期货一样,如果提前买就会比较便宜,买现货就比较贵。
通过这个预测后,可以明显降低采购成本。
②风力系统依靠大数据技术对气象数据进行分析,可以找出安装风力涡轮机和整个风电场最佳的地点。
以往需要数周的分析工作,现在利用大数据仅需要不足1h便可完成。
③智能电表。
智能电表可以实现供电公司能每隔15min就读一次用电数据,而不是过去的一月一次。
这不仅节省了抄表的人工费用,而且由于能高频率快速采集分析用电数据(产生大数据),供电公司就能够根据用电高峰和低谷时段制定不同的电价,利用这种价格杠杆来平抑用电高峰和低谷的波动幅度。
实际上,智能电表和大数据应用让分时动态定价成为可能,而且这对于供电公司和用户是一个双赢结果。
4、交通行业的应用
交通系统的4个要素,即人、车、路、环境相互依赖,相互作用。
下面简单列举大数据在交通行业应用的几个方面:
①构建优化的交通方案
随着汽车工业的发展,车辆保有量的不断攀升,车与路、车与环境之间的矛盾日益加剧,诸如交通堵塞、事故增多、能源浪费和环境污染等问题的恶化,需要通过对历史以及现在的车辆情况、路网情况的实时大数据进行分析,制定更为优化的系统方案,使车辆行驶在最佳路径上,从而缩小行车时间,节省燃料,减少环境污染,提高路网通行能力和服务质量。
②制定最佳的出行方案
针对交通系统的复杂性,需要对气象信息、社会状况、经济情况等进行大数据分析,制定最佳出行方案。
③及时处理突发交通事故
针对交通系统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 读书 报告