大数据应用与实践8.docx
- 文档编号:644909
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:11
- 大小:437.13KB
大数据应用与实践8.docx
《大数据应用与实践8.docx》由会员分享,可在线阅读,更多相关《大数据应用与实践8.docx(11页珍藏版)》请在冰豆网上搜索。
大数据应用与实践8
大数据应用与实践(8)
胡经国
本文根据有关文献和资料编写而成,供读者参考。
本文在篇章结构、内容和文字上对原文献作了一些修改和补充,并且添加了一些小标题,特此说明。
十七、确保大数据业务成功的七个步骤
1、关于大数据的三个重要事实
对于大数据有以下三个重要的事实。
⑴、大数据并不是新趋势
自20世纪90年代,亚马逊、微软和谷歌就开始进行大数据工作。
几十年来,很多公司都一直在挖掘数据。
可能由于当时只有资金雄厚的大型公司,才能够进行大数据研究;但是大数据确实早已存在。
现在,基于廉价的计算和存储能力以及新工具和技术,几乎每个人都可以使用高级数据挖掘技术和算法了。
很多人认为,大数据只是商业智能(BI)的新名称。
虽然这两者有相似之处,但是大数据已超出了BI的范畴。
⑵、大数据的“大”是相对的
现在,各行业各组织确实正面对创纪录水平的数据增长。
据IDC称,我们每秒创造超过58TB数据。
到2020年,将拥有超过35ZB的存储数据。
然而,大数据并不一定是巨大的;大数据并不在于其规模,而在于需要如何处理它。
拥有100TB数据的小公司可能也存在大数据问题。
因为,他们需要提取、分析数据,并且据以作出决策。
⑶、大数据处理的数据的定义是广泛的
它可以包含结构化和非结构化数据。
对于一些公司来说,最重要的是大数据的元数据,或者是关于数据的数据。
麦肯锡将大数据定义为:
“其规模超出传统数据库软件的捕捉、存储、管理和分析能力的数据集”。
然而,这些数据集需要大量运行在数百甚至数千台服务器(云)中的并行软件(系统)来处理。
2、大数据业务成功必须遵循的七个步骤
以下是确保大数据业务成功必须遵循的七个步骤。
⑴、承认存在问题
这往往是最难的一个步骤。
以前,我们拒绝承认我们的网络已不再受防火墙和代理服务器设置的保护;而我们不得不为员工远程访问开放基础设施并拥抱互联网。
对于大数据,IT领导者需要评估其数据情况:
①、你的数据集是否让你不堪重负?
②、你不知道所有数据的位置?
③、你(或者企业领导者)没有从你的数据中得到所需的信息?
④、企业领导没有基于数据来做决策?
⑤、有可能提高IT在企业政策和战略决策中的相关性?
如果你像大多数公司一样,部分或者所有这些问题的答案都是肯定的,那么是时候控制你的数据,并从中挖掘出情报以提供给领导层做决策。
⑵、认识到大数据带来的大机会
我们总是被告知,要紧密联系业务。
“业务技术”这一说法已存在多年;但是我们总是很难看到最新的软件和流程,如何直接影响收入或者全球经济增长。
而大数据却可以。
为什么?
因为,信息就是力量。
企业领导需要从数据中挖掘出信息,来帮助企业竞争和发展。
员工、客户和市场产生的大量数据,让整个企业(从销售到营销部门)都不堪重负。
而大数据能够为你提供简洁而且实时的价值信息,帮助增加收入。
⑶、制定大数据计划
与任何计划一样,你开始就应该想到结果。
企业需要知道什么?
他们需要回答的问题是什么?
在你开始使用Hadoop前,解决这些问题,并且签订联合协议。
然后,按照下列步骤操作(每个步骤可能需要数周或者数月):
①、隔离属于大数据的部分数据。
②、分离产品大数据和公司大数据。
例如,人力资源分析需要的员工数据与电子商务平台的客户或产品搜索数据,需要分离。
③、认识和了解你的数据的波峰和波谷。
④、了解哪些技术允许实时(或接近实时)大数据处理。
⑤、确定关键的解决方案/供应商。
⑥、从小事做起,评估与发展——先做一个项目。
让你可以快速展示成果和ROI。
然后,转移到下一个大数据项目。
⑦、继续分析、调整和输入——大数据是灵活的,需要随着数据、情报和企业要求的变化进行调整。
⑷、利用分布式系统
大数据要求我们,转换对系统和基础设施的想法。
正如虚拟化从根本上改变了我们利用服务器和应用程序的方式,分布式系统和处理使我们能够管理大数据。
因为,分布式架构允许我们将问题分解成很多小任务;然后将这些任务分配到多个系统。
好消息是,我们拥有越来越多的架构框架可以利用,包括:
Cassandra、Hadoop、VMware、RedHat等。
分布式系统并不新鲜,但是大数据将其提升到全新的水平。
分布式方法包括:
①、多租户架构;②、分布式数据库;③、虚拟化;④、多线程;⑤、多核心CPU;⑥、并行处理;⑦、分布式文件系统;⑧、分布式负载均衡;⑨、RAID算法。
⑸、从分布式到分散式
①、采用分散式方法的必要性
对大多数公司来说,这是真正的范式转变。
这也是大数据和云计算结合的地方。
鉴于互联网是世界上最大的分布式和分散的系统,我们应该更加充分地利用互联网来实现大数据。
我们很喜欢分布式实例或者计算处理。
但是分散式往往有种失去控制的感觉。
这有必要吗?
对于大数据,采用分散式做法是必要的。
因为,由于过度和孤立的服务,所有未使用的实例和存储容量都将被浪费。
更重要的是,单靠分布式组件,无法让我们跟上数据增长的步伐。
IDC估计,到2020年,产生的数据和数据中心容量之间的差距,将达到60%。
然而,部分原因还在于没有充分利用已经拥有的存储容量。
Gartner(高德纳咨询公司)估计,大多数计算机、服务器和网络,只运行了30%的容量,以准备好应对峰值或者未来增长。
虽然我们可能永远不会以90%或者100%的容量运行,但是我们可以更好地利用现有的容量,节省数百万美元,提高现有基础设施的总体拥有成本(TCO)。
②、分散式方法的主要特点
没有中央瓶颈;大量的能力;有机的需求推动容量增长;充分利用现有的基础设施和边缘设备;信息共享;假定每个人/每一个节点是“不可信任的”;地理分布:
所有权和参与、成本、管理开销、风险。
③、分散式方法的例子
分散式方法存在很多很好的例子。
其中,最知名的就是开源运动。
分散式方法还有两个新例子,将其定义为分散式云系统:
CloudStack和OpenStack。
我们仍然位于分散式方法的早期阶段。
但是随着数据继续增长,这将是未来几年的重要趋势。
链接:
CloudStack
CloudStack是一个开源的具有高可用性及扩展性的云计算平台,同时也是一个开源云计算解决方案。
它可以加速高伸缩性的公共云和私有云(IaaS)的部署、管理、配置。
使用CloudStack作为基础,数据中心操作者可以快速方便地通过现存基础架构创建云服务。
链接:
OpenStack
OpenStack是一个开源的云计算管理平台项目,是一系列软件开源项目的组合。
由NASA(美国国家航空航天局)和Rackspace合作研发并发起,以Apache许可证(Apache软件基金会发布的一个自由软件许可证)授权的开源代码项目。
OpenStack为私有云和公有云提供可扩展的弹性的云计算服务。
项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。
⑹、雇佣/培养合适的人才和技能
云计算并不意味着有更少的IT工作,但是云计算和大数据的出现的确意味着我们需要发展我们的技能和培养人才。
在大数据世界,数据库管理员等现有岗位变得更加重要。
你还需要培养和招聘的其他职位包括:
数据科学家、架构师、随机理论师(算法)、业务分析师、UX/UI(平面设计/交互设计)专家。
其中一些职位似乎是合乎逻辑的,但是对于业务分析师和UX/UI专家,传统上不属于IT部门,你可以将这些人员安排在生产管理中,而在大数据解决方案中,他们需要携手开发和运营团队。
这是因为,你不能直接将大数据信息交给业务方面,使用图表和易于理解的分析是关键。
此外,如果你还没有整合开发/运营团队来更好地管理云计算部署,那么现在可以这样做了。
这两个团队必须携手合作来实现任何云计算或者大数据战略。
⑺、通过大数据来利用数据
正如IT职位可能开始更倾向于业务,IT需要改变其度量的方式。
你的团队中的每个人都应该热衷于追踪和记录关键性能指标(KPI);这些应该符合业务指标,而不只是及时发布和交付高质量代码。
技术团队的每个人都应该有明确的指标,并且努力寻找新方法来提高指标结果。
链接:
KPI
KPI(KeyPerformanceIndicator,关键绩效指标)是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。
KPI可以是部门主管明确部门的主要责任,并且以此为基础明确部门人员的业绩衡量指标。
建立明确的切实可行的KPI体系是做好绩效管理的关键。
关键绩效指标是用于衡量工作人员的工作绩效表现的量化指标,是绩效计划的重要组成部分。
十八、大数据在安防领域的应用
大数据在安防领域的应用已全面展开,安防已进入大数据时代。
如何利用音视频分析技术,从这些数据中提取有效信息,找寻到对应的线索,是大数据挖掘的价值所在。
1、安防行业大数据应用现状
在大数据时代,作为海量数据的主要来源之一,安防行业相关应用产生了大量的信息数据。
特别是,在当前大集成、大联网的环境下,数据量呈现出了飞速增长的趋势。
海量数据也带来了数据整合、数据存储、数据分析应用等一系列问题。
通过寻求解决这些问题的方法,也进一步促进了大数据技术和产品在安防行业的应用。
当前,安防行业本身的数据资源主要还是视频资源。
基于视频资源去比对、去关联、去拓展;而视频大数据处理主要还聚焦在数据的体量上。
因此,无论是在数据分析应用的深度和广度上,还是在数据价值的挖掘上,都无法满足精确防控、立体化防控的要求,无法更好的服务公共社会安全。
2、安防行业大数据主要应用方向
安防领域大数据应用目前主要有以下两个方向:
一是智能交通,二是公共安全。
⑴、智能交通领域
在智能交通领域,针对交通行业的海量数据处理需求,智能交通管理系统可以在海量数据、恶劣网络环境和复杂业务处理情况下,实现大量图片、车辆数据、视频数据的实时网络传输和快速持久化存储;同时对任意节点图像进行显示,对任意节点视频进行流畅播放,实时进行比对报警,快速进行多条件检索;并且将各类多媒体数据和车辆数据合二为一。
该系统可以实现对城市道路交通中异常行为的智能识别和自动报警等,从而减轻了交管监控人员的工作负担,提高了监测的准确度,使得交通管理工作更加高效。
⑵、公共安全领域
在公共安全领域,应用大数据辅助公安人员快速开展治安防控、警情研判及指挥决策,发掘公安信息资源价值。
例如,犯罪嫌疑人追查,可通过输入嫌疑人照片进行人脸特征识别,并且在所有视频中寻找该人脸。
犯罪嫌疑车辆追查,可输入嫌疑车的照片或颜色、车型等相关特征,在所有视频中寻找。
人车物的轨迹分析,即在所有视频中,按照特征查找指定的人、车、物,并绘制其时空轨迹。
3、安防大数据应用难点
⑴、数据整合问题
不同来源的大数据分别存储于相互独立的系统中。
将这些数据集中于一个统一的平台,是安防大数据实施的基础性工作。
但是,行业、部门壁垒是最大障碍。
即使只是公安内部的视频数据,各省、地市也互不相通,想采集集中也不是一件容易的事。
即使集中后,如何找到这些不同类型数据之间的关系,从而挖掘出有价值的数据,也是一个难点。
⑵、数据挖掘及分析算法的成熟度问题
对于安防数据中最重要的视频数据,对其进行智能视频分析和挖掘是很困难的事情。
目前,除了车牌识别、人数统计等算法较为成熟以外,对视频进行事件分析、人脸识别、摘要等技术,都还没达到大规模的商用水平。
这也极大地制约了安防大数据的应用。
⑶、时效性问题
安防大数据的目的之一就是要解决现有安防系统内以事后查看、分析为主的数据(特别是视频数据)应用形式;还要增加以事前预警、实时处理。
这对大数据处理技术的实时性要求很高。
这种时效性就决定了视频安防大数据的高运算量、高传输带宽的需求。
⑷、信息安全与用户隐私问题
安防行业,特别是公安行业,对数据的安全性要求非常高。
这也是造成数据的区域隔离的重要原因。
同时,在利用安防大数据上如何保护用户的隐私,也是一个非常重要的课题。
目前,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 应用 实践