大数据时代 第四章文档格式.docx
- 文档编号:22761974
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:21
- 大小:39.73KB
大数据时代 第四章文档格式.docx
《大数据时代 第四章文档格式.docx》由会员分享,可在线阅读,更多相关《大数据时代 第四章文档格式.docx(21页珍藏版)》请在冰豆网上搜索。
从图4—l中可以看出,首个生命周期从数据创建开始,包含数据存储、数据使用、数据分享和数据归档几个方面;
在数据的新生命周期中,数据重组和数据扩展是实现数据再利用的重要方式。
在生命周期的每一阶段,数据估值与数据折旧始终交替贯穿在整个大数据的数据生命周期中,不断根据估值的结果调整数据折旧率。
依据数据相对于组织的价值来管理数据不仅能保证数据的循环可用性和实效性,满足组织内部业务需求,又能降低数据存储系统的成本。
同时,与现实生活中只能给环境和人们带来祸患的工业废气不同,“数据废气”仍然可以变废为宝,如同其他可回收材料一样被循环使用,继续发挥价值,实现数据的再利用。
二、大数据生命周期管理的意义运用大数据生命周期管理的思想来管理数据,可以为组织带来巨大的效益,主要反映在“提高数据的使用效率”“最大限度地利用数据的价值”“降低数据使用的成本”三个方面。
(一)提高数据的使用效率数据生命周期管理实质是对组织中的所有数据进行的一种分类管理,它根据组织的特性,按照特定的“保存规则”对数据加以组织,在整个数据生命周期中对数据进行动态智能化管理,提高数据的使用效率。
比如,一些企业将数据分为五个层次:
至关重要的数据、关键业务数据、可访问的在线数据、近线数据和离线数据,并根据不同的层次,制定数据管理标准,投入不同的数据分析人力和数据维护成本。
其中,至关重要的数据和关键业务数据是企业的核心竞争力,这些数据是数据再利用的主要数据来源,因而数据利用者应着重对这两类数据进行重组和扩展,延长它们的生命周期。
(二)最大限度地利用数据的价值在大数据时代,数据价值不仅体现在它的基本用途方面,还体现在其更大的潜在用途方面,这会影响一个组织评估其拥有的数据及访问方式,促使组织改变自身的业务模式,改变组织看待和使用数据的方式。
例如,在企业的现实环境中,存储有大量的运营数据,这些运营数据无疑是大数据分析的重中之重。
同时,以往不太受到重视的系统运行数据和备份数据也会发挥出巨大的作用,这些数据中的宝藏也亟待挖掘,在企业各个层级中得到运用。
(三I降低数据使用的成本组织可以根据数据的价值对其进行管理,这些规则通常包括时间与访·
88·
问频率、事件等组合形式。
采用数据生命周期管理技术可以建立分层存储环境,这些分层规则对组织具有多方面的好处。
在整个数据生命周期中对数据进行智能化管理,可以释放出更多的可用存储空间,整合或折旧很少被访问或根本不被访问的数据,提高组织内应用软件的性能,降低存储资源的成本,最终为组织带来更大的效益。
大数据的数据生命周期管理能够实现数据存储和利用的动态化管理。
企业通过对数据价值的评估而制定不同的管理策略,使具有现时价值的业务数据突出出来,并通过对无用的数据进行有效折旧,提高数据资源的利用率和可用性。
第二节数据的再利用信息技术的飞速发展,极大地便利了数据的收集,大量信息可以被廉价地捕捉和记录;
同时,数据的存储成本也在大幅度下降,可以说,保存数据比丢弃数据更加容易。
这些条件都成为大数据时代数据再利用的重要前提和保障,专业技术人员需要做的是运用自己的创造力和新工具来释放数据的潜在价值,寻找数据之间的新联系。
一、数据再利用的概念及其特征数据再利用的概念可以这样理解:
组织中为某个特定目的而生成的数据,被重新使用在另一个目的上,数据从其基本用途扩展到了二级用途。
三级用途甚至n级用途上,这使得数据随着时间的推移变得更有价值。
数据利用者需要做的是不断地借助各种方法和技术寻找数据的“潜在价值”。
例如,对于一个企业来说,客户数据、行业数据是其最宝贵的资源,如果能将这些数据从一个业务领域向另一个业务领域进行扩展和再利用,就能发挥数据低成本复制和增值的价值,为企业带来经济效益。
数据之所以可以再利用,主要在于它具有可被再利用的特性,包括增值性、非竞争性和整合性。
《一)增值性在大数据时代,数据在完成其基本用途后,还可以转化为未来的潜在用途,数据的全部价值远远大于其最初的使用价值。
这意味着只要组织对数据加以有效的再利用,数据首次使用后的每一次使用都会不断地给组织·
89·
带来新的价值。
(二)非竞争性经济学中的“非竞争性”是指个人的使用不会妨碍其他人的使用。
而数据正符合这种特征,只要是合法合理的条件下,不同的人或不同的组织都可以使用数据来达成自己的目的。
也就是说,数据不同于物质性的产品,它的价值不会随着它的使用而减少,而是可以不断地被处理。
数据的非竞争性使得数据的价值不限定在唯一的用途上,而是可以多次地被不同的部门、为不同的目的使用,而且,这种使用不会影响到他人的利益。
(三)整合性大数据的数据类型繁多,而且,相对于以往以数值数据为主的结构化数据,非结构化数据越来越多,网络日志、音频、视频、图片、地理位置等多元数据都对组织的数据处理能力提出了更高要求。
通过数据集成技术,将这些来源不同、结构不同的数据整合在一起,形成可以面向多种应用的数据集合,可以使得大数据发挥出强大的预测和分析作用。
二、数据再利用的意义大数据的价值在于分析与使用,数据的再利用也成为大数据时代数据使用的关键,组织想要充分开发利用数据的价值,就必须具有数据再利用的思维,掌握数据再利用的方式方法。
概括地说,数据再利用对于一个组织的意义在于三个方面:
一是挖掘数据的潜在价值,二是实现数据重组的创新价值,三是利用数据可扩展性拓宽业务领域。
(一)挖掘数据的潜在价值在大数据应用背景下,数据存储成本的日益降低、数据分析技术与工具的飞速发展以及组织“大数据观”的建立,为组织进一步充分挖掘过去不被重视或无法处理的数据提供了条件。
大数据蕴藏的巨大“潜在价值”会得到最大程度的挖掘,从而为组织的客户服务、产品创新和市场策略提供决策支持。
(二)实现数据重组的创新价值互联网的发展使得现代组织不再可能孤立的发展,组织间信息和数据的共享重组已经成为合作的常态。
例如,越来越多的企业开始注意到数据重组为自己带来的巨大价值,从网站数据、移动终端数据、电子商务记录、企业微博等不同渠道的数据中探寻内在关联关系,通过数据融合的方法再次整合数据,开发数据的创新价值。
·
90·
(三)利用数据可扩展性拓宽业务领域客户数据、行业数据对于组织来说是重要的战略资源,如果组织能将这些数据从一个业务领域扩展应用到其他业务领域,就可以实现数据的可扩展功能,发挥数据的增值价值,扩宽企业的业务领域。
三、数据再利用的案例通过数据再利用创造更多的价值的案例有很多,其中以协助书籍数字化工作的reCAppCHA项目和预测性医学信息学相关的谷歌流感趋势最为典型。
《一)从辨识用户到协助书籍数字化一eCAPTCRAreCAPTCHA源自CAACHA,CAACHA的中文全d亦是“全自动区分计算机和人类的图灵测试(ComPletelyAutomatedPUblicTuringTesttoTellComputersandHumansApart)”,即“验证码”。
CApoCHA由卡内基梅隆大学的教授冯·
安(LuisvonAhn)设计,旨在防止垃圾注册或者垃圾评论。
reCAPTCHA作为CAppCHA继任者在功能上进行了升级,它借助于人类对复杂字符的辨别能力,对古旧书籍中难以被OCR(OPticalCharac-terRecognition,光学字符识别)识别的字符进行辨别,实现古籍的数字化工作。
reCAPTCHA已被应用于4万多个网站,并辨别出了约4.4亿个字词。
许多著名网站,如Facebook、Twitter等,都采用了reCAppCHA,每天都可以处理大约一百万个单词。
reCAppCHA不仅实现了“验证码”的作用,用户输人的内容又可以再一次地利用在古籍中模糊字符的识别上。
reCAppCHA的工作流程如图4----ty所示。
首先,被扫描的古籍由于自身损坏程度较大或印刷模糊等问题会含有一些机器无法识别的单词,这些单词被挑出来后进行字形扭曲和加上横线等处理。
在作为验证码时,两个单词会一起出现在用户眼前,其中一个单词是已经被其他用户辨识正确的,如果这个“老词”被这个用户正确辨识,则证明该用户的确是真人而非机器爬虫,另一个单词则是有待识别的新词,等待用户进行识别。
此外,为了保证准确率,系统会将同一个新词发给五个不同的人,直到这五个用户都对新词进行了识别,才根据这些用户的输人结果确定新单词的拼写。
这样,每输人一次验证码,就为机器增加了一条新的识别规则,从而使得机器识别出一个新词。
91.图4--streCAgrCHA原理示意图通过reCAppCHA的案例可以看出,数据原本的主要用途是辨别提交信息的用户是否是人,而通过数据再利用则实现了辨识模糊词的功能,为书籍的数字化工作提供了新的便利,充分发挥了数据的潜在价值。
〔二)关键词带来的预测性医学信息学——谷歌流感趋势(GoogleFIuTrends)谷歌(Google)流感趋势项目利用了人们在网络上的搜索行为来展示流感的流行病学特征并预测流感趋势。
在流感多发季节,人们会通过谷歌等搜索工具了解流感的爆发情况以及应对流感的一些措施。
很显然,在这段时间里,如“流感”“发烧”“勤洗手”“戴口罩”“流感疫苗”等这些与流感相关的关键词会高频率地出现在搜索引擎中。
同时,人们也会通过Twitter等社交工具反映本人或其朋友是否感染了流感,并发布与流感相关的信息等。
谷歌利用这一现象,抽取与流感相关的关键词并对词频进行分析,从而预测流感的传播情况。
相对于传统的疾病监测系统,这种方法成本低廉而且能较早地预测流感的爆发。
对比谷歌流感趋势2004年至2008年流感流行病数据与美国国家疾控中心的数据可知,两者的结果非常吻合。
而获得谷歌流感趋势结果的成本要远远低于美国国家疾控中心的预测结果,后者是花费了相当数量·
92·
的调研经费才取得的。
谷歌在美国的九个地区做了测试,最后发现他们可以比联邦疾病控制和预防中心提前7到14天准确地预测流感的爆发。
预测性医学信息学(PredictiveMedicalInformatics)在未来必将有更大的发展空间,其重要性也将渐渐被人们认识到,谷歌流感趋势仅是个开端。
谷歌的搜索数据是具有巨大价值的分布式数据,大数据思维促使企业收集和再利用这些用户离散地创造的数据,并探寻原来小数据时代不会被发现的关联模式。
虽然,对于噪音会破坏其模型精度的讨论一直存在,但这也促使谷歌的开发者们不断调整模型,寻找减少噪音的跟踪方法。
即使存在一些质疑,谷歌流感趋势项目仍然被认为是大数据具备革命性潜力的典范,是大数据再利用的最前沿、最实际、最具应用前景的尝试。
无论是Facebook.Twitter这些社交平台将用户的信息存人到巨大的个人信息库中以待开发,或是电商企业通过整合网上搜索信息以寻找新一季的热卖款,又或是利用电动汽车的电池信息以确定充电站的最佳设置点,这一个个实例都在说明,专业技术人员应及时运用自己的创造力和新工具来释放数据的潜在价值,寻找数据之间的新联系。
第三节数据的重组与扩展一、数据重组数据在被使用之后,可以再与其他数据重组形成新的数据集合,这种新的数据集合有可能比之前两个数据集的单个价值总和具有更大的价值,这就是大数据时代下数据重组的魁力。
数据重组要求专业技术人员在工作中深刻了解每个数据集的内容和结构,掌握多源数据融合的方法,努力挖掘不同数据集之间的关联关系,从而探寻出更多具有实际价值的、新颖的数据模式。
(一)数据重组的含义无论是政府还是企业,在应用大数据的过程中,最重要的是对已有数据进行整合和重组,通过重组,“老树”也可以“开新花”。
也就是说,数据的价值并非来自于单个的数据值,而是从数据汇总中体现出来。
有时,一些数据处于休眠状态,其数据价值要通过与另一个不同的数据集相结合才能释放出来,并创造出很多非常有意义的结果。
93·
数据重组的概念可以这样理解:
随着大数据的出现,数据的总和比部分更有价值,将多个数据集重组在一起时,重组后的数据总的价值比单个数据价值的总和要大得多。
通过数据重组,数据的价值能达到“1+1>2”的效果。
正是由于数据重组带来的巨大的增值性,许多企业和组织都在摸索将两个或多个数据集相融合的模式,最大可能地挖掘数据的潜在价值。
《二)数据重组的主要方法大数据的一个重要特征就是数据类型繁多。
半结构化和非结构化的数据的增多对数据的处理能力提出了更高要求,需要更多新方法和新技术对多源异构数据进行整合和分析。
实现数据重组的关键是多源数据融合和数据集成,前者旨在解决大数据环境下数据的异构问题,后者则是大数据重组模式下价值提炼的关键。
1.多源数据融合大数据的来源包括但不限于网络访问日志数据、社交网络数据、智能终端数据、移动数据、视频采集数据、WebZ.0环境下产生的用户数据,以及语音通话、传感器等自动采集的数据等。
这些数据类型多样、结构复杂。
面对这样的数据,多源数据融合方法是解决异构数据重组的重要方法。
多源数据融合研究如何加工、协同利用多源数据,把不同渠道、利用多种采集方式获取的、具有不同结构的数据汇聚到一起,形成可以面向多种应用的数据集合,并使不同形式的数据相互补充,以便进行综合处理。
多源数据融合是数据分析前的重要准备过程,对同型异源信息、异质异构信息,都需要通过异源信息字段的映射、拆分、滤重、加权等方法来进行融合。
多源数据的优势在于它可以从不同视角反映人物、事件或活动的相关信息,将这些数据重组在一起并进行分析,以更全面地揭示事物之间的联系,挖掘出新的关联模式,从而为业务模式的制定、竞争机会的选择等提供有力的数据支撑与决策参考。
以电信业为例,运营商们现在主要的问题不在于没有数据或是数据量不足,而在于组合分析数据并将其转变成知识的能力相对较弱。
最近,美国AT&T公司开始对外销售其客户的使用数据,这被视为利用大数据资源营利的一种尝试。
AT&T公司对外销售的不是简单的原始数据,而是经过一定分析处理的数据,这就需要具备大数据的整合分析能力。
首先要做的就是把业务系统中产生的各类数据整合起来,比如将计费系统、资源系统等进行整合,再寻找数据间的相关性,识别真正有用的数据,排除数据废气的干扰。
同时,用户隐私保护问题也要纳人考虑。
最·
94后,经过这一系列科学化处理之后的数据才能真正被称为大数据资产。
对于电信运营商来说,建立一个大数据的前期处理平台至关重要,在这个平台上可以整合来自不同业务运营部门分散的数据,进行数据清洗和转换,完成多源数据的融合。
融合后的数据将以可以进行多维度分析的数据元组形式保存下来,进而被不断运用。
正是因为如此,电信运营商十分重视建立适应大数据异构性的集成平台,基于平台开展数据整合工作,从而实现数据价值的最大释放。
2.数据集成数据重组强调数据共享,而在实施数据共享的过程当中,来自不同部门、不同用户的数据结构、数据格式和数据质量会有很大的差异,这就可能带来数据格式不能转换或数据转换后丢失信息等问题,严重阻碍数据的流动与共享。
针对这一问题,就需要对数据进行有效的集成管理以增强数据管理竞争力。
现在,许多大型企业和政府部门都开始了信息化进程,而信息系统建设通常具有阶段性和分布性的特点,这就容易造成“信息孤岛”现象。
“信息孤岛”会造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,从而降低信息的利用效率。
数据集成旨在解决“信息孤岛”的问题,其核心任务就是将互相关“联的分布式异构数据源集成到一起,并维护数据源整体上的数据一致性,使用户能够以统一的方式访问这些数据源,提高信息共享利用的效率,实现数据重组的目的。
用户产生新的数据集成需求,而不同的数据则存储在不同的数据源中,通过数据集成技术可以将来自不同数据源的数据进行统一化集成处理,完成各种异构数据的统一表示、存储和管理的功能,这些功能在数据集成系统中实现,最后形成数据结果反馈给用户。
图4M是数据集成系统的模型。
数据集成技术面临着如何适应大数据时代的数据需求复杂的问题,以及如何充分描述各种数据源格式以便进行发布和数据交换等难题。
数据集成涉及多种计算机技术,如分布式对象技术、XML技术、面向对象技术。
SQL扩充技术以及数据库访问接口技术等。
数据集成系统需要将这些技术整合起来,从而使数据高效融合,消除“信息孤岛”,为组织带来数据的创新价值。
(三)数据重组的案例丹麦癌症协会关于手机与癌症关系的研究以及美国的LEHD项目,是两个数据重组的成功案例,展示了数据重组的创新魁力。
1.数据重组的医学贡献——丹麦癌症协会证明手机与癌症无关在移动互联时代,手机渗透到人们的工作、学习、社交、娱乐等方方面面,全球现已有60亿部手机,在一些发达国家或发达城市中,“人手一机”或“人手多机”的情景比比皆是。
这么多的用户共同担心的一个问题是,手机在给人们带来便利的同时,是否也会对人们的健康产生威胁?
甚至一些报道声称,手机辐射会5!
起癌症。
丹麦癌症协会基于以往收集的数据通过数据重组的方式就这个问题进行了研究,并给出了答案。
该研究以丹麦的42万手机使用者作为研究对象,搜集了这些对象1982年到1995年手机使用数据,同时,丹麦癌症协会还拥有丹麦所有癌症患者的信息。
这项研究将这两类数据集相结合,并试图找寻两者之间的关系。
研究发现,截止到2002年,这些使用过手机的42万丹麦人中有14249人被确诊患癌症。
根据流行病学的预测,这样的人口规模的癌症发生率应该有大约1.5万例,也就是说,使用手机的用户癌症发生率并没有明显高于流行病学预测的癌症发生率,这就意味着使用手机与癌症的发生其实关系并不大。
特别是白血病、脑癌、神经细胞癌等以往被猜测与使用手机紧密相关的癌症,在手机使用者中的发病率也不比其他种类的癌症高。
通过这两个数据源的重组,丹麦癌症协会获得了一项人体健康领域的重要研究成果,即移动通信不会对人的健康产生隐忧。
迄今为止,其他途径的研究也都表明这一结果,印证了丹麦这项基于大数据的研究具有科学性。
这种依靠数据重组的方式来进行科学研究的案例极具指导意义。
尽管这项研究的规模很大,但数据都是非常规范的,两个数据集都严格按照医疗和商业的质量标准进行采集。
最重要的一点在于,这两个数据集在多年·
96·
前就都已经生成了,当时收集数据的目的也与这项研究毫无关系,而在多年后,经过数据重组,这些沉寂的数据依然可以焕发出新的光芒。
2.政府数据重组的经典——美国LEHD项目LEHD全称为工作单位和家庭住址的纵向动态系统(longitudinalEm-ployerHouseholdDynamicsProgrsm),旨在整合美国的人口普查数据和全国各州的相关数据,为城市规划、社区建设、公交设置、商业选址等方面提供数据支持。
在未建立这个项目前,这些数据是分散的。
其中,普查部门掌握着全国每一个公民的年龄、性别、种族、住址等个人基本信息,但却没有他们的工作信息。
而具体的工作单位的名称、失业保险、纳税记录等信息基本掌握在各个州政府手里,查询的难度之大可想而知。
LEHD项目的目的就是要重组联邦政府和州政府等多个部门的数据,可以说,这是一个真正的大数据项目。
图4--4是LEHD项目的数据整合框架。
在该框架中,个人数据集来源于人口普查局和社会保障局,包含公民的年龄、性别、种族和个人住址,其中个人住址在工作职位数据集中也存在,这两个数据集通过“个人住址”这一字段相连接;
工作职位数据集来源于州政府的劳工部门,包含失业保险、社会保险和报税记录等职位信息;
工作单位数据集来源于州政府的劳工部门,包含行业类型、公司地址和公司职员数量等信息,其中以“公司地址”作为与工作职位数据集的连接字段。
这样,三个数据集通过共有的数据项宇段连成了一个整体,这个系统在一开始就有60多亿条记录。
图4--4LEHD项目的数据整合框架通过数据重组后的LEHD查询平台,可以查询一个城市的工作人口和居住人口的情况,其强大之处在于实现了数据的多维粒度分析。
该系统可·
97·
以按照地区、邮编、选区、学区、人口普查片区等各层级对数据进行层层分析。
这样,当一些突发事件发生时,就可根据这个系统给出的数据估算事发区域的人员情况,从而为救援提供决策支持。
在服务机构选址上,一个区域的人员构成及其收人情况、消费水平等因素都是影响服务机构能否长远发展的重要指标,LEHD也可以提供非常完善的数据。
2010年,LEHD项目又重组了国家气象局、联邦应急管理局、国家农业部、内务部四个单位的数据,推出了一项针对“公共应急管理”’的新应用。
该应用整合了暴雪、火山、暴雨、洪水、飓风等恶劣天气、自然灾害、人为灾害的实时数据,每4个小时更新一次。
当大规模的灾害发生时,系统就可以以最快的速度评估哪些地区受到影响,以及受灾人数和人口特征,从而对灾区的疏散、撤离、补偿等公共服务进行合理的规划,将灾害带来的损失降至最低。
hHD的案例清晰地反映出,大数据应用过程中的难点并不是没有数据,而是缺少数据的重组思维和能力。
因而,专业技术人员在具体实践工作中应努力提升自身的数据重组能力,如此,才能使得数据分析更为深人,为决策提供更强有力的支持。
数据的首要价值被使用后,可以再与其他数据重组,组成的新数据集比之前单个数据集的价值总和具有更多的价值,这就是大数据时代下数据重组的魁力。
专业技术人员在工作中应深刻了解每个数据集的数据内容和结构,掌握多源数据融合的方法,努力挖掘不同数据集之间的关联关系,从而探寻出更多具有实际商业价值的、新颖的数据模式。
二、数据扩展数据的潜在价值是一直存在的,即使数据一开始采集的目的相对单一,即使数据被搁置的时间比较久,但只要有新的分析、挖掘、整合的想法出现,这些旧的数据蕴含的价值就会被重复性地发掘出来,这正是大数据的迷人之处——无限的可扩展性。
(一)数据扩展的含义保障数据的扩展性是保障数据再利用的重要前提,也就是说,在数据采集之初就要考虑到数据的可扩展性,使数据集能具有多样的用途。
可以这样理解数据扩展:
在采集数据的伊始,就尽可能多地采集数据,并考虑数据存在的各种潜在用途,使其具有可扩展性,最大化地寻求数据的潜在价值。
可以说
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据时代 第四章 数据 时代 第四