大数据参考文献.docx
- 文档编号:1658099
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:21
- 大小:343.04KB
大数据参考文献.docx
《大数据参考文献.docx》由会员分享,可在线阅读,更多相关《大数据参考文献.docx(21页珍藏版)》请在冰豆网上搜索。
大数据参考文献
大数据研究综述
陶雪娇,胡晓峰,刘洋
(国防大学信息作战与指挥训练教研部,北京100091)
研究机构Gartne:
的定义:
大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
维基百科的定义:
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。
麦肯锡的定义:
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的赞据焦合。
数据挖掘的焦点集中在寻求数据挖掘过程中的可视化方法,使知识发现过程能够被用户理解,便于在知识发现过程中的人机交互;研究在网络环境卜的数据挖掘技术,特别是在Internet上建立数据挖掘和知识发现((DMKD)服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化或半结构化数据的挖掘,如多媒体数据、文本数据和图像数据等。
5.1数据量的成倍增长挑战数据存储能力
大数据及其潜在的商业价值要求使用专门的数据库技术和专用的数据存储设备,传统的数据库追求高度的数据一致性和容错性,缺乏较强的扩展性和较好的系统可用性,小能有效存储视频、音频等非结构化和半结构化的数据。
目前,数据存储能力的增长远远赶小上数据的增长,设计最合理的分层存储架构成为信息系统的关键。
5.2数据类型的多样性挑战数据挖掘能力
数据类型的多样化,对传统的数据分析平台发出了挑战。
从数据库的观点看,挖掘算法的有效性和可伸缩性是实现数据挖掘的关键,而现有的算法往往适合常驻内存的小数据集,大型数据库中的数据可能无法同时导入内存,随着数据规模的小断增大,算法的效率逐渐成为数据分析流程的瓶颈。
要想彻底改变被动局面,需要对现有架构、组织体系、资源配置和权力结构进行重组。
5.3对大数据的处理速度挑战数据处理的时效性
随着数据规模的小断增大,分析处理的时间相应地越来越长,而大数据条件对信息处理的时效性要求越来越高。
传统的数据挖掘技术在数据维度和规模增大时,需要的资源呈指数增长,面对PB级以上的海量数据,N1ogN甚至线性复杂度的算法都难以接受,处理大数据需要简单有效的人工智能算法和新的问题求解方法。
5.4数据跨越组织边界传播挑战信息安全
随着技术的发展,大量信息跨越组织边界传播,信息安全问题相伴而生,不仅是没有价值的数据大量出现,保密数据、隐私数据也成倍增长,国家安全、知识产权、个人信息等等都面临着前所未有的安全挑战。
大数据时代,犯罪分子获取信息更加容易,人们防范、打击犯罪行为更加困难,这对数据存储的物理安全性以及数据的多副本与容灾机制提出了更高的要求。
要想应对瞬息万变的安全问题,最关键的是算法和特征,如何建立相应的强大安全防御体系来发现和识别安全漏洞是保证信息安全的重要环节。
5.5大数据时代的到来挑战人才资源
从大数据中获取价值至少需要三类关键人才队伍:
一是进行大数据分析的资深分析型人才;二是精通如何申请、使用大数据分析的管理者和分析家;三是实现大数据的技术支持人才。
此外,由于大数据涵盖内容广泛,所需的高端专业人才小仅包括程序员和数据库工程师,同时也需要天体物理学家、生态学家、数学和统计学家、社会网络学家和社会行为心理学家等。
可以预测,在未来几年,资深数据分析人才短缺问题将越来越突显。
同时,需要具有前瞻性思维的实干型领导者,能够基于从大数据中获得的见解和分析,制定相应策略并贯彻执行。
大数据分析与处理方法分析
孔志文
(广东省民政职业技术学校,广州510310)
二、大数据分析的基本方面
大数据分析可以划分为五个基本方而。
一是具有预测性分析能力。
分析员可以通过数据挖掘来更好地理解数据,而预测性分析是分析员在数据挖掘的基础上结合可视化分析得到的结果做出一些预测性的判断。
二是具有数据质量和数据管理能力。
数据管理和数据质量是数据分析的重点,是应用在管理方而的最佳实践,通过数据的标准化流程和工具,可以达到一个预先设定好的高质量的分析结果。
三是具有可视化分析能力。
可视化是服务于分析专家和使用用户的,数据可视化是数据分析的基木要求,它可以通过屏幕显示器直观地展示数据,提供给使用者,还可以让数据自己说话,让使用者听到结果。
四是具有数据挖掘算法。
可视化是给数据专家和使用用户提供的,数据挖掘是给机器使用的,通过集群、分割、孤立点分析等算法,深入数据内部,挖掘使用价值,数据挖掘算法不仅要处理大量的大数据,也要保持处理大数据的运行速度。
五是具有语义引擎。
语义引擎能从“文档”中只能提取信息,解决了非结构化数据多样性带来的数据分析困扰,通过语义引擎,能解析、提取、分析数据,完成使用者所需要的信息提取。
三、大数据处理方法
1.大数据处理流程
大数据整个处理流程可概括为四步。
一是大数据采集过程。
用户端数据通过多个数据库来接收,用户可以通过这些数据进行简单的查询和处理,在大数据采集过程中,可能有大量的用户来进行访问和操作,并发访问和使用量高,有时可峰值可达上百万,需要采集端部署大量的数据库才能支持止常运行。
二是进行大数据统计和分析过程。
统计和分析是通过对分布式计算集群内存储的数据进行分析和分类汇总,通过大数据处理方法,以满足使用者需求,统计与分析主要特点和挑战是分析所涉及的数据量大,极大地占用系统资源。
三是大数据导入和预处理过程。
因为采集端木身有很多数据库,在统计和分析数据时,如果对这些海量数据进行有效分析,还应该把来自各个前端数据导入集中的大型分布式数据库,也可以导入分布式存储集群,导入后在集群基础上再进行简单的清洗和预处理工作,导入和预处理环节主要特点是导入数据量大,每秒导入量经常达到几百兆,有时会达到千兆级别。
四是大数据挖掘过程。
数据挖掘与统计分析过程不同的是数据挖掘没有预先设定好的主题,主要在依据现有的数据进行计算,从而实现一些高级别数据分析的需求,达到预测效果。
2.大数据处理技术
(1)Hadoop架构。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。
Hadoop具有可靠性,能维护多个工作数据副木,可以对存储失败的节点重新分布处理。
它具有高效性,通过并行处理加快处理速度。
具有可伸缩性,能够处理PB级数据。
Hadoop架构的关键点是借助大量PC构成一个PC群难以实现对数据的处理。
处理数据时,现分析数据,后结合分配的相应电脑处理数据,最后整合数据处理结果。
浅谈数据挖掘技术及其应用
舒正渝
<1.西北师范大学数信学院计算机系,甘肃兰州730070;2.兰州理工中等专业学校,甘肃兰州730050)
摘要:
科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。
数据库管理系统的应用领域涉及到了各行各业,但目前所能做到的只是对数据库中已有的数据进行存储、查询、统计等功能,通过这些数据获得的信息量仅占整个数据库信息量的一小部分,如何才能从中提取有价值的知识,进一步提高信息量利用率,因此需要新的技术来自动、智能和快速地分析海量的原始数据,以使数据得以充分利用,由此引发了一个新的研究方向:
数据挖掘与知识发现的理论与技术研究。
数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。
2数据挖掘的定义
数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,简称KDD),比较公认的定义是由U.M.Fayyad等人提出的:
数据挖掘就是从大量的、小完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先小知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。
数据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。
3数据挖掘的过程
KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。
整个知识发现过程是由若干挖掘步骤组成的,而数据挖掘仅是其中的一个主要步骤。
整个知识发现的主要步骤有以下几点。
3.1目标定义阶段
要求定义出明确的数据挖掘目标。
目标定义是否适度将影响到数据挖掘的成败,因此往往需要具有数据挖掘经验的技术人员和具有应用领域知识的专家以及最终用户紧密协作,一方面明确实际工作中对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的算法。
3.2数据准备阶段
数据准备在整个数据挖掘过程中占的比例最大,通常达到60%左右。
这个阶段又可以进一步划分成三个子步骤:
数据选择(DataSelection),数据预处理(DataProcessing)和数据变换(DataTransformation)。
数据选择主要指从已存在的数据库或数据仓库中提取相关数据,形成目标数据(TargetData)。
数据预处理对提取的数据进行处理,使之符合数据挖掘的要求。
数据变换的主要目的是精减数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。
3.3数据挖掘阶段
这一阶段进行实际的挖掘工作。
首先是算法规划,即决定采用何种类型的数据挖掘方法。
然后,针对该挖掘方法选择一种算法。
完成了上述的准备工作后,就可以运行数据挖掘算法模块了。
这个阶段是数据挖掘分析者和相关领域专家最关心的阶段,也可以称之为真正意义上的数据挖掘。
3.4结果解释和评估阶段
根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息提取出来。
对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或无关的模式要将其删除;对于小能满足用户要求的模式,则需要退回到上一阶段。
另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把结果转换为用户易懂的其他方式。
4数据挖掘的研究方向
目前研究主要从以卜几个方面开展:
<1)针对小同的数据挖掘任务开发专用的数据挖掘系统。
一个功能很强的数据挖掘系统要能够处理各种类型的数据是小现实的,应当根据特定类型数据的挖掘任务构造专用的数据挖掘系统,如关系数据库挖掘,空问数据库挖掘等。
<2)高效率的挖掘算法。
数据挖掘算法必须是高效的,即算法的运行时问必须是可预测的和可接受的,带有指数甚至是中阶多项式的算法,没有实际使用价值。
<3)提高数据挖掘结果的有效性、确定性和可表达性。
对已发现的知识应能准确地描述数据库中的内容,并能用于实际领域。
对有缺陷的数据应当根据小确定性度量,以近似规律或定量规则形式表示出来。
还应能很好地处理和抑制噪声数据和小希望的数据。
<4)数据挖掘结果的可视化。
数据挖掘任务由非领域专家指定,所以希望最后发现的知识用用户理解的方式表达出来。
<5)多抽象层上的交互式数据挖掘。
交互式数据挖掘允许用户交互地精炼数据挖掘需求,动态改变数据焦点,逐步深化数据挖掘过程,从小同角度小同抽象层次上灵活地观察数据和挖掘结果。
<6)多源数据挖掘。
计算})L网络把许多数据源联接在一起,形成巨大的分布式异构数据库。
小同来源数据的格式和语义小统一,数据挖掘系统应当能够帮助用户揭示异构数据库的高级数据规律。
今后特别重视把数据挖掘技术与工nternet技术及weU技术紧密结合起来,开发出基于工nternet和WeU的数据挖掘软件工具。
<7)数据挖掘的安全性和保密性。
加强数据的安全性和保密性,防比侵犯别人隐私和泄漏敏感信息。
<8)实现与现有数据库系统或数据仓库的无缝集成,进一步扩大数据挖掘工具的应用范围和提高现有数据的利用率。
5数据挖掘的应用领域
随着数据挖掘研究的小断深入,数据挖掘技术已逐渐成熟,它的应用也越来越广泛。
从政府管理决策、商业经营、科学研究、司法、交通、传媒等各个领域,数据挖掘技术都有用武之地。
数据挖掘技术、应用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 参考文献