大数据参考文献.docx
- 文档编号:10033381
- 上传时间:2023-02-08
- 格式:DOCX
- 页数:38
- 大小:40.62KB
大数据参考文献.docx
《大数据参考文献.docx》由会员分享,可在线阅读,更多相关《大数据参考文献.docx(38页珍藏版)》请在冰豆网上搜索。
大数据参考文献
大数据研究综述
陶雪娇,胡晓峰,刘洋
(国防大学信息作战与指挥训练教研部,北京100091)
研究机构Gartne:
的定义:
大数据是指需要新处理模式才能具有更强的决策
力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
维基百科的定义:
大数据指的是所涉及的资料量规模巨大到无法通过目前主
流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策
目的的资讯。
麦肯锡的定义:
大数据是指无法在一定时间内用传统数据库软件工具对其内
容进行采集、存储、管理和分析的赞据焦合。
数据挖掘的焦点集中在寻求数据挖掘过程中的可视化方法,使知识发现过程能够
被用户理解,便于在知识发现过程中的人机交互;研究在网络环境卜的数据挖掘
技术,特别是在Internet上建立数据挖掘和知识发现((DMKD)服务器,与数据库
服务器配合,实现数据挖掘;加强对各种非结构化或半结构化数据的挖掘,如多
媒体数据、文本数据和图像数据等。
5.1数据量的成倍增长挑战数据存储能力
大数据及其潜在的商业价值要求使用专门的数据库技术和专用的数据存储
设备,传统的数据库追求高度的数据一致性和容错性,缺乏较强的扩展性和较好
的系统可用性,小能有效存储视频、音频等非结构化和半结构化的数据。
目前,
数据存储能力的增长远远赶小上数据的增长,设计最合理的分层存储架构成为信
息系统的关键。
5.2数据类型的多样性挑战数据挖掘能力
数据类型的多样化,对传统的数据分析平台发出了挑战。
从数据库的观点看,
挖掘算法的有效性和可伸缩性是实现数据挖掘的关键,而现有的算法往往适合常
驻内存的小数据集,大型数据库中的数据可能无法同时导入内存,随着数据规模
的小断增大,算法的效率逐渐成为数据分析流程的瓶颈。
要想彻底改变被动局面,
需要对现有架构、组织体系、资源配置和权力结构进行重组。
5.3对大数据的处理速度挑战数据处理的时效性
随着数据规模的小断增大,分析处理的时间相应地越来越长,而大数据条件
对信息处理的时效性要求越来越高。
传统的数据挖掘技术在数据维度和规模增大
时,需要的资源呈指数增长,面对PB级以上的海量数据,N1ogN甚至线性复杂
度的算法都难以接受,处理大数据需要简单有效的人工智能算法和新的问题求解
方法。
5.4数据跨越组织边界传播挑战信息安全
随着技术的发展,大量信息跨越组织边界传播,信息安全问题相伴而生,不
仅是没有价值的数据大量出现,保密数据、隐私数据也成倍增长,国家安全、知
识产权、个人信息等等都面临着前所未有的安全挑战。
大数据时代,犯罪分子获
取信息更加容易,人们防范、打击犯罪行为更加困难,这对数据存储的物理安全
性以及数据的多副本与容灾机制提出了更高的要求。
要想应对瞬息万变的安全问
题,最关键的是算法和特征,如何建立相应的强大安全防御体系来发现和识别安
全漏洞是保证信息安全的重要环节。
5.5大数据时代的到来挑战人才资源
从大数据中获取价值至少需要三类关键人才队伍:
一是进行大数据分析的资
深分析型人才;二是精通如何申请、使用大数据分析的管理者和分析家;三是实现
大数据的技术支持人才。
此外,由于大数据涵盖内容广泛,所需的高端专业人才
小仅包括程序员和数据库工程师,同时也需要天体物理学家、生态学家、数学和
统计学家、社会网络学家和社会行为心理学家等。
可以预测,在未来几年,资深
数据分析人才短缺问题将越来越突显。
同时,需要具有前瞻性思维的实干型领导
者,能够基于从大数据中获得的见解和分析,制定相应策略并贯彻执行。
大数据分析与处理方法分析
孔志文
(广东省民政职业技术学校,广州510310)
二、大数据分析的基本方面
大数据分析可以划分为五个基本方而。
一是具有预测性分析能力。
分析员可
以通过数据挖掘来更好地理解数据,而预测性分析是分析员在数据挖掘的基础上
结合可视化分析得到的结果做出一些预测性的判断。
二是具有数据质量和数据管
理能力。
数据管理和数据质量是数据分析的重点,是应用在管理方而的最佳实践,
通过数据的标准化流程和工具,可以达到一个预先设定好的高质量的分析结果。
三是具有可视化分析能力。
可视化是服务于分析专家和使用用户的,数据可视化
是数据分析的基木要求,它可以通过屏幕显示器直观地展示数据,提供给使用者,
还可以让数据自己说话,让使用者听到结果。
四是具有数据挖掘算法。
可视化是
给数据专家和使用用户提供的,数据挖掘是给机器使用的,通过集群、分割、孤
立点分析等算法,深入数据内部,挖掘使用价值,数据挖掘算法不仅要处理大量
的大数据,也要保持处理大数据的运行速度。
五是具有语义引擎。
语义引擎能从
“文档”中只能提取信息,解决了非结构化数据多样性带来的数据分析困扰,通
过语义引擎,能解析、提取、分析数据,完成使用者所需要的信息提取。
三、大数据处理方法
5.5大数据处理流程
大数据整个处理流程可概括为四步。
一是大数据采集过程。
用户端数据通过
多个数据库来接收,用户可以通过这些数据进行简单的查询和处理,在大数据采
集过程中,可能有大量的用户来进行访问和操作,并发访问和使用量高,有时可
峰值可达上百万,需要采集端部署大量的数据库才能支持止常运行。
二是进行大
数据统计和分析过程。
统计和分析是通过对分布式计算集群内存储的数据进行分
析和分类汇总,通过大数据处理方法,以满足使用者需求,统计与分析主要特点
和挑战是分析所涉及的数据量大,极大地占用系统资源。
三是大数据导入和预处
理过程。
因为采集端木身有很多数据库,在统计和分析数据时,如果对这些海量
数据进行有效分析,还应该把来自各个前端数据导入集中的大型分布式数据库,
也可以导入分布式存储集群,导入后在集群基础上再进行简单的清洗和预处理工
作,导入和预处理环节主要特点是导入数据量大,每秒导入量经常达到几百兆,
有时会达到千兆级别。
四是大数据挖掘过程。
数据挖掘与统计分析过程不同的是
数据挖掘没有预先设定好的主题,主要在依据现有的数据进行计算,从而实现一
些高级别数据分析的需求,达到预测效果。
5.6大数据处理技术
(1)Hadoop架构。
Hadoop是一个能够对大量数据进行分布式处理的软件框
架。
Hadoop具有可靠性,能维护多个工作数据副木,可以对存储失败的节点重
新分布处理。
它具有高效性,通过并行处理加快处理速度。
具有可伸缩性,能够
处理PB级数据。
Hadoop架构的关键点是借助大量PC构成一个PC群难以实现对
数据的处理。
处理数据时,现分析数据,后结合分配的相应电脑处理数据,最后
整合数据处理结果。
浅谈数据挖掘技术及其应用
舒正渝
<1.西北师范大学数信学院计算机系,甘肃兰州730070;2.兰州理工中等专业学
校,甘肃兰州730050)
摘要:
科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。
数据库管理系统的应用领域涉及到了各行各业,但目前所能做到的只是对数据库
中已有的数据进行存储、查询、统计等功能,通过这些数据获得的信息量仅占整
个数据库信息量的一小部分,如何才能从中提取有价值的知识,进一步提高信息
量利用率,因此需要新的技术来自动、智能和快速地分析海量的原始数据,以使
数据得以充分利用,由此引发了一个新的研究方向:
数据挖掘与知识发现的理论
与技术研究。
数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分
析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。
2数据挖掘的定义
数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryin
Database,简称KDD),比较公认的定义是由U.M.Fayyad等人提出的:
数据挖掘就
是从大量的、小完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中
的、人们事先小知道的、但又是潜在的有用的信息和知识的过程,提取的知识表
示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。
数
据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖
掘出潜在的模式,为管理人员决策提供支持。
3数据挖掘的过程
KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕
数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多
次处理的过程。
整个知识发现过程是由若干挖掘步骤组成的,而数据挖掘仅是其
中的一个主要步骤。
整个知识发现的主要步骤有以下几点。
3.1目标定义阶段
要求定义出明确的数据挖掘目标。
目标定义是否适度将影响到数据挖掘的成
败,因此往往需要具有数据挖掘经验的技术人员和具有应用领域知识的专家以及
最终用户紧密协作,一方面明确实际工作中对数据挖掘的要求,另一方面通过对
各种学习算法的对比进而确定可用的算法。
3.2数据准备阶段
数据准备在整个数据挖掘过程中占的比例最大,通常达到60%左右。
这个阶
段又可以进一步划分成三个子步骤:
数据选择(DataSelection),数据预处理(Data
Processing和)数据变换(DataTransformation)。
数据选择主要指从已存在的数据库
或数据仓库中提取相关数据,形成目标数据(TargetData)。
数据预处理对提取的
数据进行处理,使之符合数据挖掘的要求。
数据变换的主要目的是精减数据维数,
即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个
数。
3.3数据挖掘阶段
这一阶段进行实际的挖掘工作。
首先是算法规划,即决定采用何种类型的数
据挖掘方法。
然后,针对该挖掘方法选择一种算法。
完成了上述的准备工作后,
就可以运行数据挖掘算法模块了。
这个阶段是数据挖掘分析者和相关领域专家最
关心的阶段,也可以称之为真正意义上的数据挖掘。
4.4结果解释和评估阶段
根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息提取出
来。
对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或
无关的模式要将其删除;对于小能满足用户要求的模式,则需要退回到上一阶段。
另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把
结果转换为用户易懂的其他方式。
4数据挖掘的研究方向
目前研究主要从以卜几个方面开展:
<1)针对小同的数据挖掘任务开发专用的
数据挖掘系统。
一个功能很强的数据挖掘系统要能够处理各种类型的数据是小现
实的,应当根据特定类型数据的挖掘任务构造专用的数据挖掘系统,如关系数据
库挖掘,空问数据库挖掘等。
<2)高效率的挖掘算法。
数据挖掘算法必须是高效
的,即算法的运行时问必须是可预测的和可接受的,带有指数甚至是中阶多项式
的算法,没有实际使用价值。
<3)提高数据挖掘结果的有效性、确定性和可表达
性。
对已发现的知识应能准确地描述数据库中的内容,并能用于实际领域。
对有
缺陷的数据应当根据小确定性度量,以近似规律或定量规则形式表示出来。
还应
能很好地处理和抑制噪声数据和小希望的数据。
<4)数据挖掘结果的可视化。
数
据挖掘任务由非领域专家指定,所以希望最后发现的知识用用户理解的方式表达
出来。
<5)多抽象层上的交互式数据挖掘。
交互式数据挖掘允许用户交互地精炼
数据挖掘需求,动态改变数据焦点,逐步深化数据挖掘过程,从小同角度小同抽
象层次上灵活地观察数据和挖掘结果。
<6)多源数据挖掘。
计算})L网络把许多数
据源联接在一起,形成巨大的分布式异构数据库。
小同来源数据的格式和语义小
统一,数据挖掘系统应当能够帮助用户揭示异构数据库的高级数据规律。
今后特
别重视把数据挖掘技术与工nternet技术及weU技术紧密结合起来,开发出基于
工nternet和WeU的数据挖掘软件工具。
<7)数据挖掘的安全性和保密性。
加强
数据的安全性和保密性,防比侵犯别人隐私和泄漏敏感信息。
<8)实现与现有数
据库系统或数据仓库的无缝集成,进一步扩大数据挖掘工具的应用范围和提高现
有数据的利用率。
5数据挖掘的应用领域
随着数据挖掘研究的小断深入,数据挖掘技术已逐渐成熟,它的应用也越来
越广泛。
从政府管理决策、商业经营、科学研究、司法、交通、传媒等各个领域,
数据挖掘技术都有用武之地。
数据挖掘技术、应用及发展趋势
张春华王阳
(空军第二航空学院,长春130022)
2KDD与数据挖掘
KDD(KnowledgeDiscoveryInDatabase—)知识发现是从大量数据中提取出可
信的、新颖的、有效的并能被人理解的模式的处理过程。
DM(DataIv&ning)—
数据挖掘是KDD过程的一个重要步骤,它是从大量的、不完全的、不噪声的、
模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又
是潜在有用的信息和知识的过程。
一个典型的数据挖掘系统,一般是由图1所示的几个部分组成。
数据库或数
据仓库服务器,存储着用户将要挖掘的,所感兴趣的数据。
知识库是领域知识的
一个应用,它用于引导搜索或评估挖掘的结果模式是否有意义,是知识的不同属
性或属性值进行不同层次的抽象。
数据挖掘引擎是数据挖掘系统所必不可少的部
分,理想的是由一些列而向任务的功能模块组成,如特征分析、相关分析、分类、
评估以及偏差分析。
模式评估模块运用各种兴趣尺度对得到的模式进行评估同时
还与数据挖掘掘模块进行交互,使挖掘的方向集中在感兴趣的模式上。
用户的图
形界而接口是用户和数据挖掘系统交互的接口。
允许用户指定有关参数的值,直
接参与到数据挖掘的查询、搜索中。
3数据挖掘方法与技术
5.71数据挖掘常用的方法
DM的技术基础是人工智能,人工智能是以自动机为手段,通过模拟人类
宏观外显的思维行为,从而高效率地解决现实世界问题的科学和技术。
」仅
仅利用了人工智能中一些已经成熟的算法和技术,下而介绍数据挖掘和知识发现
的几种常用方法。
5.人工神经网络
神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为
基础。
它主要有三种神经网络模型:
前馈式网络、反馈式网络、自组织网络。
3.1.2遗传算法
遗传算法是模拟生物进化过程的算法,由三个基本算子(或过程)组成:
繁殖(选择)、交叉(重组)、变异(突变)。
3.1.3决策树方法
决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息
量的属性宇段,建立决策树的一个结点,再根据该属性宇段的不同取值建立树的
分支;在每个分支集中重复建立树的下层结点和分支的过程国际上最早的、也是
最有影响的决策树方法是Quiulan研究的ID3方法。
在数据采掘和知识发现中应用的人工智能技术还有邻近搜索方法、集合论的
粗集方法、规则推理、模糊逻辑、公式发现,等等。
5.82数据挖掘的分析方法
Dn」系统利用的技术越多,得出的结果精确性就越高,从功能上可以将Dn」
的分析方法划分为以下四种:
6.2.1关联分析
关联分析,即利用关联规则进行数据挖掘。
在数据挖掘研究领域,对于关联
分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如APRIORI,
STEM,AIS,DHP等算法。
关联分析的口的是挖掘隐藏在数据间的相互关系,它能
发现数据库中形如“90%的顾客在一次购买活动中购买商品A的同时购买商品B',
之类的知识。
关联分析就是生成所有具有用户指定的最小置信度和最小支持度的
关联规则。
4.2.2)字列模式分析
序列模式分析和关联分析法相似,其口的也是为了采掘出数据之间的联系,
但序列模式分析的侧重点在于分析数据间的前后(因果)关系。
运用序列模式分析
销售记录,零售商则可以发现客户潜在的购物模式,例如客户在购买微波炉前常
购买何种商品。
4.2.3分类分析
设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记
录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。
分类分析就
是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或
挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。
3.2.4聚类分析
与分类分析法不同,聚类分析法的输入集是一组未标定的记录,也就是说此
时输入的记录还没有进行任何分类。
其口的是根据一定的规则,合理地划分记录
集合,并用显式或隐式的方法描述不同的类别。
此外还如下的有关方法:
预测模
型、数据库分段、联系分析、偏差检测、可视化等等。
5.93数据挖掘的应用
I}」技术旨在发现隐藏在大量数据之间的尚未被认识的知识,因此数据密集
型领域是I}】的主要应用方向,这些行业有金融、教育、科学研究、医疗卫生、
产品制造、市场营销、社会治安等等,很多期刊和会议文献都有介绍和分析,本
文不在赘述。
数据挖掘技术及其应用
孙义明曾继东
北京2861-6分箱
三、数据挖掘技术
数据挖掘是指以提取隐含的定性关系为目的、利用先进商业软件工具对海量
数据资料进行的计算机辅助分析。
虽然普通的数据库访问方式也能获取与预期结
果相符的信息,但数据挖掘技术更加注重对先前并不为分析人员所知的隐含模式
和关系的发掘。
通过用数学方法对入库信息进行系统筛选,数据挖掘有助于识别
用其他方式很难发现的重要倾向和模式。
7.节点分析
节点分析的目的是确定完全不同的异体之间的关系,而仅从表面上看它们之
间并没有明显的关联。
节占指的早柑壮分举图中的分离点.存此图中.一织数据可
根据多种不同算法分成完全不同的类别。
从根节点的划分(第一分离点)开始,后面的每一节点都应用一种检测标准,
这种方法一直延续下去,直到到达树状结构图末端的分离停止处,也就是到达终
端节点。
如果一切进展顺利,在这些终端节点就会发现,已成功分离出所关注的
组成员。
"A级威胁”小组成员称,“在受关注类别中包括`9}11’劫机犯之一—穆
罕默德·阿塔的名字。
”
这一方法类似于用硬币分离器将1分、5分、1角和2角5分硬币按规格大
小分开。
这时的检测标准是尺寸大小。
当然,当操作对象不是硬币而是涉及更复
杂分级和更抽象标准的数据资料时,这种分类远非如此简单直接。
最理想的情况
是终端节点单一明了,比如说只包含单独一类成员。
但是,在实际操作中难免会
出现误分类,因而这些模式需要进一步精确。
2.数据准备
数据挖掘是被称为数据库知识发现(KDD)庞杂程序的组成部分,整套程序包
括数据清理、融合、筛选、转换和挖掘,以及模式评估及最终的认识表达。
在探
讨过程中,数据挖掘一词常常用来描述整个过程,然而,作为数据挖掘先导的数
据准备往往比实际挖掘更加费时。
数据挖掘方案初期需关注的较重要事项之一,是仔细研究待分析数据的类
型。
数据可分为两类:
结构化数据和非结构化数据。
结构化数据驻存在磁盘或文
件的固定区域,相关数据库和电子数据表就是典型的结构化数据。
不在固定位置
驻存而是以松散形式存在的数据(如文本文档或图像)称为非结构化数据。
它们各
自的字词很少带有关联信息,但组合到一起就会形成一种语境,其含义可归结为
字词的集合,但对任何一个单字来说又不具必然性。
同样,就图像而言,人们通
常都是从整体上来解释一幅图,而不是分析其各个部分。
然而,对于机器识别来
说,可能只需几个特征就能完成一次精确识别。
非结构化数据可分为两个基本类别。
第一类是固有的、非语言基础的文件,
如图像、视频或音频文件。
第二类是基于书写或打印语言的文本文件,如文字处
理文档、电子邮件或电子数据表。
尽管存在显著差异,这两类非结构化数据都能
以相同方式进行处理。
一种标准处理方式倾向于从文本中识别和提取关键特征,
而后该文本又可作为分析数据使用。
这个被称作特征提取的过程,是对非结构化
数据进行挖掘的一个关键步骤。
数据整理具有减少内存需求和询问反应时间的计算优势,因而通常有利于待
分析数据量的精简。
特征提取是通过对基于关键字组合的原始数据进行分析,生
成一组新的、更加简洁的数据。
特征提取还可用于图像中实体目标的识别或分类。
假如有人驾驶飞机、无人机和卫星上多光谱传感器的功能得到扩展,只需提
取最显著的特征,就可从庞大的图库中发掘出一个特定区域。
例如,树叶纹络和
颜色、道路样式、甚至是邻近建筑的外形,都能够从无人机拍摄的实时影像中提
取出来,并可从中挖掘出应用了关联规则分析方法的模式。
关联规则分析用来描
述多条信息一起出现或相互关联的情况,并能利用经过提炼加工的图像资料来揭
示先前可能并未发现的、非相关区域之间的关系,比如预示有地下掩体的地形地
貌和道路连通方式。
3.分类预测
结束信息采集和加工后,可利用多种方法对数据资料进行模式化处理。
这些
挖掘手段旨在识别那些可用于未来预测的现有数据资料的特征。
关联规则挖掘可
用来描述多条信息一起出现或相互关联的情况,关联规则通常是“如果,,,那
么,,。
”的构成形式。
这些方法可用于营销研究,以确定产品布局,或者是通
过对制造爆炸装置最有可能购买的物品的确认来实现预防犯罪的目的。
利用关联
规则对某国军事基地之间的车辆活动进行挖掘分析,从而确定该国是在转运剩余
物资还是在进行战争准备。
分类预测术属于古时候的发明,人们利用这种技术创造出一个模型,以便对
未来数据中的类似事件进行预测。
此产品由一种能够将分类数据归类的分类树构
成。
分类法是一种能够将某些受关注特征从对象总体中分离出来的普通方法,其
基础是来自于一套己知训练数据的模型。
这些训练模型可用来识别和预测未知数
据的类似模式。
作为最古老的数据挖掘方法之一的聚类分析法和最近邻分类法的原理十分
简单,即具有共性的事物之间比无共性的事物之间的联系更为紧密。
分类预测会产生误分类风险。
误分类问题的典型案例出现在1999年春天,
当时美国防部将原有的一个项目分配给了美陆军情报与保密司令部信息控制中
心。
此项目旨在利用数据相关工具确定那些方法是否适用于反情报作战。
这次实
验的目的是确定数据挖掘能否识别前方公司存在对中国的技术泄密风险。
大量关
联图表揭示了技术转让的诸多途径,其中涉及一些知名人物,例如时任斯坦福大
学教务长的康多利扎·赖斯和美国防部前任部长威廉·科恩。
当然,这些误分类
很容易识别,但方法问题和众多潜在(或错误)关联将严重损害用同一模式得出的
其他分类的价值。
兼任美国众议院武装部队委员会和众议院国家安全委员会副主席的科特·韦
尔登,2005年9月在参议院司法委员会的听证会上就“A级威胁”问题作证时
称,虽然早在2001年就有人提出要废弃“A级威胁”,但一个新的数据挖掘项目
己在美国防部内部得到了广泛提议。
该项目呼吁组建一个名为‘`A级预测(Able
Providence)’,类似于“A
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 参考文献