知识发现与数据挖掘Word格式.docx
- 文档编号:15276113
- 上传时间:2022-10-29
- 格式:DOCX
- 页数:11
- 大小:339.92KB
知识发现与数据挖掘Word格式.docx
《知识发现与数据挖掘Word格式.docx》由会员分享,可在线阅读,更多相关《知识发现与数据挖掘Word格式.docx(11页珍藏版)》请在冰豆网上搜索。
Knowledgediscovery;
Datamining;
Classification;
Associationanalysis;
Clustering
1前言
随着云计算、云制造、物联网、大数据等信息技术的迅速发展以及企业信息化建设的不断推进,企业在全生命周期业务活动中产生的数据增长迅速,种类繁多、数量巨大[1]。
例如,记录企业销售和运转的详细情况的数据[2],地球轨道卫星发送回地球的高分辨率图像和遥感数据[3],以及基因组实验对越来越多的有机体产生的序列、结构和技能数据等[4]。
未来学家约翰·
奈比斯特指出:
“人类正被数据淹没,却饥渴于信息”。
从浩瀚无际的数据海洋中发现潜在的、有价值的知识,是这个大数据时代的一个标志性工作[5]。
然而,虽然各行业拥有大量的数据,但仍缺乏有用的知识。
由于这些海量数据十分复杂,且具有不完整、高维、异种、模糊和随机等非传统特点[6],无法使用传统的数据分析工具和技术进行处理。
为了解决这个问题,Fayyad于1989年首次提出知识发现(KnowledgeDiscoveryinData,KDD)的概念[7],它是指从数据集中提取可信的、新颖的、具有潜在使用价值的能够被人类所理解的模式的非繁琐的处理过程。
本文介绍了知识发现模型对数据的处理过程,并对知识发现的关键步骤——数据挖掘技术进行了详细概述。
在以上理论的基础上,结合实际研究,以个性化知识服务技术和设计理性模型知识挖掘过程为例,对涉及到的知识发现的关键技术进行了分析。
2知识发现
经典KDD处理模型又称阶梯处理模型,是Fayyad等人提出的具有九个步骤的阶梯递进的KDD处理模型,如图1所示,这九个步骤分别如下[8]。
(1)数据准备:
了解应用领域的相关情况,熟悉相关背景知识,确定用户的需求。
(2)数据选择:
根据用户的要求从数据库中提取出与KDD相关的数据,KDD将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理。
(3)数据预处理:
对从数据库中提取的数据进行清洗,检查数据的完整性及数据的一致性,对其中的噪声数据、缺失数据进行处理。
对噪声数据通常要解决的问题包括如何发现和处理重复记录和错误的属性值,对数据采取什么样的数据平滑工作,以及如何发现和处理孤立点。
(4)数据缩减:
经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其他操作减少数据量。
(5)确定KDD的目标:
根据用户的要求,确定KDD是发现何种类型的知识,因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。
(6)确定知识发现算法:
在确定KDD目标后,根据这个目标选择合适的知识发现算法,包括选择合适的模型和参数,并使得知识发现算法与整个KDD的评价标准相一致。
(7)数据挖掘:
运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方法,如决策树、产生式规则或回归方程等。
(8)模式解释:
对发现的模式进行解释。
在此过程中,为了取得更为有效的知识,可能会返回到前面的处理步骤中反复进行前面的KDD过程,从而提取出更有效的知识。
(9)知识评价:
将发现的知识以用户能理解的方式呈现给用户,同时对所发现的知识进行检验和评估。
图1知识发现过程
KDD是一个交互的、迭代的、多步骤处理过程。
一次KDD并不定得到理想结果,因此KDD是一个目标和数据不断优化的过程。
可以在当前选择的知识算法不变的情况下,对学习参数进行调整,并重新训练和评价,直到达到满意的结构为止。
也可以选择其他知识发现算法,对同一个数据集进行实验,对比实验经过,找到最合适的知识表示方法和挖掘算法。
在以上过程中,还可以强调专家和用户的作用,提供给他们参与和支持KDD过程的机会。
3数据挖掘
数据挖掘是知识发现过程中最关键的步骤,也是技术难点所在。
数据挖掘是人工智能的一个应用领域,是利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。
研究知识发现的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。
数据挖掘根据知识发现的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。
数据挖掘是知识发现最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段。
数据挖掘算法的好坏将直接影响到所发现知识的好坏。
目前大多数的研究都集中在数据挖掘算法和应用上。
人们往往不严格区分数据挖掘和数据库中的知识发现,把两者混淆使用。
一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。
通过对文献研究总结发现,数据挖掘任务可以划分为三个大类,包括有指导的分类技术,关联分析和无指导的聚类分析技术[9]。
3.1分类技术
分类是指是通过有指导的学习训练建立分类模型,使用模型对未知分类的实例进行分类。
分类技术主要有:
(1)决策树分类:
决策树是数据挖掘中最常用的一种分类和预测技术,使用其可建立分类和预测模型。
决策树模型是一个树状结构,树中每个节点表示分析对象的某个属性,每个分支表示这个属性的某个可能的取值,每个叶节点表示经历从根节点到该叶节点这条路径上的对象的值。
模型通过树中的各个分支对对象进行分裂,叶节点表示的对象值表达了决策树分类的结果。
决策树仅有一个输出,若需要多个输出,可以建立多棵独立的决策树以处理不同输出。
(2)基于规则的分类:
基于规则的分类使用一组if…then规则来分类记录的技术。
算法思想:
先从训练集生成规则集合,规则是使用合取条件表示的,如规则R:
(条件i)->
yi,其中R是如下形式:
R:
(胎生=否)^(飞行动物=是)->
鸟类;
其中左边称为规则前件或前提;
规则右边称为规则后件。
如果规则R的前件和记录x的属性匹配,则称R覆盖x。
当R覆盖给定的记录时,称R被激发或被触发。
建立规则集合后,就进行分类。
对每个待分类的记录和规则集合中的每条规则进行比较,如果某条规则被触发,该记录就被分类了。
(3)最近邻(kNN,k-NearestNeighbor):
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
kNN方法在类别决策时,只与极少量的相邻样本有关。
由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。
(4)贝叶斯分类:
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
也就是说,贝叶斯分类器是最小错误率意义上的优化。
(5)人工神经网络:
神经网络领域最早是由心理学家和神经学家开创的,旨在开发和测试神经的计算机模拟。
粗略地说,神经网络是一组连接的输入/输出单元,其中每个连接都与一个权重相关联。
在学习阶段,通过调整这些权重,能够预测输入元组的正确类标号。
由于单元之间的连接,神经网络学习又称连接者学习(ConnectionistLearning)。
神经网络需要很长的训练时间,对于有足够长训练时间的应用更为合适。
需要大量的参数,通常主要靠经验确定,如网络拓扑结构。
神经网络常常因为可解释性差而受到批评。
例如,人们很难解释网络中学习的权重和“隐含单元”的符号意义。
然而,神经网络的优点包括其对噪声数据的高承受能力,以及对未经训练的数据模式分类能力。
在缺乏属性和类之间的联系的知识时可以使用它们。
不像大部分决策树算法,它们非常适合连续值的输入和输出。
神经网络算法是固有并行的,可以使用并行技术来加快计算过程。
(6)支持向量机:
它可以很好的应用于高维数据,避免了高维灾难问题,它使用训练实例的一个子集来表示决策边界,该子集称作支持向量。
SVM寻找具有最大边缘的超平面(比那些较小的决策边界具有更好的泛化误差),因此也经常称为最大边缘分类器。
分类思想:
(1)在线性可分的情况下就是要学习(找)到这个最大边缘的决策边界(通过线性规划或拉格朗日乘子来求得),当然也允许有一定的误差(可以有少量的结点分在了它不该在的类,但只要在能够容忍的范围就行),然后利用这个最大边缘的决策边界来分类,结果落在一边的为一类,在另一边的为另一类;
(2)在线性不可分的情况下,将原来的数据从原先的坐标空间X转换到一个新的坐标空间中,从而可以在变换后的坐标空间中使用一个线性的决策边界来划分样本的类标号(主要技术包括:
非线性变换、核技术和Mercer定理)。
3.2关联分析技术
关联分析是指发现实物之间关联关系的分类过程,其典型应用就是购物篮分析。
关联分析是一种关联规则挖掘技术,用于发现数据中属性之间的有价值的联系。
现实中,这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。
这些数据中常常隐含形式如下的关联规则:
在购买铁锤的顾客当中,有70%的人同时购买了铁钉。
这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。
关联分析主要采用Aprioro技术。
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
其核心是基于两阶段频集思想的递推算法。
该关联规则
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 发现 数据 挖掘