数据挖掘复习.docx
- 文档编号:4951617
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:22
- 大小:399.13KB
数据挖掘复习.docx
《数据挖掘复习.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习.docx(22页珍藏版)》请在冰豆网上搜索。
数据挖掘复习
数据挖掘重点整理
选择数据挖掘函数
汇总,分类,回归,关联,聚类
知识点概括
1、聚类(Clustering)就是将数据分组成为多个类(Cluster)。
在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大
2、聚类分析中“类”的特征:
聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分
聚类的数目和结构都没有事先假定
3、聚类方法的目的是寻找数据中:
潜在的自然分组结构astructureof“natural”grouping
感兴趣的关系relationship
4、聚类分析的研究对象
R型分析----对变量进行分类
Q型分析----对样品进行分类
5、离群点数据挖掘方法简介
✓基于统计的方法
✓基于距离的方法
✓基于密度的方法
✓基于聚类的方法
6、离群点挖掘中需要处理的几个问题
(1)全局观点和局部观点
离群点与众不同,但具有相对性。
(2)点的离群程度
可以通过定义对象的偏离程度来给对象打分——离群因子(OutlierFactor)或离群值得分(OutlierScore),即都为离群点的情况下,也还有分高和分低的区别。
(3)离群点的数量及时效性
正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于5%甚至1%
7、离群点的概率定义:
离群点是一个对象,关于数据的概率分布模型,它具有低概率
8、离群点挖掘问题由两个子问题构成:
(1)定义在一个数据集中什么数据是不一致或离群的数据;
(2)找出所定义的离群点的有效挖掘方法。
离群点挖掘问题可以概括为如何度量数据偏离的程度和有效发现离群点的问题。
9、为什么会出现离群点?
⏹测量、输入错误或系统运行错误所致
⏹数据内在特性所决定
⏹客体的异常行为所致
由于离群点产生的机制是不确定的,离群点挖掘算法检测出的“离群点”是否真正对应实际的异常行为,不是由离群点挖掘算法来说明、解释的,只能由领域专家来解释,离群点挖掘算法只能为用户提供可疑的数据,以便用户引起特别的注意并最后确定是否真正的异常。
对于异常数据的处理方式也取决于应用,并由领域专家决策。
10、离群点挖掘中需要处理的几个问题
(1)全局观点和局部观点
离群点与众不同,但具有相对性。
(2)点的离群程度
可以通过定义对象的偏离程度来给对象打分——离群因子(OutlierFactor)或离群值得分(OutlierScore),即都为离群点的情况下,也还有分高和分低的区别。
(3)离群点的数量及时效性
正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于5%甚至1%
11、一个对象可能相对于所有对象看上去离群,但它相对于它的局部近邻不是离群的
12、通过定义对象的离群程度来给对象打分,如都为离群点的情况下,也还有分高和分低的区别。
——离群点得分(outlierscore)或离群因子(OutlierFactor)
13概率分布模型通过估计用户指定的分布的参数,由数据创建。
14、离群点检测方法准确性的两个指标:
检测率、误报率
15、关联规则
关联规则是形如XY的蕴含表达式,其中X和Y是不相交的项集
例子:
{Milk,Diaper}{Beer}
16、关联规则的强度
–支持度Support(s)
◆确定项集的频繁程度
–置信度Confidence(c)
◆确定Y在包含X的事务中出现的频繁程度
17、挖掘关联规则
大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:
1)频繁项集产生(FrequentItemsetGeneration)
–其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。
2)规则的产生(RuleGeneration)
其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则(strongrule)
18、先验原理:
如果一个项集是频繁的,则它的所有子集一定也是频繁的
相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的:
a)这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝(support-basedpruning)
b)这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。
这个性质也称为支持度度量的反单调性(anti-monotone)。
19、信息的定量描述
衡量信息多少的物理量称为信息量。
若概率很大,受信者事先已有所估计,则该消息信息量就很小;
若概率很小,受信者感觉很突然,该消息所含信息量就很大。
抛一枚畸形硬币,出现正面与反面的概率分别是1/4,3/4,出现正面与反面时的信息量是多少?
解:
出现正面与反面的概率分别是1/4,3/4,它们的信息量是
I(正)=-logp(正)=-log1/4=2
I(反)=-logp(反)=-log3/4=0.415
20、信源含有的信息量是信源发出的所有可能消息的平均不确定性,香农把信源所含有的信息量称为信息熵,是指每个符号所含信息量的统计平均值。
m种符号的平均信息量为
21、抛一枚畸形硬币,出现正面与反面的概率分别是1/4,3/4,出现正面与反面时的信息量是多少?
解:
出现正面与反面的概率分别是1/4,3/4,信息熵是
22、条件熵
在给定yj条件下,xi的条件自信息量为I(xi|yj),X集合的条件熵H(X|yj)为
在给定Y(即各个yj)条件下,X集合的条件熵H(X|Y)
条件熵H(X|Y)表示已知Y后,X的不确定度
23、ID3算法小结
ID3算法主要针对属性选择问题。
是决策树学习方法中最具影响和最为典型的算法。
该方法使用信息增益度选择测试属性。
当获取信息时,将不确定的内容转为确定的内容,因此信息伴着不确定性。
从直觉上讲,小概率事件比大概率事件包含的信息量大。
ID3算法是一种经典的决策树学习算法,由Quinlan于1979年提出。
ID3算法的基本思想是,以信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最多的属性,亦即能使熵值变为最小的属性,以构造一颗熵值下降最快的决策树,到叶子节点处的熵值为0。
此时,每个叶子节点对应的实例集中的实例属于同一类。
24、决策树基础
有向无环二叉/多叉树
父节点:
没有子节点的节点
内部节点:
有父节点、子节点的节点
叶节点:
有父节点没有子节点的节点
25、决策树算法
决策树的表示
决策树的基本组成部分:
决策结点、分支和叶子。
决策树中最上面的结点称为根结点。
是整个决策树的开始。
每个分支是一个新的决策结点,或者是树的叶子。
每个决策结点代表一个问题或者决策.通常对应待分类对象的属性。
每个叶结点代表一种可能的分类结果
在沿着决策树从上到下的遍历过程中,在每个结点都有一个测试。
对每个结点上问题的不同测试输出导致不同的分枝,最后会达到一个叶子结点。
这一过程就是利用决策树进行分类的过程,利用若干个变量来判断属性的类别
26、决策树作用:
●通过训练集
●算法指导下
●生成决策树
●新数据进行划分
●否则是“三拍”决策
27、决策树的优点
1、推理过程容易理解,决策推理过程可以表示成IfThen形式;
2、推理过程完全依赖于属性变量的取值特点;
3、可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考
28、1)决策树技术发现数据模式和规则的核心是归纳算法。
归纳是从特殊到一般的过程。
归纳推理从若干个事实中表征出的特征、特性和属性中,通过比较、总结、概括而得出一
个规律性的结论。
归纳推理试图从对象的一部分或整体的特定的观察中获得一个完备且正确的描述。
即从特殊事实到普遍性规律的结论。
归纳对于认识的发展和完善具有重要的意义。
人类知识的增长主要来源于归纳学习
2)归纳学习的过程就是寻找一般化描述的过程。
这种一般性描述能够解释给定的输入数据,并可以用来预测新的数据。
3)归纳学习由于依赖于检验数据,因此又称为检验学习。
归纳学习存在一个基本的假设:
任一假设如果能够在足够大的训练样本集中很好的逼近目标函数,则它也能在未见样本中很好地逼近目标函数。
该假定是归纳学习的有效性的前提条件。
29、与决策树相关的重要算法:
CLS,ID3,C4.5,CART
30、决策树解决分类问题的一般方法
通过以上对分类问题一般方法的描述,可以看出分类问题,一般包括两个步骤:
1、模型构建(归纳)
通过对训练集合的归纳,建立分类模型。
2、预测应用(推论)
根据建立的分类模型,对测试集合进行测试。
一、判断题(10*2=20分)
二、简答题(4*5=20分)
1)什么是数据挖掘(汇总)
数据挖掘(从数据中发现知识)
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2)K-均值原理(聚类)
是一种得到最广泛使用的聚类算法。
它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。
这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。
K-均值聚类的处理流程如下。
首先,随机选择k个对象,每个对象都初始地代表一个类的平均值或中心。
对剩余的对象,根据其与各自类中心的距离,将它赋给最近的类。
然后重新计算每个类的平均值。
这个过程不断重复,直到准则函数收敛。
3)Apriori算法(关联规则中先验算法,关联)
Apriori算法是一种最有影响的挖掘布尔关联规则大(频繁)项目集的算法。
它使用一种称作逐层搜索的迭代算法,通过k-项集用于探索(k+1)-项集。
已经为大部分商业产品所使用。
4)先验、后验概率(分类)
设X表示属性集,Y表示类变量,如果类变量和属性之间的关心不确定,那么我们可以把X和Y看作随机变量,用P(Y|X)以概率的方式捕捉二者之间的关系,这个条件概率又称为Y的后验概率,与之相对的P(Y)称为Y的先验概率。
5)决策树、熵的定义(分类)
决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。
本质上决策树是通过一系列规则对数据进行分类的过程。
信源含有的信息量是信源发出的所有可能消息的平均不确定性,香农把信源所含有的信息量称为信息熵,是指每个符号所含信息量的统计平均值。
6)离群点和离群点检测
Hawkins的定义:
离群点是在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。
Weisberg的定义:
离群点是与数据集中其余部分不服从相同统计模型的数据。
Samuels的定义:
离群点是足够地不同于数据集中其余部分的数据。
Porkess的定义:
离群点是远离数据集中其余部分的数据
7)分类和聚类的区别(异同点)
答:
聚类是非监督分类,仅根据在数据中发现的描述对象及其关系的信息,用类(簇)标号创建对象的标记,而分类是监督分类,使用由类标号已知的对象开发的模型,对新的、无标记的对象赋予类标号。
三、应用题(4*15=60分)
1)系统聚类法
系统聚类法的基本思想
先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。
选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。
这样,每次合并减少一类,直至所有的样品都归成一类为止。
系统聚类法的基本步骤:
1. 计算n个样品两两间的距离,记作D=。
2. 构造n个类,每个类只包含一个样品。
3. 合并距离最近的两类为一新类。
4. 计算新类与各当前类的距离。
5. 重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。
6. 画聚类谱系图。
7. 决定类的个数和类。
系统聚类方法:
1最短距离法
2最长距离法
3中间距离法
4重心法
5类平均法
6离差平方和法(Ward法)
上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。
1最短距离法
设抽取5个样品,每个样品观察2个指标,
X1:
您每月大约喝多少瓶啤酒,
X2:
您对“饮酒是人生的快乐”这句话的看法如何?
观察数据如下,对这5个样品分类。
1.计算5个样品两两之间的距离
(采用欧氏距离),记为距离矩阵
2.合并距离最小的两类为新类,按顺序定为第6类。
⑥=
3、计算新类⑥与各当前类的距离,
得距离矩阵如下:
4、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。
5、
6、按聚类的过程画聚类谱系图
7、决定类的个数与类。
观察此图,我们可以把5个样品分为3类,{1,2}、{3}、{4,5}
2最长距离法(第五章ppt)
2)离群点(k-最近邻的距离,基于聚类)
k-最近邻的距离
例6-1在图6-4所示的二维数据集中,当k=2时,P1、P2哪个点具有更高的离群点得分?
(使用欧式距离)
解答:
对P1点进行分析:
k=2;最近邻的点为P3(5,7),P2(5,2),distance(P1,P2)与distance(P1,P3)分别为6.08,1.41,平均距离为:
对P2点进行分析:
k=2;最近邻的点为P3,P4,同理有:
因为OF1(P1,K)>OF1(P2,K),因此,P1点更有可能是离群点。
例6-5基于聚类的离群点检测示例1
对于图所示的二维数据集,比较点P1(6,8),P2(5,2),哪个更有可能成为离群点
假设数据集经过聚类后得到聚类结果为C={C1、C2、C3},图中红色圆圈标
注,三个簇的质心分别为:
C1(5.5,7.5)、C2(5,2)、C3(1.75,2.25),试计算所有对
象的离群因子。
例6-5基于聚类的离群点检测示例1
解答:
根据定义6-6,公式
对于P1点有:
对于P2有:
可见,点P1较P2更可能成为离群点。
3)关联规则(先验apriori原理)
例题
假如有项目集合I={1,2,3,4,5},有事务集T:
1
1,2,3
2
1,2,4
3
1,3,4
4
1,2,3,5
5
1,3,5
6
2,4,5
7
1,2,3,4
设定minsup=3/7,misconf=5/7。
解:
C1
项集
支持度计数
{1}
{2}
{3}
{4}
{5}
6
4
5
4
3
-比较候选支持度计数与minsup-àL1
项集
支持度计数
{1}
{2}
{3}
{4}
{5}
6
4
5
4
3
-------由L1产生C2-----àC2
项集
{1,2}
{1,3}
{1,4}
{1,5}
{2,3}
{2,4}
{2,5}
{3,4}
{3,5}
{4,5}
----扫描T,对每个候选计数----àC2
项集
支持度计数
{1,2}
{1,3}
{1,4}
{1,5}
{2,3}
{2,4}
{2,5}
{3,4}
{3,5}
{4,5}
4
5
3
2
3
3
2
2
2
1
--比较候选支持度计数与minsup--àL2
项集
支持度计数
{1,2}
{1,3}
{1,4}
{2,3}
{2,4}
4
5
3
3
3
-------由L2产生C3-----àC3
项集
{1,2,3}
{1,2,4}
-----扫描T,对每个候选计数-àC3
项集
支持度计数
{1,2,3}
{1,2,4}
3
2
--比较候选支持度计数与minsup-àL3
项集
支持度计数
{1,2,3}
3
所以频繁项集为:
{1,2,3}
支持度置信度
{1}->{2,3}3/73/6
{2}->{1,3}3/73/5
{3}->{1,2}3/73/5
支持度置信度
{1,2}->{3}3/73/4
{2,3}->{1}3/73/3
{1,3}->{2}3/73/5
则强关联规则是{1,2}->{3},{2,3}->{1}
4)决策树(求熵)
例题:
活动的熵
活动有2个属性值,进行,取消。
其熵为:
H(活动)=-(9/14)*log(9/14)-(5/14)*log(5/14)=0.94
已知户外的天气情况下活动的条件熵
户外有三个属性值,晴,阴和雨。
其熵分别为:
H(活动|户外=晴)=-(2/5)*log2(2/5)-(3/5)*log2(3/5)=0.971
H(活动|户外=阴)=-(4/4)*log2(4/4)=0
H(活动|户外=雨)=-(3/5)*log2(3/5)-(2/5)*log2(2/5)=0.971
已知户外时活动的条件熵
H(活动|户外)=5/14*H(活动|户外=晴)+4/14*H(活动|户外=阴)+5/14*H(活动|户外=雨)
=(5/14)*0.971+(4/14)*0+(5/14)*0.971
=0.693
平均互信息
I(活动;户外)=H(活动)-H(活动|户外)
=0.94-0.693
=0.246
是否适合打垒球的决策表
活动的熵
H(活动)=-(9/14)*lb(9/14)-(5/14)*lb(5/14)=0.94
已知天气时活动的条件熵
H(活动|天气)=5/14*H(活动|天气=晴)+4/14*H(活动|天气=阴)+5/14*H(活动|天气=雨)
=(5/14)*0.971+(4/14)*0+(5/14)*0.971
=0.693
已知温度时活动的条件熵
H(活动|温度)=0.911
已知湿度时活动的条件熵
H(活动|湿度)=0.789
已知风速时活动的条件熵
H(活动|风速)=0.892
各互信息量
I(活动;天气)=H(活动)-H(活动|天气)=0.94-0.693=0.246
I(活动;温度)=H(活动)-H(活动|温度)=0.94-0.911=0.029
I(活动;湿度)=H(活动)-H(活动|湿度)=0.94-0.789=0.151
I(活动;风速)=H(活动)-H(活动|风速)=0.94-0.892=0.048
ID3算法生成的决策树
决策规则(产生式规则)
天气=阴⇒进行
天气=晴∧湿度=正常⇒进行
天气=晴∧湿度=高⇒取消
天气=雨∧风速=强⇒取消
天气=雨∧风速=弱⇒进行
5)BBN概率(不考A卷大题)p149
6)神经网络(不考A卷大题)
实例1
训练样本x={1,0,1}
类标号为1
单元j
输入net
输出o
4
0.2*1+0.4*0+(-0.5)*1-0.4=-0.7
1/(1+e-(-0.7))=0.332
5
(-0.3)*1+0.1*0+(0.2)*1-(-0.2)=0.1
1/(1+e(-0.1))=0.525
6
(-0.3)*0.332+(-0.2)*0.525-(-0.1)=-0.105
1/(1+e-(-0.105))=0.474
单元j
Err
6
0.474*(1-0.474)*(1-0.474)=0.1311
5
0.525*(1-0.525)*(0.1311*(-0.2))=-0.0065
4
0.332*(1-0.332)*(0.1311*(-0.3))=-0.0087
w46
-0.3+0.9*0.1311*0.332=-0.216
w56
-0.2+0.9*0.1311*0.525=-0.138
w14
0.2+0.9*(-0.0087)*1=0.192
w15
-0.3+0.9*(-0.0065)*1=-0.306
w24
0.4+0.9*(-0.0087)*0=0.4
w25
0.1+0.9*(-0.0065)*0=0.1
w34
-0.5+0.9*(-0.0087)*1=-0.508
w35
0.2+0.9*(-0.0065)*1=-0.194
Ө6
0.1+0.9*0.1311=0.218
Ө5
0.2+0.9*(-0.0065)=0.194
Ө4
-0.4+0.9*(-0.0087)=-0.408
本例只有一个训练样本,只示例了网络学习过程中的一次迭代过程。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 复习
![提示](https://static.bdocx.com/images/bang_tan.gif)