第五章聚类分析PPT课件下载推荐.ppt
- 文档编号:13748275
- 上传时间:2022-10-13
- 格式:PPT
- 页数:130
- 大小:1.54MB
第五章聚类分析PPT课件下载推荐.ppt
《第五章聚类分析PPT课件下载推荐.ppt》由会员分享,可在线阅读,更多相关《第五章聚类分析PPT课件下载推荐.ppt(130页珍藏版)》请在冰豆网上搜索。
,第五章聚类分析,特征空间量纲标尺的选择:
量纲选择不同,分类也有差异。
第五章聚类分析,为了克服这个缺点,常使特征数据标准化,使它与变量量纲标尺没有关系。
第五章聚类分析,5.1相似性度量和聚类准则,一般用归并相似的模式和分开不相似的模式以形成聚类。
相似性归并是聚类最普通的形式。
各式各样的相似性和距离度量已经作为特征空间中模式样本的聚类准则。
第五章聚类分析,5.1.1相似性度量(Similaritymeasure),相似性度量将建立一个把模式分到一聚类中心域的原则。
欧氏距离(Euclideandistance)(常用)对两个样本xi和xj,其欧氏距离定义为,若dij小,相似性大。
5.1相似性度量和聚类准则,加权欧氏距离也是一种常用的相似性度量。
wk是系数,其重要,wk大;
次要的,wk小。
欧氏距离(Euclideandistance)(常用),5.1.1相似性度量,马氏距离(Mahalanobisdistance)(不常用),x是待识别样本,m是均值向量,是协方差矩阵。
若为单位阵,则马氏距离与欧氏距离相似。
马氏距离的优点是排除了模式样本之间的相关性的影响。
例如取一个模式特征向量,可能其中九个分量是反映同一特征A,而只有一个分量反映另一特征B,这时如用欧氏距离计算,主要反映了特征A,而用马氏距离则可避免这个缺点。
5.1.1相似性度量,明氏距离(Minkowskydistance),m=2时为欧氏距离;
m=1为绝对距离(用绝对值);
dij=|xi1xj1|+|xidxjd|相似性度量不一定只限于距离,可以是下面的形式:
5.1.1相似性度量,角度相似性度量函数,sij是向量xi和xj之间夹角的余弦,当xi和xj相对于原点是同一方向时,函数值最大。
当聚类区域有扇形分布时往往采用这种相似性度量。
如图5.1所示。
5.1.1相似性度量,0,图5.1相似性度量的说明,从图中可以看到,由于s(x,x1)比s(x,x2)大,因此x与x1比与x2更相似。
5.1.1相似性度量,距离和角度相似性函数作为相似性的测度各有其局限性。
距离对于坐标系的旋转和位移是不变的,对于放大缩小并不具有不变性的性质。
角度相似性函数对于坐标系的旋转放大缩小是不变的,但对于位移不具有不变性的性质。
用角度相似性函数作为相似性的测度还有一个缺点,当本属不同类的样本分布在从模式空间原点出发的一条直线上时,所有样本之间角度相似性函数几乎都等于l,造成归为一类的错误。
5.1.1相似性度量,Tanimoto度量(常用),若模式向量取二进制值0,1时有特殊意义,样本x具有第k个特征,xiTxj是两者共同的特征数;
是xi和xj各自具有的特征数的几何均值。
这种度量称为Tanimoto度量。
5.1.1相似性度量,Tanimoto度量(常用),适用于疾病诊断、动植物分类和情报检索等方面。
上述介绍的相似性量度不是仅有的形式,而是属于比较简单和典型的。
5.1.1相似性度量,距离函数应满足三个条件:
非负性:
对于一切i,j,dij(xi,xj)0,当xi=xj时,等号成立。
对称性:
对于一切i,j,dij(xi,xj)=dji(xj,xi),即距离是标量而不是向量。
三角不等式:
dij(xi,xj)djk(xj,xk)+dkj(xk,xj),即相当于三角形两边之和必大于第三边。
5.1.1相似性度量,5.1.2聚类准则,假定有一组样本x1,x2,xN,要求对其进行确切分成1,2,c类。
同一类里的样本比不同类里的样本相似性高一些,于是可存在多种分类,到底何种分类方法最好?
需要定义一个准则函数,则聚类问题就变成对准则函数求极值的问题。
5.1相似性度量和聚类准则,试探方式:
针对具体的实际问题,定义一种相似性度量的阈值T,按最近邻原则分类,须不断检验、修正阈值T。
这种方法的误判率受T及起始样本影响。
5.1.2聚类准则,误差平方和准则(最小方差划分)(常用),误差平方和准则是聚类问题中最简单而又广泛应用的准则。
准则函数为,c是类别数,Xi是第i类聚类中心域的样本集合,mi是第i类均值向量(类中心),Ni是Xi中的样本数。
使J最小化的聚类就是最合理的聚类。
5.1.2聚类准则,误差平方和准则(最小方差划分),此种准则函数适用于集群性好,且各类容积相近情况。
如果类间距离小,容积相差悬殊,容易发生错误。
5.1.2聚类准则,误差平方和准则(最小方差划分),如图(a)中所示的模式分类,使用这种准则进行聚类可获得最好的效果。
5.1.2聚类准则,误差平方和准则(最小方差划分),而如图(b)中的模式分布,使用这种准则得到的效果就不理想。
5.1.2聚类准则,误差平方和准则(最小方差划分),当各类中的样本数相差很大而类间距离较小时,有可能把样本数多的一类一拆为二,这样聚类的结果,误差平方和准则函数J比保持完整时为小(如图5.3所示)。
因此有可能将1和2分错,发生错误聚类。
5.1.2聚类准则,误差平方和准则(最小方差划分),图5.3把大群拆开的问题(b)的误差平方和小于(a)的误差平方和,5.1.2聚类准则,与最小方差有关的准则,经过简单的代数运算,可以将上述J的表达式中均值向量mi消去,得到另一种准则函数表示形式,式中c是聚类数;
Ni是第i个聚类域中的样本数;
Si是相似性算子。
它是第i类点间距离平方的平均,是以欧氏距离作为相似性度量。
5.1.2聚类准则,与最小方差有关的准则,若以非尺寸的相似性函数s(x,x)来取代相似性算子Si中的欧氏距离,并把它代入准则函数J的表示式中,可得到准则函数的另一种表示形式。
5.1.2聚类准则,散布准则(离散度准则),用多元判别式分析中的散布矩阵可以推出另一种准则函数。
第i类的均值向量(第i类的中心),总平均向量(总体中心),5.1.2聚类准则,散布准则(离散度准则),第i类的散布矩阵,类内散布矩阵,类间散布矩阵,5.1.2聚类准则,散布准则(离散度准则),总散布矩阵,根据上述定义可以证明,总散布矩阵等于类内散布矩阵与类间散布矩阵之和。
即:
ST=SW+SB,5.1.2聚类准则,证明:
ST=SW+SB,5.1.2聚类准则,5.1.2聚类准则,散布准则(离散度准则),总散布矩阵与如何划分类别无关,仅与全部样本有关。
但类内和类间散布矩阵都与类别划分有关。
这两矩阵有一互补关系,因此使类内散布矩阵最小就是使类间散布矩阵最大。
由于度量矩阵大小的方法有“迹”和行列式,故利用散布矩阵提出以下准则:
5.1.2聚类准则,迹准则,迹是散布矩阵大小的最简单的度量,迹等于散布矩阵的对角线元素之和,最小化SW的迹准则,使其(J)取最小值,是一种最优化的准则。
5.1.2聚类准则,迹准则,或最大化SB的迹作为另一种最优化的准则。
5.1.2聚类准则,行列式准则,散布矩阵的行列式可作为散布矩阵的另一种大小度量。
在类数小于或等于维数时,SB是奇异的,所以不能选择SB的行列式作为准则函数,一般选择SW的行列式,行列式准则函数为,这是因为矩阵行列式的大小正比于主轴方向方差的乘积。
5.1.2聚类准则,5.2聚类算法,5.2.1按最近邻原则试探算法特点:
简单、快速。
缺点:
粗糙。
假设有N个样本x1,x2,xN,x在d维特征空间,类别数未知。
第五章聚类分析,应用于无训练样本集,无教师(或无人)参与分类过程。
算法步骤(依据试探性准则),选定一个非负的阈值T。
在x1,x2,xN中任取xi,i=1,2,N,令任一个样本xi为第一个聚类中心z1,即z1=xi,例如,可选z1=x1作为第一个聚类中心。
取x2计算(根据具体问题选定计算方法),5.2.1按最近邻原则试探算法,算法步骤(依据试探性准则),判断:
d21T,则建立一个新的聚类中心z2,z2=x2。
d21T,则x2X1,X1是以z1为聚类中心的模式的集合。
例如,选定欧氏距离作为相似性度量,计算x2到z1的距离,5.2.1按最近邻原则试探算法,算法步骤(依据试探性准则),取下一个样本xj,xj是余下的样本中的任一个,计算dj1=|xjz1|,dj2=|xjz2|,dj1=|xjzk|,,接着分别计算x3到z1和z2的距离得d31和d32,如果判断d31T,d32T,则再建立一个新的聚类中心z3,z3=x3。
d31d32T,则x3X1,否则x3X2,X2是以z2为聚类中心的模式的集合。
即将x3分到最近的聚类中心的域中。
5.2.1按最近邻原则试探算法,算法步骤(依据试探性准则),所有样本全部处理完毕否?
没有处理完,转4。
处理完,算法结束。
若,否则,xj属于离它最近的聚类中心所属的类。
判断:
5.2.1按最近邻原则试探算法,算法讨论,此算法的聚类结果受阈值T的大小、初始值z1的选择、样本的顺序及数据的几何特性等四个因素的影响。
其中T和z1的影响大一些。
如图5.4所示。
(a),(b),T3,(c),图5.4按最近邻原则试探算法中阈值和起始点的影响,T2,T2,T1,5.2.1按最近邻原则试探算法,改进措施:
具有待分类样本集的几何分布的先验知识,用来指导选择T和z1,可以改善聚类结果(在d较小时,如d=1,2,3等)。
在d较大的高维情况,要进行反复验算、修正T和z1(验算采用误差平方和等准则)。
否则,此算法只能用于粗糙分类,进行预分。
5.2.1按最近邻原则试探算法,5.2.2小中取大距离算法(最大最小距离算法),此算法以欧氏距离为基础,选集合中最不相似(距离最大)的点或样本作为各类的聚类中心。
举例说明如图所示样本的此聚类算法步骤:
5.2.2小中取大距离算法,如图所示模式:
任选一模式样本x1,令z1=x1为第一个聚类中心。
5.2.2小中取大距离算法,在图(b)中由z1标志,图中箭头上的数字标志了聚类中心赋值的步骤。
x1x2x3x4x5x6x7x8x9x10,z1,
(1),(b)样本和种类表,计算欧氏距离di1=|xiz1|,i=1,2,N。
5.2.2小中取大距离算法,则令z2=xj为新的聚类中心。
在此例中最大,故z2=x6。
若,5.2.2小中取大距离算法,在图(b)中由z2标志,x1x2x3x4x5x6x7x8x9x10,z1z2z3,
(1),
(2),(b)样本和种类表,5.2.2小中取大距离算法,找新的聚类中心设当前已有z1,z2,zk个聚类中心,分别计算其余样本到各聚类中心的距离:
di1=|xiz1|,di2=|xiz2|,dik=|xizk|,i=1,2,N,5.2.2小中取大距离算法,取,m=1,2,k。
取,i=1,2,N。
若djmmax|zizl|,i,l=1,2,k。
则令zk+1=xj。
此例中,z3=x7,。
是系数,。
5.2.2小中取大距离算法,在图(b)中由z3标志,图中箭头上的数字标志了聚类中心赋值的步骤。
5.2.2小中取大距离算法,若取得大,划分的类少;
若取得小,划分的类多。
一般根据经验试探选。
每确定一个新的聚类中心后,重复3。
若djmmax|zizl|,i,l=1,2,k。
则寻
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 聚类分析