聚类分析doc.docx
- 文档编号:29012487
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:14
- 大小:174.94KB
聚类分析doc.docx
《聚类分析doc.docx》由会员分享,可在线阅读,更多相关《聚类分析doc.docx(14页珍藏版)》请在冰豆网上搜索。
聚类分析doc
3.8F聚类分析
把事物聚集成类,就是要使类间相似性尽可能地小,类内相似性尽可能地大.
至今已有多种聚类方法,有基于F等价关系、F相似关系的F聚类分析,有基于F划分、保序F划分、F预序关系的各类F聚类分析等.
本节主要介绍基于F等价关系的F聚类分析和基于F划分的F聚类分析.
3.8.1基于F等价关系的F聚类分析
3.8.1.1基本方法
由前面已经知道:
(1)设R∈F(U×U),则R是U上的F等价关系的充分必要条件是
λ∈[0,1],Rλ是U上的等价关系.
(2)设R∈F(U×U),则当0≤λ<μ≤1时,有Rλ
Rμ.
(1)、
(2)表明,可以利用F等价关系R的λ-截关系Rλ对U进行分类(该分类结果是基于λ水平的分类):
对给定的λ∈[0,1],u,v归为同一类的充分必要条件是Rλ(u,v)=1(称u,v在λ水平上同类),且当μ>λ时,按Rμ分成的每一类是按Rλ分成的类的子类,即λ越大分类越细.
例1设U={u1,u2,u3,u4,u5},U上的F关系
.
显然R是自反的、对称的,且
,
所以R是等价关系.
R0.4=
.故当0≤μ≤0.4时,U分为一类:
{u1,u3,u2,u4,u5}.
R0.5=
.故当0.4<μ≤0.5时,U分为二类:
{u1,u3,u4,u5},{u2}.
R0.6=
.当0.5<μ≤0.6时,U分为三类:
{u1,u3},{u2},{u4,u5}.
R0.8=
.当0.6<λ≤0.8时,U分为四类:
{u1,u3},{u2},{u4},{u5}.
R1=
.当0.8<λ≤1时,U分为五类:
{u1},{u2},{u3},{u4},{u5}.
聚类结果还可以用聚类图表示如下:
3.8.1.2聚类步骤
如果已知的F关系R∈[0,1](n×n)仅为相似关系,那么就利用其传递闭包t(R)=Rn(为等价关系)对U进行分类.
基于F等价关系的F聚类的具体步骤如下:
(1)确定分类对象(即论域U)及描述U中元素的各指标特征:
U={u1,u2,…,un},ui=(ui1,ui2,…,uim),i=1,2,…,n.
(2)建立U上的F相似关系R.
在根据m个指标特征确定rij时,须对指标数据进行无量纲预处理,然后再建立F相似关系R=(rij)n×n.具体方法详见P80-81.
(3)建立等价关系t(R).
(4)利用λ-截关系t(R)λ对U分类.
例2(例1P81)按污染度对环境单元分类.
例3(例2P83)按相貌的相像度对人分类.
分类结果表明,水平λ∈(0.8,0.85]或λ∈(0.88,0.9]的分类结果比较合理,而当水平λ过大或过小时,分类结果则不理想.
3.8.1.3直接相似关系聚类法
当U中元素比较多时,上述的方法会比较麻烦,这时可以使用下面三种简便实用的聚类方法,原理如下.
定理1设R∈[0,1]n×n是自反的,则
λ∈[0,1],(t(R))λ=t(Rλ).
证明因为R∈[0,1]n×n是自反的,所以t(R)=Rn,(t(R))λ=(Rn)λ.又因为(Rn)λ=(Rλ)n,t(Rλ)=(Rλ)n,所以(t(R))λ=t(Rλ).
定理1表明,按相似矩阵R的Rλ分为相似类后,再增加传递性,所得的分类结果,与按(t(R))λ分类的结果相同.
聚类原则:
设R∈[0,1]n×n是U={u1,u2,…,un}上的相似关系,则ui,uj在λ水平上同类等价于ui,uj之间存在路权不低于λ的路.
预备知识:
图:
由顶点的集合V={v1,v2,…,vn}与边(连接点与点的线)的集合E构成的集合,记作G=(V,E).
图有有向图与无向图之分,有连通图与不连通图之分,还有有权图与无权图之分.
路:
由“点-边-点-边-…-边-点”(这里的边不包括自边)形式构成的图的子集.
生成树:
包含所有顶点且不存在回路的连通图的连通子图.
最小生成树:
权的总和最小的生成树.
最大生成树:
权的总和最大的生成树.
F图:
由F关系确定的图,其顶点集合为论域,边为隶属度大于零的关系.F图为有向、有权图.
F图的“路权”:
路上全部边的权重(即隶属度)取小的结果.“路权”也叫路的强度(degreeofpath).
1.直接聚类法
例4(例3P85)(Tamuraal.,1971)照片分类.现有三个家庭,每个家庭由4~7人组成,每人1张照片,共有16张.通过照片按相貌相像程度分类,把三个家庭区分开来.
首先建立相似关系.用主观评定法得到相像关系F矩阵R:
其次,按聚类原则,将关系R的F图中权重低于λ的边去掉,就形成若干连通子图,则每个连通子图上的所有元素是一类.
写出Rλ矩阵,由Rλ即可确定连通子图.
在水平0.8下,照片分为五类:
{1,13},{6,8,16},{2,5,7,11,14},{4,9,10,12,15},{3}.
在水平0.6下,照片分为四类:
{1,6,8,13,16},{2,5,7,11,14},{4,9,10,12,15},{3}.
2.编网法
编网法的步骤:
(1)根据相似关系R写出Rλ的布尔矩阵(对角线及右上方部分省略);
(2)将矩阵Rλ的对角线元素依次填上元素序号;
(3)将矩阵Rλ左下方中的0抹去,而1用“*”代替;
(4)用经线与纬线将“*”与对角线上的序号连接(即编网),如此打结而能互相连接的点属于一类.
按聚类原则,编网法聚类与t(R)聚类是等价的.
例5(同例4)照片分类.
水平λ=0.6时的“结网”如下:
可见,在0.6水平下,照片分为四类:
{1,6,8,13,16},{2,5,7,11,14},{4,9,10,12,15},{3}.
与直接法的分类结果一致.
3.最大树法
最大树法的步骤:
(1)确定相似矩阵R.
(2)在F相似矩阵R中,按rij的大小顺序,依次用直线将元素连接起来(若在某一步出现回路,便不画这一步),并标上权重,直到所有元素连通为止,就得到一棵最大生成树(不一定唯一).
(3)取水平λ,去掉最大生成树中权重低于λ的连线,形成若干连通子图,则每个连通子图中的元素便归为一类.
例6(同例4)照片分类.
根据相似矩阵找出最大生成树:
然后去掉树中权重低于0.6的连线,得到四个连通子图:
在0.6水平下,照片分为四类:
{1,6,8,13,16},{2,5,7,11,14},{4,9,10,12,15},{3}.
与直接法和结网法的分类结果一致.
3.8.2基于F划分的F聚类分析
3.8.1中介绍的几个聚类方法不适用于大数据量情况,且难以满足实时性要求高的场合,因此其实际应用不够广泛.实际中常用的是基于目标函数的方法,其特点是它可以转化为经典非线性规划问题,易于计算机编程实现,解决问题的范围广.下面介绍的Fuzzyc均值聚类算法FCM是基于F划分的F聚类分析的基本算法,基于保序F划分与基于F预序关系的F聚类分析是其改进算法和扩展算法.
3.8.2.1F划分
欲将数据集X={x1,x2,…,xn}分为c类(1≤c≤n),使得X中的任意样本xk必须属于且仅属于某一类,以及每一类至少包含一个样本.这种问题的分类结果可以用一个n×c矩阵D=(dki)n×c表示,其中dki满足:
(1)dki∈{0,1},dki=1表示样本xk属于第i类,dki=0表示样本xk不属于第i类.
(2)dk1+dk2+…+dkc=1,k=1,2,…,n;
(3)d1i+d2i+…+dni>0,i=1,2,…,c.
称D为X的一个硬c-划分(crispc-partitions).硬c-划分的全体记为记作D(c).
如果dki∈[0,1](k=1,2,…,n,i=1,2,…,c),则称D为X的一个Fuzzyc-划分(fuzzyc-partitions).Fuzzyc-划分的全体记为记作Df(c).
例1设X={x1,x2,x3},下列矩阵
都是X的硬2-划分,而下列矩阵
都是X的可能存在的Fuzzy2-划分.
3.8.2.2Fuzzyc均值聚类算法FCM
Dunn(1974)把Ruspini(1969)定义的硬划分准则函数(下面定义1中p=1且dki∈{0,1}的情形)
(其中J(D,V)表示各类中的样本与其典型样本的误差平方和)推广到了F聚类的情形(定义1中p=2的情形)
(其中J(D,V)表示各类中的样本与其典型样本的加权误差平方和),然后Bezdek(1981)又做了如下进一步推广.
定义1(Bezdek,1981)设X={x1,x2,…,xn}
Rm是样本集,V={v1,v2,…,vc}
Rm是c类“代表(典型)”向量集,D=(dki)n×c∈Df(c),令
,
J(D,V)称为依Fuzzyc划分聚类的准则函数(criterionfunction).
当dki∈{0,1}(k=1,2,…,n,i=1,2,…,c)时,J(D,V)即为硬c-划分聚类的准则函数.
定义1中的“代表(典型)”向量集V={v1,v2,…,vc}称为聚类中心.
定义2对于给定的X={x1,x2,…,xn}
Rm,若有V*={v1*,v2*,…,vc*}
Rm和D*=(dki*)n×c∈Df(c),使
V={v1,v2,…,vc}
Rm和
D=(dki)n×c∈Df(c)都满足
J(D*,V*)≤J(D,V),
则D*称为X的最优Fuzzyc-划分(optimalfuzzyc-partitions),V*称为最优F聚类中心(optimalfuzzyclusteringcentre).
定理1设X={x1,x2,…,xn}
Rm是样本集,对于取定的D=(dki)n×c∈Df(c)和p(p>1),若令
,
(1)
则V*={v1*,v2*,…,vc*}使J(D,V)取极小值.
定理2设X={x1,x2,…,xn}
Rm,对于取定的V={v1,v2,…,vc}
Rm,p(p>1)和c(1≤c≤n),对于k(1≤k≤n),若存在l(1≤l≤c)使xk=vl,则令
否则,令
.
(2)
那么D*=(dki*)n×c∈Df(c),且D*使J(D,V)取极小值.
定理1、2给出了求有限论域的Fuzzyc均值聚类算法FCM:
如果已知数据集X、聚类类别数c和特征指标数m,那么采用迭代算法,由式
(1)和式
(2)就能确定出最优F分类矩阵和最优F聚类中心.
FCM算法如下:
已知样本数据集X={x1,x2,…,xn}
Rm,要求将X分为c(1
Step1置初始F划分矩阵D(0)=(dki(0))n×c∈Df(c),置l=0.
Step2对i=1,2,…,c,计算
和计算
J(D(l),V(l))=
.
Step3对于k=1,2,…,n,
若有j(1≤j≤c)使xk=vj(l),则令
;
否则,令
.
Step4对于i=1,2,…,c,计算
.
Step5计算J(D(l+1),V(l+1))=
.
若J(D(l),V(l))-J(D(l+1),V(l+1))<ε,则输出D(l+1)和V(l+1);否则,置l=l+1,转向Step3.
(定理1、2保证:
0≤J(D(l+1),V(l+1))≤J(D(l),V(l)).)
例2在汽车的催化转换器(CO→CO2)化工处理中,有效转化率与催化程度倒数间的关系,从相互作用的效果看,两个数据类是已知的.高转化效率和高温度的点表示非污染系统(c1类),低转化效率和低温度的点表示污染系统(c2类).现已测得的四种不同催化转换器的转化率与温度的数据:
x1=(1,3),x2=(1.5,3.2),x3=(1.4,2.8),x4=(3,1).
试确定它们是否是污染系统.
解令p=2,并取初始聚类为c1={x1,x2,x3},c2={x4},即初始F划分矩阵为
,则初始聚类中心为V(0)={v1(0),v2(0)}=((1.3,3.0)T,(3,1)T).
计算D
(1)=(dki
(1))4×2.对于k=1,2,3,i=1,2,
d11
(1)=[(0.32+02)/(0.32+02)+(0.32+02)/(22+22)]-1
=(1+0.09/8)-1=0.989,
d12
(1)=[(22+22)/(0.32+02)+(22+22)/(22+22)]-1
=(8/0.09+1)-1=0.011,
d21
(1)=[(0.22+0.22)/(0.22+0.22)+(0.22+0.22)/(1.52+2.22)]-1
=(1+0.08/7.09)-1=0.989,
d22
(1)=[(1.52+2.22)/(0.22+0.22)+(1.52+2.22)/(1.52+2.22)]-1
=(7.09/0.08+1)-1=0.011,
d31
(1)=[(0.12+0.22)/(0.12+0.22)+(0.12+0.22)/(1.62+1.82)]-1
=(1+0.05/5.8)-1=0.991,
d32
(1)=[(1.62+1.82)/(0.12+0.22)+(1.62+1.82)/(1.62+1.82)]-1
=(5.8/0.05+1)-1=0.009.
因为x4=v2(0),所以d41
(1)=0,d42
(1)=1.
.
计算新聚类中心:
V
(1)={v1
(1),v2
(1)},
v1
(1)=(0.9892
+0.9892
+0.9912
+02
)/
(0.9892+0.9892+0.9912+02)=(1.267,3)T≈(1.3,3)T,
v2
(1)=(0.0112
+0.0112
+0.0092
+12
)/
(0.0112+0.0112+0.0092+12)=(3,1)T.
因为v1
(1)≈v1(0)=(1.3,3.0)T,v2
(1)=v2(0)=(3,1)T,所以聚类结束.根据D
(1),可以聚类为c1={x1,x2,x3},c2={x4},即可以认为前三种催化转换器属非污染系统,第四个则属污染系统.
注意:
如果初始聚类不设置为c1={x1,x2,x3},c2={x4},那么将需要更多次迭代才能求到最优F聚类.
3.8.2.3聚类效果的检验
在基于F划分的聚类算法中,不同的c,D(0),p(甚至不同的ε)得到不同的最优解,即得到的是局部最优解.如何从这些局部最优解中找出全局最优解呢?
这就需要有鉴别聚类效果的指标.下面介绍两种检验聚类效果的方法:
分类系数法与平均F熵法.
1.分类系数法
考虑分类系数
.
当D∈Df(c)时,Fc(D)=1.因此,Fc(D)越接近于1,聚类效果越好.
2.平均F熵法
考虑平均F熵
.
当D∈Df(c)时,Hc(D)=0.因此,Hc(D)越接近于0,聚类效果越好.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 doc
![提示](https://static.bdocx.com/images/bang_tan.gif)