书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 聚类分析doc.docx

聚类分析doc.docx

文档编号：29012487
上传时间：2023-07-20
格式：DOCX
页数：14
大小：174.94KB

聚类分析doc.docx

《聚类分析doc.docx》由会员分享，可在线阅读，更多相关《聚类分析doc.docx（14页珍藏版）》请在冰豆网上搜索。

聚类分析doc.docx

聚类分析doc

3.8F聚类分析

把事物聚集成类，就是要使类间相似性尽可能地小，类内相似性尽可能地大.

至今已有多种聚类方法，有基于F等价关系、F相似关系的F聚类分析，有基于F划分、保序F划分、F预序关系的各类F聚类分析等.

本节主要介绍基于F等价关系的F聚类分析和基于F划分的F聚类分析.

3.8.1基于F等价关系的F聚类分析

3.8.1.1基本方法

由前面已经知道：

（1）设R∈F（U×U），则R是U上的F等价关系的充分必要条件是

λ∈[0,1]，Rλ是U上的等价关系.

（2）设R∈F（U×U），则当0≤λ<μ≤1时，有Rλ

Rμ.

（1）、

（2）表明，可以利用F等价关系R的λ-截关系Rλ对U进行分类（该分类结果是基于λ水平的分类）：

对给定的λ∈[0,1]，u,v归为同一类的充分必要条件是Rλ（u,v）=1（称u,v在λ水平上同类），且当μ>λ时，按Rμ分成的每一类是按Rλ分成的类的子类，即λ越大分类越细.

例1设U={u1,u2,u3,u4,u5}，U上的F关系

.

显然R是自反的、对称的，且

，

所以R是等价关系.

R0.4=

.故当0≤μ≤0.4时，U分为一类：

{u1,u3,u2,u4,u5}.

R0.5=

.故当0.4<μ≤0.5时，U分为二类：

{u1,u3,u4,u5},{u2}.

R0.6=

.当0.5<μ≤0.6时，U分为三类：

{u1,u3},{u2},{u4,u5}.

R0.8=

.当0.6<λ≤0.8时，U分为四类：

{u1,u3},{u2},{u4},{u5}.

R1=

.当0.8<λ≤1时，U分为五类：

{u1},{u2},{u3},{u4},{u5}.

聚类结果还可以用聚类图表示如下：

3.8.1.2聚类步骤

如果已知的F关系R∈[0,1]（n×n）仅为相似关系，那么就利用其传递闭包t（R）=Rn（为等价关系）对U进行分类.

基于F等价关系的F聚类的具体步骤如下：

（1）确定分类对象（即论域U）及描述U中元素的各指标特征：

U={u1,u2,…,un}，ui=（ui1,ui2,…,uim）,i=1,2,…,n.

（2）建立U上的F相似关系R.

在根据m个指标特征确定rij时，须对指标数据进行无量纲预处理，然后再建立F相似关系R=（rij）n×n.具体方法详见P80-81.

（3）建立等价关系t（R）.

（4）利用λ-截关系t（R）λ对U分类.

例2（例1P81）按污染度对环境单元分类.

例3（例2P83）按相貌的相像度对人分类.

分类结果表明，水平λ∈（0.8,0.85]或λ∈（0.88,0.9]的分类结果比较合理，而当水平λ过大或过小时，分类结果则不理想.

3.8.1.3直接相似关系聚类法

当U中元素比较多时，上述的方法会比较麻烦，这时可以使用下面三种简便实用的聚类方法，原理如下.

定理1设R∈[0,1]n×n是自反的，则

λ∈[0,1]，（t（R））λ=t（Rλ）.

证明因为R∈[0,1]n×n是自反的，所以t（R）=Rn，（t（R））λ=（Rn）λ.又因为（Rn）λ=（Rλ）n，t（Rλ）=（Rλ）n，所以（t（R））λ=t（Rλ）.

定理1表明，按相似矩阵R的Rλ分为相似类后，再增加传递性，所得的分类结果，与按（t（R））λ分类的结果相同.

聚类原则：

设R∈[0,1]n×n是U={u1,u2,…,un}上的相似关系，则ui,uj在λ水平上同类等价于ui,uj之间存在路权不低于λ的路.

预备知识：

图：

由顶点的集合V={v1,v2,…,vn}与边（连接点与点的线）的集合E构成的集合，记作G=（V,E）.

图有有向图与无向图之分，有连通图与不连通图之分，还有有权图与无权图之分.

路：

由“点-边-点-边-…-边-点”（这里的边不包括自边）形式构成的图的子集.

生成树：

包含所有顶点且不存在回路的连通图的连通子图.

最小生成树：

权的总和最小的生成树.

最大生成树：

权的总和最大的生成树.

F图：

由F关系确定的图，其顶点集合为论域，边为隶属度大于零的关系.F图为有向、有权图.

F图的“路权”：

路上全部边的权重（即隶属度）取小的结果.“路权”也叫路的强度（degreeofpath）.

1.直接聚类法

例4（例3P85）（Tamuraal.,1971）照片分类.现有三个家庭，每个家庭由4~7人组成，每人1张照片，共有16张.通过照片按相貌相像程度分类，把三个家庭区分开来.

首先建立相似关系.用主观评定法得到相像关系F矩阵R：

其次，按聚类原则，将关系R的F图中权重低于λ的边去掉，就形成若干连通子图，则每个连通子图上的所有元素是一类.

写出Rλ矩阵，由Rλ即可确定连通子图.

在水平0.8下，照片分为五类：

{1,13}，{6,8,16}，{2,5,7,11,14}，{4,9,10,12,15}，{3}.

在水平0.6下，照片分为四类：

{1,6,8,13,16}，{2,5,7,11,14}，{4,9,10,12,15}，{3}.

2.编网法

编网法的步骤：

（1）根据相似关系R写出Rλ的布尔矩阵（对角线及右上方部分省略）；

（2）将矩阵Rλ的对角线元素依次填上元素序号；

（3）将矩阵Rλ左下方中的0抹去，而1用“*”代替；

（4）用经线与纬线将“*”与对角线上的序号连接（即编网），如此打结而能互相连接的点属于一类.

按聚类原则，编网法聚类与t（R）聚类是等价的.

例5（同例4）照片分类.

水平λ=0.6时的“结网”如下：

可见，在0.6水平下，照片分为四类：

{1,6,8,13,16}，{2,5,7,11,14}，{4,9,10,12,15}，{3}.

与直接法的分类结果一致.

3.最大树法

最大树法的步骤：

（1）确定相似矩阵R.

（2）在F相似矩阵R中，按rij的大小顺序，依次用直线将元素连接起来（若在某一步出现回路，便不画这一步），并标上权重，直到所有元素连通为止，就得到一棵最大生成树（不一定唯一）.

（3）取水平λ，去掉最大生成树中权重低于λ的连线，形成若干连通子图，则每个连通子图中的元素便归为一类.

例6（同例4）照片分类.

根据相似矩阵找出最大生成树：

然后去掉树中权重低于0.6的连线，得到四个连通子图：

在0.6水平下，照片分为四类：

{1,6,8,13,16}，{2,5,7,11,14}，{4,9,10,12,15}，{3}.

与直接法和结网法的分类结果一致.

3.8.2基于F划分的F聚类分析

3.8.1中介绍的几个聚类方法不适用于大数据量情况，且难以满足实时性要求高的场合，因此其实际应用不够广泛.实际中常用的是基于目标函数的方法，其特点是它可以转化为经典非线性规划问题，易于计算机编程实现，解决问题的范围广.下面介绍的Fuzzyc均值聚类算法FCM是基于F划分的F聚类分析的基本算法，基于保序F划分与基于F预序关系的F聚类分析是其改进算法和扩展算法.

3.8.2.1F划分

欲将数据集X={x1,x2,…,xn}分为c类（1≤c≤n），使得X中的任意样本xk必须属于且仅属于某一类，以及每一类至少包含一个样本.这种问题的分类结果可以用一个n×c矩阵D=（dki）n×c表示，其中dki满足：

（1）dki∈{0,1}，dki=1表示样本xk属于第i类，dki=0表示样本xk不属于第i类.

（2）dk1+dk2+…+dkc=1,k=1,2,…,n；

（3）d1i+d2i+…+dni>0,i=1,2,…,c.

称D为X的一个硬c-划分（crispc-partitions）.硬c-划分的全体记为记作D（c）.

如果dki∈[0,1]（k=1,2,…,n,i=1,2,…,c），则称D为X的一个Fuzzyc-划分（fuzzyc-partitions）.Fuzzyc-划分的全体记为记作Df（c）.

例1设X={x1,x2,x3}，下列矩阵

都是X的硬2-划分，而下列矩阵

都是X的可能存在的Fuzzy2-划分.

3.8.2.2Fuzzyc均值聚类算法FCM

Dunn（1974）把Ruspini（1969）定义的硬划分准则函数（下面定义1中p=1且dki∈{0,1}的情形）

（其中J（D,V）表示各类中的样本与其典型样本的误差平方和）推广到了F聚类的情形（定义1中p=2的情形）

（其中J（D,V）表示各类中的样本与其典型样本的加权误差平方和），然后Bezdek（1981）又做了如下进一步推广.

定义1（Bezdek,1981）设X={x1,x2,…,xn}

Rm是样本集，V={v1,v2,…,vc}

Rm是c类“代表（典型）”向量集，D=（dki）n×c∈Df（c），令

，

J（D,V）称为依Fuzzyc划分聚类的准则函数（criterionfunction）.

当dki∈{0,1}（k=1,2,…,n,i=1,2,…,c）时，J（D,V）即为硬c-划分聚类的准则函数.

定义1中的“代表（典型）”向量集V={v1,v2,…,vc}称为聚类中心.

定义2对于给定的X={x1,x2,…,xn}

Rm，若有V*={v1*,v2*,…,vc*}

Rm和D*=（dki*）n×c∈Df（c），使

V={v1,v2,…,vc}

Rm和

D=（dki）n×c∈Df（c）都满足

J（D*,V*）≤J（D,V），

则D*称为X的最优Fuzzyc-划分（optimalfuzzyc-partitions），V*称为最优F聚类中心（optimalfuzzyclusteringcentre）.

定理1设X={x1,x2,…,xn}

Rm是样本集，对于取定的D=（dki）n×c∈Df（c）和p（p>1），若令

，

（1）

则V*={v1*,v2*,…,vc*}使J（D,V）取极小值.

定理2设X={x1,x2,…,xn}

Rm，对于取定的V={v1,v2,…,vc}

Rm,p（p>1）和c（1≤c≤n），对于k（1≤k≤n），若存在l（1≤l≤c）使xk=vl，则令

否则，令

.

（2）

那么D*=（dki*）n×c∈Df（c），且D*使J（D,V）取极小值.

定理1、2给出了求有限论域的Fuzzyc均值聚类算法FCM：

如果已知数据集X、聚类类别数c和特征指标数m，那么采用迭代算法，由式

（1）和式

（2）就能确定出最优F分类矩阵和最优F聚类中心.

FCM算法如下：

已知样本数据集X={x1,x2,…,xn}

Rm，要求将X分为c（11及ε>0.

Step1置初始F划分矩阵D（0）=（dki（0））n×c∈Df（c），置l=0.

Step2对i=1,2,…,c，计算

和计算

J（D（l）,V（l））=

.

Step3对于k=1,2,…,n，

若有j（1≤j≤c）使xk=vj（l），则令

；

否则，令

.

Step4对于i=1,2,…,c，计算

.

Step5计算J（D（l+1）,V（l+1））=

.

若J（D（l）,V（l））-J（D（l+1）,V（l+1））<ε，则输出D（l+1）和V（l+1）；否则，置l=l+1，转向Step3.

（定理1、2保证：

0≤J（D（l+1）,V（l+1））≤J（D（l）,V（l））.）

例2在汽车的催化转换器（CO→CO2）化工处理中，有效转化率与催化程度倒数间的关系，从相互作用的效果看，两个数据类是已知的.高转化效率和高温度的点表示非污染系统（c1类），低转化效率和低温度的点表示污染系统（c2类）.现已测得的四种不同催化转换器的转化率与温度的数据：

x1=（1,3）,x2=（1.5,3.2）,x3=（1.4,2.8）,x4=（3,1）.

试确定它们是否是污染系统.

解令p=2，并取初始聚类为c1={x1,x2,x3},c2={x4}，即初始F划分矩阵为

，则初始聚类中心为V（0）={v1（0）,v2（0）}=（（1.3,3.0）T,（3,1）T）.

计算D

（1）=（dki

（1））4×2.对于k=1,2,3,i=1,2，

d11

（1）=[（0.32+02）/（0.32+02）+（0.32+02）/（22+22）]-1

=（1+0.09/8）-1=0.989，

d12

（1）=[（22+22）/（0.32+02）+（22+22）/（22+22）]-1

=（8/0.09+1）-1=0.011，

d21

（1）=[（0.22+0.22）/（0.22+0.22）+（0.22+0.22）/（1.52+2.22）]-1

=（1+0.08/7.09）-1=0.989，

d22

（1）=[（1.52+2.22）/（0.22+0.22）+（1.52+2.22）/（1.52+2.22）]-1

=（7.09/0.08+1）-1=0.011，

d31

（1）=[（0.12+0.22）/（0.12+0.22）+（0.12+0.22）/（1.62+1.82）]-1

=（1+0.05/5.8）-1=0.991，

d32

（1）=[（1.62+1.82）/（0.12+0.22）+（1.62+1.82）/（1.62+1.82）]-1

=（5.8/0.05+1）-1=0.009.

因为x4=v2（0），所以d41

（1）=0,d42

（1）=1.

.

计算新聚类中心：

V

（1）={v1

（1）,v2

（1）}，

v1

（1）=（0.9892

+0.9892

+0.9912

+02

）/

（0.9892+0.9892+0.9912+02）=（1.267,3）T≈（1.3,3）T，

v2

（1）=（0.0112

+0.0112

+0.0092

+12

）/

（0.0112+0.0112+0.0092+12）=（3,1）T.

因为v1

（1）≈v1（0）=（1.3,3.0）T,v2

（1）=v2（0）=（3,1）T，所以聚类结束.根据D

（1），可以聚类为c1={x1,x2,x3},c2={x4}，即可以认为前三种催化转换器属非污染系统，第四个则属污染系统.

注意：

如果初始聚类不设置为c1={x1,x2,x3},c2={x4}，那么将需要更多次迭代才能求到最优F聚类.

3.8.2.3聚类效果的检验

在基于F划分的聚类算法中，不同的c,D（0）,p（甚至不同的ε）得到不同的最优解，即得到的是局部最优解.如何从这些局部最优解中找出全局最优解呢？

这就需要有鉴别聚类效果的指标.下面介绍两种检验聚类效果的方法：

分类系数法与平均F熵法.

1.分类系数法

考虑分类系数

.

当D∈Df（c）时，Fc（D）=1.因此，Fc（D）越接近于1，聚类效果越好.

2.平均F熵法

考虑平均F熵

.

当D∈Df（c）时，Hc（D）=0.因此，Hc（D）越接近于0，聚类效果越好.

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 聚类分析 doc

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：聚类分析doc.docx
链接地址：https://www.bdocx.com/doc/29012487.html

聚类分析doc.docx

热门标签