模糊聚类分析方法汇总.docx
- 文档编号:8302965
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:18
- 大小:152.82KB
模糊聚类分析方法汇总.docx
《模糊聚类分析方法汇总.docx》由会员分享,可在线阅读,更多相关《模糊聚类分析方法汇总.docx(18页珍藏版)》请在冰豆网上搜索。
模糊聚类分析方法汇总
模糊聚类分析方法
对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。
载科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。
例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。
由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。
1、第一步:
数据标准化冏
(1)数据矩阵
设论域U={為,比,…,暫}为被分类对象,每个对象乂有加个指标表示其性状,即
齐={兀小兀2,•・•,%/}
其中X肿表示第〃个分类对象的第加个指标的原始数据。
(2)数据标准化
在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。
但是,即使这样,得到的数据也不一定在区间[0,1]上。
因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据
压缩到区间[0,1]上。
通常有以下儿种变换:
1平移•标准差变换
兀;=—~—a=1,2,…=1,2。
…,加)
经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。
但是,再用得到的塢还不一定在区间[0,1]上。
2平移•极差变换
显然有0S瑞而且也消除了量纲的影响。
3对数变换
兀;=Igx伙(j=l,2,•••";£=1,2,…")
取对数以缩小变量间的数量级。
2、第二步:
标定(建立模糊相似矩阵)
设论域(/={召宀,…,£},兀={兀|,兀2,},依照传统聚类方法确定相似系数,建立模糊相似矩阵,形与》的相似程度©=R(W。
确定%=/?
(£•,◎)的方法主要借用传统聚类的相似系数法、距离法以及其他方法。
具体用什么方法,可根据问题的性质,选取下列公式之一计算。
(1)相似系数法
1夹角余弦法
2最大最小法
3算术平均最小法
2工(心人g)
『_A-1
rij肓°
工(心+®)
1】
4几何平均最小法
m
2工(心人g)
%°
A-1
以上3种方法中要求切>0,否则也要做适当变换。
5数量积法
'1,i=/
r=\1加,
y&孕宀,I
6相关系数法
其中
7指数相似系数法
旷丄头炯弓鱼芋打,
/»組4几
其中
距离法
1直接距离法
勺=1一住心內),
其中C为适当选取的参数,使得0;7<1,〃(兀小)表示他们之间的距离。
经常
用的距离有
•海明距离
m
1心心)=工氐-讣
A-1
•欧几里得距离
(心,®)=点(心一®)。
•切比雪夫距离
md(xvxj)=^xik-xjko
2倒数距离法
1,i=j,
r.M・」・。
T——'if
其中M为适当选取的参数,使得OS帀<1。
3抬数距离法
5=expH/(xMxy)]o
3、第三步:
聚类(求动态聚类图)
(1)基于模糊等价矩阵聚类方法
1传递闭包法
根据标定所得的模糊矩阵R还要将其改造称模糊等价矩阵疋。
用二次方法求R的传递闭包,即t(R)=R\再让久由大变小,就可形成动态聚类图。
2布尔矩阵法I】。
】
布尔矩阵法的理论依据是下面的定理:
定理2.2.1设尺是”={州,吃,一,俎}上的一个相似的布尔矩阵,则人具有传递性(当R是等价布尔矩阵时)O矩阵在任一排列下的矩阵都没有形如
1]
P1]
"1
0、
pr
、1
0/
01,
1丿
bJ
的特殊子矩阵。
布尔矩阵法的具体步骤如下:
①求模糊相似矩阵的兄-截矩阵心.
②若心按定理2.2.1判定为等价的,则由心可得〃在2水平上的分类,若心判定为不等价,则磯在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0—律改成1直到不再产生上述形式的子矩阵即可。
如此得到的R;为等价矩阵。
因此,由尺;可得兄水平上的分类
(2)直接聚类法
所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也
不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。
其步骤如下:
①取人=1(最大值),对每个兀作相似类氐h,且
[兀]/?
={"」习=1},
即将满足©=1的兀与◎放在一类,构成相似类。
相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现
[\]K={兀,兀},[兀b={®,无},[兀]cH0•
此时只要将有公共元素的相似类合并,即可得人=1水平上的等价分类。
2取心为次大值,从R中直接找出相似度为入的元素对3,勺)(即©=人),将对应于入=1的等价分类中兀所在的类与◎所在的类合并,将所有的这些情况合并后,即得到对应于入的等价分类。
3取禺为第三大值,从中直接找出相似度为禺的元素对(%卩)(即帀=人),将对应于人2的等价分类中片所在的类与勺所在的类合并,将所有的这些情况合并后,即得到对应于人的等价分类。
4以此类推,直到合并到"成为一类为止。
、最佳阈值>1的确定
在模糊聚类分析中对于各个不同的Ae[O,l],可得到不同的分类,许多实际问题需要选择某个阈值兄,确定样本的一个具体分类,这就提出了如何确定阈值兄的问题。
一般有以下两个方法:
1按实际需要,在动态聚类图中,调整几的值以得到适当的分类,而不需要事先准确地估计好样本应分成儿类。
当然,也可由具有丰富经验的专家结合专业知识确定阈值兄,从而得出在几水平上的等价分类
2用F统计量确定2最佳值。
1,11
设论域={召宀,…,£}为样本空间(样本总数为n),而每个样本兀有m个
特征:
兀={勺,兀2,…,心},(;=1,2,...,“)。
于是得到原始数据矩阵,如下表所示,
样本
指
标
1
2
•••k
•…m
x\\
尤12
…x\k
…兀伽
•
•
X2\
■
•
X22
■
■
…X2k
■
•
…X2/«
■
■
■
•
•
■
兀1
•
•
■
兀2
■
■
■
…xik
■
•
•
…X.un
■
■
■
■
兀1
■
“2
■
…Xnk
■
•…X
^nm
X
(K
…xk
…兀“)
元称为总体样本的中心向量。
设对应于兄值的分类数为I第丿•类的样本数为勺,笫八类的样本记为:
第丿•类的聚类中心为向量評=(申,瑠,…,帶),其中郢为第
k个特征的平均值,即
工;八=_y,伙=12…,加),
为別与X间的距离,卜严一划件为第丿•类中第j个样本宀与其中心刃间的距离。
称为F统计量,它是遵从自由度为r-1,H-r的F分布。
它的分子表征类与类之间的距离,分母表征类内样本间的距离。
因此,F值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。
基于模糊聚类分析的多属性
决策方法的实际应用
聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。
山于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。
第一节雨量站问题
一、问题的提出
某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年降雨量列入表1中。
现因经费问题,希望撤销儿个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?
A7
x3Xio
图1雨量站分布图
表1各雨量站10年间测得的降雨量
年序号
■
心
心
心
心
心
X1O
心
1
276
324
159
413
292
258
311
303
175
243
320
2
251
287
319
344
310
454
285
•151
402
307
470
3
192
433
290
563
479
502
221
220
320
411
232
4
246
232
243
281
267
310
273
315
285
327
352
5
291
311
502
388
330
410
352
267
603
290
292
6
•166
158
224
178
161
203
502
320
240
278
350
7
258
327
432
•101
361
381
301
113
402
199
421
8
453
365
357
452
384
420
482
228
360
316
252
9
158
271
•110
308
283
410
201
179
130
342
185
10
324
406
235
520
442
520
358
343
251
282
371
2.问题的分析
应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。
我们仅考虑尽可能地减少降雨信息问题。
一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中"多余”的站。
问题求解假设为使问题简化,特作如下假设
1每个观测站具有同等规模及仪器设备;
2每个观测站的经费开支均等;
具有相同的被裁可能性。
分析:
对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。
三、问题的解决
求解步骤:
1、数据的收集
原始数据如表1所示。
2、建立模糊相似矩阵
利用相关系数法,构造模糊相似关系矩阵(/^)1Ixll,其中
工1(心i_兀)11(兀必_勺)1
[工(心-册)'•工(心-七)勺2
取/=2,j=l,代入公式得心二0.839,由于运算量巨大用C语言编程计算出其余数值,得模糊相似关系矩阵(/^)IIX11,具体程序如下
#include
#include
doubler[ll][ll];
doublex[l1];
voidmain()
{inti,j,k;doublefenzi=O.fenmu1=0,fenniu2=0,fenmu=0;
intyear[10][ll]={276,324,159,413,292,25&311,303,175,243,320,
251,287,349,344,310,454,285,451,402,307,470,
192,433,290,563,479,502.221,220,320,411,232,
246,232,243,281,267,310,273,315,285,327,352,
291,311,502,388,330,410,352,267,603,290,292,
466,158,224,178,164,203,502,320,240,27&350,
258,327,432,401,361,381,301,413,402,199,421,
453,365,357,452,384,420,482,22&360,316,252,
158,271,410,308,283,410,201,179,430,342,185,324,406,235,520,442,520,35&343,251,282,371};
for(i=0;i {for(k=0;k<10;k++) {x[i]=x[i]+year[k][i];} x[i]=x[i]/10; } for(i=0;i {for(j=0;j {for(k=0;k<10;k++) {fenzi=fenzi+fabs((year[k][i]-x[i])*(year[k][j]-x|j]));fenmul=fenmul+(year[k][i]-x[i])*(year[k][i]-x[i]); fenmu2=fenmu2+(year[k][j]-x[j])*(year[k][j]-x[j]);fenmu=sqrt(fenmu1)*sqrt(fenmu2); r[i][j]=fenzi/fenmu; ) fenmu=fenmu1=fenmu2=fenzi=0; )) for(i=0;i {for(j=0;j {printf(”%6.3f“,r[i][j]);} printf(H\nH);) getchar(); } 得到模糊相似矩阵 1.0000.8390.5280.8440.8280.7020.9950.6710.4310.5730.712 0.839 1.000 0.542 0.996 0.989 0.899 0.855 0.510 0.475 0.617 0.572 0.528 0.542 1.000 0.562 0.585 0.697 0.571 0.551 0.962 0.642 0.568 0.844 0.996 0.562 1.000 0.992 0.908 0.861 0.542 0.499 0.639 0.607 0.828 0.989 0.585 0.992 1.000 0.922 0.843 0.526 0.512 0.686 0.584 0.702 0.899 0.697 0.908 0.922 1.000 0.726 0.455 0.667 0.596 0.511 0.995 0.855 0.571 0.861 0.843 0.726 1.000 0.676 0.489 0.587 0.719 0.671 0.510 0.551 0.542 0.526 0.455 0.676 1.000 0.467 0.678 0.994 0.431 0.475 0.962 0.499 0.512 0.667 0.489 0.467 1.000 0.487 0.485 0.573 0.617 0.642 0.639 0.686 0.596 0.587 0.678 0.487 1.000 0.688 0.712 0.572 0.568 0.607 0.584 0.511 0.719 0.994 0.485 0.688 1.000 对这个模糊相似矩阵用平方法作传递闭包运算,求胪: 肥即 f(R)=R4=R・。 3、聚类 注: 是对称矩阵,故只写出它的下三角矩阵 1.000 取2=0.996,则 1 .1. x2,x4,x5在置信水平为0.996的阈值久下相似度为1,故x2,x4,x5同属一类,所以此时可以将观测站分为9类{g,心},{山},{x3}f{x6}t{x7}t{x,}f{x9}f{-Vlo}>{xH}o 降低置信水平兄,对不同的几作同样分析,得到: 2=0.995时,可分为8类,即(x2,x4,尤5,心},{"},{a'3},(a*7},{Xjj},{x9}, {Mu},{X]]}° 2=0.994时,可分为7类{x2yX4,xs>x6},{xlfx7},{x3},{^g}»{x9}, {人1°}‘{X]]}。 2=0.962时,可分为6类{x2,x4,xs,x6}f{xifx7},{x3,x9},g}, {Mo},{X]]}° 2=0.719时,可分为5类{x2.x4,xSyx6},{xpx1}T{x3.x9},g,xu},{xl0}a 第二节成绩评价问题 一、问题的提出 某高中高二有7个班级,学生成绩的好与差,没有明确的评定界限,并且班级间成绩好坏的表现具有一定的模糊不确定性。 二、问题的分析 解决上述问题可运用模糊聚类分析方法。 现以7个班级某次其中考试的四门主课成绩为依据,对7个班级成绩好坏的相关程度分类。 设7个班级组成一个分类集合: X=Cvpx2,...,x7)分别代表1班到7班。 每个班级成绩均是四门基础课(语文、数学、英语、综合)作为四项统计指标,即有X厂{X”Xi2,X,3,X“}这里Xg表示为第/•个班级的第jfl基础课指标0=1,2,...,7;丿=1,2,.・.,4)。 这四项成绩指标为: 语文平均成绩数学平均成绩X(2,英语平均成绩综合平均成绩Xu。 各班级成绩指标值见表1。 表17个班4门基础课的成绩指标 班级 4班 2班 3班 4班 5班 6班 7班 62.03 62.48 78.52 72.12 74.18 73.95 66.83 59.47 63.70 72.38 73.28 67.07 68.32 76.04 68.17 61.04 75.17 77.68 67274 70.09 76.87 72.45 68.17 74.65 70.77 70.43 68.73 73.18 三、问题的解决 1、数据标准化问 采用极差变换X;=, (1) r—rmaxmin 式中列是第门个班级第丿•门基础课平均成绩的原始数据,大唤和几in分别为不同 班级的同一门基础课平均成绩的最大值和最小值。 X;•为第j个班级笫丿•门基础课平均成绩指标的标准化数值。 当X,=Xmin时,/=0,当X,=Amax时,#=1。 表2平均成绩指标值的标准化数值 班级 1班 2班 3班 4班 5班 6班 7班 0 0.0273 1 0.6119 0.7368 0.7229 0.2911 0 0.2553 0.7791 0.8385 0.4587 0.5341 1 0.4285 0 0.8492 1 0.3966 0.5439 0.9513 0.6605 0 1 0.4012 0.3488 0.0864 0.7731 2、用最大最小法建立相似矩阵 计算模糊相似矩阵R,根据标准化数值建立各班级之间四门基础课成绩指标 的相似关系矩阵,采用最大最小法来计算A;存 其中%e[0,1](=12…,7)=123,4)是表示第i个班级与第j个班级在四门基础 课成绩指标上的相似程度的量。 取i=2J=\,r2l二0,其余运算量可以通过MATLAB编程运算,程序如下: clc clearall meanp=[O0.0273 0.61190.73680.72290.2911; 0.428500.849210.39660.54390.9513; 0.6605010.40120.34880.08640.7731];%平均成绩指标 值的标准化数值 Ca二[0;0;0;0];%初始化比较的数据 Cb=[0;0;0;0];%初始化比较的数据 mina=[0];%初始化比较的数据 maxa=[0];%初始化比较的数据fori=I: 7 forj=1: 7 form=1: 4 Ca=meanp(mJ); Cb=meanp(mj); mina(1,m)=min(Ca,Cb);%ip算任意两横的最小值maxa(1,m)=max(Ca,Cb);%iI•算任意两横的最大值 R(iJ)=sum(mina)/sum(maxa);%计算%,即相似程度的量 endend R%显示相似矩阵 1 0 0.21 0.33 0.30 0.27 0.36 0 1 0.15 014 0.08 0」0 0.09 0.21 0.15 1 0.77 0.52 0.60 0.42 得相似矩阵: R= 0.33 0.14 0.77 1 0.53 0.61 0.43 0.30 0.08 0.52 0.53 1 0.69 0.68 0.27 0.10 0.60 0.61 0.69 1 0.73 0.36 0.09 0.42 0.43 0.68 0.73 1 3、改造相似关系为等价关系进行聚类分析 矩阵R满足自反性和对称性,但不具有传递性,为求等价矩阵,要对进行改造,只需求其传递闭包。 由平方法可得 1 0.15 0.36 0.36 0.36 0.36 0.36 0.15 1 0」5 0.15 0.15 0.15 0.15 0.36 0」5 1 0.77 0.60 0.61 0.60 RoR=Ri= 0.36 0.15 0.77 1 0.61 0.61 0.61 0.36 0.15 0.60 0.61 1 0.69 0.69 0.36 0.15 0.61 0.61 0.69 1 0.73 0.36 0」5 0.60 0.61 0.69 0.73 1 1 0」5 0.36 015 1 0」5 0.36 0」5 1 0.36 0.15 0.77 0.36 0」5 0.61 0.36 0」5 0.61 0.36 0.15 0.61 疋=R? 。 R? = 0.36 015 0.77 1 0.61 0.61 0.61 0.36 0」5 0.61 0.61 1 0.69 0.69 0.36 0」5 0.61 0.61 0.69 1 0.73 0.36 0」5 0.61 0.61 0.69 0.73 1 _1 0.15 0.36 0.36 0.36 0.36 0.36 0.15 1 0.15 0」5 0.15 0.15 0.15 0.36 0.15 1 0.77 0.61 0.61 0.61 F=RSR」= 0.36 0.15 0.77 1 0.61 0.61 0.61 0.36 0.15 0.61 0.61 1 0.69 0.69 0.36 0.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模糊 聚类分析 方法 汇总