10聚类分析10.docx
- 文档编号:30539884
- 上传时间:2023-08-16
- 格式:DOCX
- 页数:22
- 大小:206.95KB
10聚类分析10.docx
《10聚类分析10.docx》由会员分享,可在线阅读,更多相关《10聚类分析10.docx(22页珍藏版)》请在冰豆网上搜索。
10聚类分析10
第十章聚类分析
第一节聚类分析概述
1、什么是聚类分析
人们认识事物时往往先把被认识的对象进行分类,以便寻找其中相同与不同的特征,因此分类学是人们认识世界的基础科学。
我们所研究的样品或指标(变量)之间存在不同程度的相似性(亲疏关系)。
聚类分析就是采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
如在质量管理中某个产品的一系列质量特性,质量控制、质量改进、产品战略的制定分析、产品设计开发和营销中产品的性能、经济、成本、安全性、环境要求等指标,就可以使用聚类分析对其进行综合评价。
选择刻划对象间两两接近程度的指标和具体划分方法,是聚类分析的关键,不同的聚类规则得到的结果可能相差很大。
进行聚类分析一般包括以下几个基本步骤:
⑴选择描述事物对象的变量(指标)。
要求选取的变量既要能够全面反映对象性质的各个方面,又要使不同变量反映的对象性质有所差异。
⑵形成数据文件,建立样品资料矩阵。
⑶确定数据是否需要标准化。
不同变量的单位经常不一样,有时不同变量的数值差别达到几个数量级别,这时如果不作数据标准化处理,数值较小的变量在描述对象的距离或相似性时其作用会严重削弱,从而影响分类的正确性。
⑷确定表示对象距离或相似程度的统计量。
⑸选择适当的事物对象聚类方法,进行聚类。
2、距离或相似系数的测度
为了将样品(或变量)进行分类,就需要研究样品之间的关系,如何用一个指标来刻画样品之间的距离或相似程度。
目前用得最多的方法有两个。
一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类;另一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零,结果是样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类。
距离和相似系数有多种定义。
在实际工作中遇到的变量有的是定量的(如身高、体重等),有的是定性的(如性别、职业等)。
有些变量是用连续的量值来表示的,如身高、体重、降水、湿度等,称之为间隔尺度变量;有些变量度量是没有明确的数值概念,而是划分一些等级,等级之间有次序关系,如产品质量分为上、中、下三等,此三等有次序关系,但没有具体的数值表示,称之为有序尺度变量;有些度量变量既没有数量表示,也没有次序表示,如某物体有红、黄、白三种颜色,又比如电工学中的正极与负极,市场营销中的“产”和“销”等,称之为名义尺度变量。
某种距离或相似系数的定义一般只适合某种尺度的变量。
⑴距离系数——明氏(Minkowski)距离
明氏(Minkowski)距离距离计算公式
当q=1时,计算公式如下:
即绝对距离(Block)
当q=2时,计算公式如下:
即欧氏距离(EuclideanDistance)
当q=∞时,计算公式如下:
即切比雪夫距离
当个变量的测量值相差悬殊时,直接用明氏距离并不合理,常需先对数据标准化,然后用标准化后的数据计算距离。
明氏距离特别是其中的欧氏距离是人们较为熟悉的,也是使用最多的距离。
明氏距离也存在不足之处,主要表现在两个方面。
一是它与各指标的量纲有关;二是它没有考虑指标之间的相关性,欧氏距离也不例外。
除此之外,从统计的角度看,使用欧氏距离要求一个向量的n个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,这时使用欧氏距离才合适,效果也较好,否则就不能如实反映情况,甚至导致错误结论。
⑵距离系数——马氏距离(Mahalanobis)
马氏距离(Mahalanobis)是由印度统计学家马哈拉诺比斯1936年引入的,故称为马氏距离。
马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。
除此之外,它还有一些优点,如可以证明原数据作一线性交换后,马氏距离仍不变。
这一距离在多元统计分析起着十分重要的作用,下面给出定义:
设∑表示变量的协差阵,计算公式如下:
其中:
⑶相似系数——马氏距离(Mahalanobis)
研究样品之间的关系,除了用距离表示之外,还有相似系数,即描写样品之间相似程度的一个量,常用的相似系数有相关系数和夹角余弦。
夹角余弦将任何两个样品Xi和Xj看成p维空间的两个向量,这两个向量的夹角余弦用cosθij表示。
其计算公式如下:
-1≤cosθij≤1
当cosθij=1时,说明样品Xi与样品Xj完全相似;如果cosθij接近于1,说明样品Xi与样品Xj相似密切;如果cosθij=0,说明样品Xi与样品Xj完全不一样;如果cosθij接近于0,说明样品Xi与样品Xj差别比较大。
通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第j个样品之间的相关系数定义为:
-1≤rij≤1
实际上,rij就是两个向量
和
的夹角的余弦,其中
,
。
若将原始数据标准化,则
,这时rij=cosθij。
3、聚类分析的类型
根据聚类过程的特点,可以划分3种类型。
◆聚合法。
开始每个样品自成一类,计算各类之间相似程度统计量,把最相似的两类合并一类;重新计算各类之间相似程度统计量把最相似的两类合并成一类,这样一直到所有样品归为一类。
◆分解法。
与聚合法相反,开始所有样品归为一类,然后分为两类,一直到每个样品归为一类或不能再细分为止。
◆调优法。
开始人为将样品初始分类,在一定规则下判断该分类是否最优,如果不是则进行修改,再判断修改后的分类是否最优,不断重复上述步骤,直到分类达到最优为止。
聚类分析也可以从对变量或者对样品进行分类这个角度,划分为Q型聚类和R型聚类:
◆Q型聚类:
对样品聚类,具有相同特点的样本聚齐在一起。
◆R型聚类:
对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类。
反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。
由于人们对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。
R型聚类可以了解变量之间关系的亲疏程度,也可根据变量的分类结果以及它们之间的关系,选择少数几个主要变量进行其他统计分析。
4、系统聚类法
系统聚类法是目前国内外使用最多的一种聚类方法。
在系统聚类分析中,用户事先无法确定类别数。
这种方法的基本思想是先将所有样品看成一个类,然后选择性质最接近(距离最小)的两类合并为一个新类,接着计算新类与其他类的距离,再将距离最近的两类合并,这样直至所有的样品合并为一类。
系统聚类方法从聚类过程的特征来看属于聚合法,它既可以样品聚类(这时属于Q型聚类),也可以对变量聚类(这时又属于R型聚类)。
根据聚类过程中采取什么样的方法进行类与类的合并,系统聚类方法又可进一步细分为最短距离法、最长距离法、重心法、类平均法、类间平均连接法、类内平均连接法和离差平方和法等。
⑴最短距离法(Nearestneighbor)
首先距离最近的样品归入一类,即合并的前两个样品是它们之间有最小距离和最大相似性。
然后,计算新类和单个样品间的距离作为单个样品和类中的样品间的最小距离,尚未合并的样品间的距离并未改变。
在每一步,两类之间的距离是它们两个最近点间的距离。
⑵最长距离法(Furthestneighbor)
按两个最远成员间的距离进行类的归并,即两类之间的距离被计算作为它们的两个最远点的距离。
最长距离法与最短距离法只有两点不同,一方面是类与类之间的距离定义不同;另一方面是计算新类与其它类的距离所用公式不同。
⑶重心法(Centroidclustering)
指两类之间的距离为两类重心间的距离。
对样品聚类,每类重心就是该类的均值。
该方法的缺陷是较后合并的类比较前合并的类更不相似。
⑷类平均法(或中间距离法)(Medianclustering)
相对于重心法,两类之间的距离是以各自的中数加以度量的,这使两个正被合并的类,在均值计算中被赋予相等的权利,而不管每一类的样品数。
⑸类间平均连接法(Betweengroupslinkage)
按各个团体中成员的平均距离连类,且两个类间的距离为所有样品偶对间的平均距离。
⑹类内平均连接法(within-groupslinkage)
按各个团体中成员间的平均距离连类,且使产生类的所有样品之平均距离尽可能小,是去产生类的所有可能样品偶对间的平均距离。
⑺离差平方和法(ward’smethod)
离差平方和法的基本思想是来自于方差分析,如果分析正确,同类样品的离差平方和应当小,类与类的离差平方和应当较大。
具体做法是将n个样品看成一类,然后每次缩小一类,没缩小一类离差平方和就要增大,选择使S增加最小的两类合并(因为如果分类正确,同类样品的离差平方和应当较小),直到所有的样品归为一类为止。
对每一类计算所有变量的均值,然后对每一个样品计算到类均值的距离平方,再对所有样品求这些距离之和。
在每一步,合并的两类是使类内距离总平方和增加最小的类。
第二节实例问题
下表给出了某企业对供应商评价的数据,依据给出的数据对供应商进行分类。
在对供应商的评价中,在需要进行定量分析和评价时,如果评价的因子只有1个或2个,可以用方差分析的方法解决,当被评价的因子超过2个时,就可以尝试用聚类分析的方法解决。
本例中供应商的资料进行了整理,对评价的指标进行了分类并用代号表示,例如:
“指标1”可用来代表“零件的强度”、“指标2”可用来代表“零件的寿命”、“指标3”可用来代表“零件的价格”、“指标4”可用来代表“零件的运输费用”、“指标5”可用来代表“包装”等。
数据已经进行了转换,全部为“望大值”。
为了简便起见,供应商的名字也使用代号表示,例如将31个供应商的名字写为“A1、A2……A31”。
为了数据分析的方便,对供应商评价的数据进行修改,使各个供应商的各个指标间间的差距增大。
表10-1供应商多指标评价数据表
供应商
指标1
指标2
指标3
指标4
指标5
A1
11.92
0.2
25.74
2.48
2.62
A2
3.68
0.06
23.53
1.46
6.42
A3
57.54
81.5
146.98
10.03
12.13
A4
28.56
65.44
73.88
5.66
3.21
A5
7.33
6622.21
116.9
13.71
8.96
A6
60.7
36.99
110.43
8.03
14.2
A7
11.59
104.74
82.6
6.14
15.47
A8
6.04
228.08
114.13
11.33
20.76
A9
1.08
0
20.74
1.75
0.19
A10
29.57
0.51
144.48
10.17
19.8
A11
56.82
0.15
66.7
6.43
14.38
A12
34.31
3.77
128.37
8.62
22.88
A13
61.43
0.27
44.17
6.32
5.93
A14
26.99
0.38
62.37
6.17
20.35
A15
102.38
4.14
193.6
14.93
25.03
A16
32.08
1.45
183.25
11.04
18.16
A17
42.57
5.46
96.92
7.79
29.73
A18
50.25
10.51
104.11
8.81
19.31
A19
84.95
2.82
133.34
10.82
21.1
A20
47.01
73.83
65.56
7.31
14.79
A21
53.02
1.94
21.74
1.33
6.02
A22
21
23.84
45.66
3.93
4.4
A23
69.52
1373.43
131.18
12.35
9.81
A24
11.32
162.18
43.8
5.22
3.5
A25
78.12
78.48
58.52
8.85
7.54
A26
0.17
6444.58
3.8
2.09
0.09
A27
65.1
315.99
69.07
5.84
3.92
A28
19.38
1264.78
87.12
6.07
2.82
A29
0.77
4038.57
23.95
2.69
4.39
A30
3.38
233.39
16.66
1.52
0.51
A31
29.58
5131.49
96.12
5.76
18.08
当然,新产品设计、市场调查、工艺分析、质量改进等过程中也可以应用聚类分析的方法。
第三节在SPSS上实现的步骤
1、打开相关数据文件
选择菜单“Analyze→Classify→HierarchicalCluster”,如图10-1所示,弹出“系统聚类”对话框,如图10-2所示。
图10-1选择进入“Analyze→Classify→HierarchicalCluster”菜单
图10-2“系统聚类”对话框
2、选择参与系统聚类分析的变量及其他相关设置
⑴“Variable(s):
”列表框:
从左侧选入参与聚类分析的变量。
本例从对话框左侧的变量列表中选“指标1”、“指标2”、“指标3”、“指标4”、“指标5”5个变量,单击按钮,使之进入“Variable(s):
”列表框内。
⑵“LabelCaseby”编辑框:
选入标签变量。
若未选入任何变量,则分析结果中以记录号的形式出现,若选入标签变量,则会以标签变量的取值取代记录号。
选择变量“供应商”进入“LabelCaseby”编辑框。
⑶“Cluster”框:
包括两个单选框,用户选择样品聚类(Cases)还是变量聚类(Variables)。
默认为变量聚类(Cases),本例选用默认设置。
⑷“Display”框:
包括两个复选框,选择输出结果,包括统计量表(Statistics)和统计图(Plots)。
如果不选择“Statistics”复选框,则不输出有关统计量表,按钮“Statistics...”呈灰色显示;如果不选择“Plots”复选框,则不输出有关统计图,按钮“Plots...”呈灰色显示。
默认两者都选中,本例选用默认。
3、系统聚类分析的有关方法参数设置
单击“系统聚类”对话框中的“Method…”按钮,弹出一个“系统聚类方法”对话框,如图10-3所示,具体的系统聚类方法参数设置如下:
图10-3“系统聚类分析方法”对话框
⑴“ClusterMethod”下拉框:
系统提供7种系统聚类方法供用户选择。
本例选择类间平均连接法(系统默认方法)。
◆Between-groupslinkage:
类间平均连接法;
◆Within-groups-linkage:
类内平均连接法;
◆Nearestneighbor:
最短距离法;
◆Furthestneighbor:
最长距离法;
◆Centroidclustering:
重心法;
◆Medianclustering:
类平均法(或中间距离法)
◆ward’smethod:
离差平方和法。
具体的这7种系统聚类方法的介绍见SPSS有关功能介绍。
⑵“Measure”框:
根据三种不同变量类型(对应三个单选按钮),选择样品距离测量方法。
①“Interval”单选按钮:
间隔尺度变量,是用连续的量值来表示的,可用的距离包括以下几个指标:
◆Euclideandistance:
欧氏距离;
◆SquaredEuclideandistance:
欧氏距离的平方;
◆Cosine:
夹角余弦;
◆Pearsoncorrelation:
皮尔逊相关系数;
◆Chebychev:
切比雪夫距离,最大绝对值距离;
◆Block:
绝对值距离和;
◆Minkowski:
明可夫斯基距离,是一个绝对幂的度量,幂指数p由用户指定;
◆Customized:
用户自定义距离,也是一个绝对幂的度量。
变量绝对值的第p次幂之和的第R次根。
P与R由用户指定。
②“Counts”单选钮:
用于计数变量。
◆Chi-Squaremeasure:
卡方测度,系统默认设置;
◆Phi-Squaremeasure:
两频数之间的
测度。
③“Binary”单选钮:
二值变量。
⑶“TransformValues”框:
选择进行变量的转换,使其标准化。
本例数据的单位一致,故不需要进行数据的标准化,选择默认设置,不进行标准化处理。
具体的选项有:
◆None:
不作转换;
◆Z-Scores:
数值标准化到Z分数;
◆Range–1to1:
将数值范围转换至-1~1之间;
◆Range0to1:
将数值范围转换至0~1之间;
◆Maximummagnitudeof1:
把数值标准化到最大值1;
◆Meanof1:
作均数为1的转换;
◆Standarddeviationof1:
把数值标准化到单位标准差。
⑷“TransformMeasures”框:
距离测量方法的转换方法,具体包括3个复选框。
◆“Absolutevalues”复选框:
把距离值取绝对值。
当数值符号表示相反方向,且只对负相关感兴趣时,使用此方法进行变换。
◆“Changesign”复选框:
把相似性变为不相似性或取反。
用取反的方法使距离顺序颠倒过来。
◆“Rescaleto0-1range”复选框:
通过首先减去最小值,然后除以范围的方法使距离标准化。
⑸完成设置后,单击“Continue”按钮,返回“系统距离”对话框。
4、系统聚类分析的统计量输出
单击“Statistics…”按钮,弹出一个“统计量输出”对话框,如图10-4所示。
下面具体介绍其相关设置。
图10-4系统聚类分析的统计量输出
⑴“Agglomerationschedule”复选框:
凝聚过程表,显示聚类过程中每一步合并的类或观察量以及被合并的类或观察量之间的距离。
本例选择输出此项。
⑵Proximitymatrix复选框:
选择是否输出观察单位或变量间的相似性矩阵。
本例选择输出此项。
⑶“ClusterMembership”框:
选择是否输出样品或变量的所属的类别,即类成员表。
类成员输出包括3种方式,对应3个单选钮。
◆“None”单选钮:
不输出样品或变量的所属的类别;
◆“SingleSolution”单选钮:
选择该项,要求在后面的编辑中输入一个k值(小于样品总数),表示输出划分成k类的结果。
◆“RangeofSolution”单选钮:
选择该项,要求在后面的两个编辑框中分别输入一个k和m值(k<m),表示在划分成k到m类时,每个样品属于哪一类的结果。
本例选择输出此项,分别输入数字4和7,即要求输出划分成4到7类,每个样品属于哪一类的结果。
⑷完成统计量表输出的设置后,单击“Continue”按钮,返回“系统距离”对话框。
5、系统聚类分析的统计图输出
单击“Plots…”按钮,弹出“统计图输出”对话框,如图10-5所示。
下面具体介绍其相关设置。
图10-5系统聚类分析的统计图输出
⑴“Dendrogram”复选钮:
输出聚类结果的树状图,能够直观地反映聚类进程。
本例选择此项。
⑵“Icicle”框:
选择输出聚类结果的冰柱图,包括垂直冰柱图和水平冰柱图。
输出包括3种方式,对应3个选钮。
◆“Allclusters”单选钮:
聚类全过程的冰柱图。
本例选择此项。
◆“Specifiedrangeofclusters”单选钮:
选择此项,在下面出现3个编辑框,要求输入从多少类开始输出(Startcluster)、到多少类结束(Stopcluster)以及步长(By)。
◆“None”单选钮:
不输出冰柱图,默认设置。
⑶“Orientation”框:
该项是用来选择冰柱图的排列方向,垂直方向(Vertical)还是水平方向(Horizontal)方向。
默认是垂直方向,本例忽略该选项,即默认输出是垂直方向。
6、系统聚类输出到数据编辑窗口的设置
单击“Save…”按钮,弹出一个“结果保存”对话框,如图10-6所示,选择是否在数据编辑窗口创建新变量,输出有关统计结果。
图10-6“结果保存”对话框
“ClusterMembership”框:
选择是否输出样品或变量的所属的类别,即类成员表。
类成员表输出包括3种方式,对应3个单选钮:
◆“None”单选钮:
不输出样品或变量的所属类别。
◆“SingleSolution”单选钮:
选择该项,要求在后面的编辑中输入一个数值k(小于样品总数),表示输出划分成k类的结果。
◆“RangeofSolutions”单选钮:
选择该项,要求在后面的两个编辑框中分别输入一个数值k和m(k<m),表示在划分成k到m类时,每个样品属于哪一类的结果。
本例选择输出此项,分别输入数字4和7,即要求输出划分成4到7类时,每个样品属于哪一类的结果。
单击“OK”按钮,输出系统聚类的结果。
第四节结果解读
1、下表给出了参加系统聚类的6个变量(1个因变量,5个自变量)的记录数统计结果。
共31个有效数据(Valid)参加了分析,无缺失值记录(Missing),总记录数为31个(Total)。
CaseProcessingSummary(a)
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
31
100.0
0
.0
31
100.0
aAverageLinkage(BetweenGroups)
图10-7输出结果:
6个变量(1个因变量,5个自变量)
表10-8输出结果:
样品的距离矩阵
2、下表给出了样品的距离矩阵,由于数量较大,只给出了部分距离矩阵结果。
本例每一个供应商供应的产品的全部特性为一个记录或一个样品,不同的供应商的产品特性越接近,计算得到的距离越小。
3、下表给出了反映聚类过程的凝聚过程表(Agglomerationschedule)。
下面具体介绍表中各列数据的含义。
Stage:
聚类步骤。
(ClusterCombined)Cluster1,Cluster2:
该步骤被合并的两类中的样品号或类号,合并结果取小的序号。
StageClusterFirstAppears:
非零数值表示合并两项前一次出现的聚类步序号,而0表示第一次出现。
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
1
2
9
53.445
0
0
2
2
1
2
118.633
0
1
10
3
17
18
245.7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 聚类分析