聚类分析步骤.docx
- 文档编号:8955664
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:15
- 大小:120.06KB
聚类分析步骤.docx
《聚类分析步骤.docx》由会员分享,可在线阅读,更多相关《聚类分析步骤.docx(15页珍藏版)》请在冰豆网上搜索。
聚类分析步骤
聚类分析步骤
以教材第五章习题8的数据为例,演示并说明聚类分析的详细步骤:
原始数据的输入:
丈件(D霸甸〔口锻国(蜀散惭直I转快(D分折(幻圈解〔⑤密坏賤序〔史Mt加内容(Q)SUM帮肋
S暗事?
*™S?
鮒*fflft韶亟蔚粤箱「专
21;衣甫
地区
食品
农看
燃料
住房
交適和通讯
娱乐朝育文化
1
北京
19033
4377
973
50.54
49,01
9.04
2
13520
35.40
10.47
U.1B
3643
3.94
3
河北
95.21
2283
9.30
22.44
2281
2.60
4
山西
10476
2511
6.40
9.89
16.U
325
5
内蒙占
123.41
27.63
8.94
12.53
23.99
2.27
6
辽宁
145,58
32.B3
1779
27.29
3S.09
3.47
7
吉林
159.37
3338
10.37
11.81
25.29
5.22
8
黒挖江
116.22
23.57
13.24
1376
21.75
阿
日
上海
221.11
33.54
12.53
115.65
60.82
5.89
W
江苏
114.98
29.12
1167
42.60
27.30
574
11
浙江
)69,92
3275
12.72
47.12
34.35
5.00
2
安渤
135,11
23.09
15.G2
235A
16.20
6.39
13
福建
144.92
21.2B
16.96
19.62
2175
6.37
14
U0.64
21.60
17.6J
19.19
15刃
4.9J
15
山东
115.84
3EJ26
12.20
33.60
3377
3.E5
16
河南
101;:
18
232G
8.46
20.20
20.50
4.30
11
.选项操作:
1.打开SPSS的“分析”-“分类”-“系统聚类”,
打开“系统聚类”对话框。
把“食品”、“衣着”等6变量输入待分析变量框;把“地区”输入“标注个案”;“分群”选中“个案”;“输出”选中“统计量”和“图”。
(如下图)
密Ife鸟駝£臭
*I必炮区
H-q
I1
E
曲前
输出
v熨计養y岡
相关说明:
(1)系统聚类法是最常用的方法,其他的方法较少使用。
(2)“标注个案”里输入“地区”,在输出结果的距离方阵和聚类树状图里会显示出“北京”、“天津”等,否则SPSS自动用“1”、“2”等代替。
(3)“分群”选中“个案”,也就是对北京等16个样本进行分类,而不是对食品等6个变量分类。
(4)必须选中“输出”中的“统计量”和“图”。
在该例中会输出16个地区的欧氏距离方阵和聚类树状图。
2.设置分析的统计量
打开最右上角的“统计量”对话框,选中“合并进程表”和“相似性矩阵”“聚类成员”选中“无”。
然后点击“继续”。
打开第二个“绘制”对话框,必须选中“树状图”,其他的默认即可
打开第三个对话框“方法”:
聚类方法选中“最邻近元素”;“度量标准”
选中“区间”的“欧氏距离”;“转换值”选中“标准化”的“Z得分”,并且
是“按照变量”。
度量祈准
+区町(LD:
Euclidean肚屈
7"T
计徹D;
卡方度豪
▼
二鼻細
^?
TEuclicteeri
■
转换佰
标醸他①:
e洛、
n按片薇
转换度晁
□
□国康苻脊on
□亶丽柝.度到0^1金曲日
在〔已|i|祁祎粧也:
|g|
打开第四个对话框“保存”,“聚类成员”选默认的“无”即可三•分析结果的解读:
按照SPSS俞出结果的先后顺序逐个介绍:
1.欧氏距离矩阵:
是16个地区两两之间欧氏距离大小的方阵,该方阵是应用各种聚类方法进行聚类的基础。
ProximityMatrix
Case
EuclideanDistance
1:
北京
2:
天津
3:
河北
4:
山西:
i:
内蒙古
6:
辽宁
7:
吉林
8:
黑龙江
9:
上海
10:
江苏
11:
浙江
12:
安徽
13:
福建
14:
江西
15:
山东
16:
河南
1:
北京
.000
3.839
6.289
6.223
5.831
4.734
4.691
4.793
3.131
4.300
3.404
5.251
5.339
5.981
4.681
5.821
2:
天津
3.839
.000
2.911
3.108
2.390
2.190
2.892
2.581
4.153
1.881
1.473
3.400
3.631
3.701
1.280
2.888
3:
河北
6.289
2.911
.000
1.134
1.324
3.493
3.789
2.515
6.544
2.328
3.420
2.992
3.304
2.979
1.961
.960
4:
山西
6.223
3.108
1.134
.000
1.318
4.051
4.040
2.606
6.803
2.620
3.638
3.276
3.665
3.420
2.482
.989
5:
内蒙古
5.831
2.390
1.324
1.318
.000
3.050
3.326
2.558
6.092
2.513
2.891
3.178
3.432
3.091
1.840
1.652
6:
辽宁
4.734
2.190
3.493
4.051
3.050
.000
1.800
2.764
4.700
2.677
1.984
3.060
2.955
2.902
1.881
3.662
7:
吉林
4.691
2.892
3.789
4.040
3.326
1.800
.000
2.052
5.247
2.619
2.215
2.146
2.088
2.110
2.565
3.606
8:
黑龙江
4.793
2.581
2.515
2.606
2.558
2.764
2.052
.000
5.797
1.290
2.470
1.406
1.843
2.041
1.887
1.972
9:
上海
3.131
4.153
6.544
6.803
6.092
4.700
5.247
5.797
.000
4.936
3.519
5.834
5.826
6.191
4.986
6.402
10:
江苏
4.300
1.881
2.328
2.620
2.513
2.677
2.619
1.290
4.936
.000
1.917
1.922
2.321
2.567
1.330
1.880
11:
浙江
3.404
1.473
3.420
3.638
2.891
1.984
2.215
2.470
3.519
1.917
.000
2.743
2.826
3.071
1.857
3.221
12:
安徽
5.251
3.400
2.992
3.276
3.178
3.060
2.146
1.406
5.834
1.922
2.743
.000
.650
1.086
2.613
2.508
13:
福建
5.339
3.631
3.304
3.665
3.432
2.955
2.088
1.843
5.826
2.321
2.826
.650
.000
1.025
2.824
2.913
14:
江西
5.981
3.701
2.979
3.420
3.091
2.902
2.110
2.041
6.191
2.567
3.071
1.086
1.025
.000
2.805
2.798
15:
山东
4.681
1.280
1.961
2.482
1.840
1.881
2.565
1.887
4.986
1.330
1.857
2.613
2.824
2.805
.000
2.041
16:
河南
5.821
2.888
.960
.989
1.652
3.662
3.606
1.972
6.402
1.880
3.221
2.508
2.913
2.798
2.041
.000
Thisisadissimilaritymatrix
2.合并进程表:
主要看前四列,现在以前三个步骤为例说明合并过程:
第一步,样本12和
样本13合并,此时系数为0.650;第二步,样本3和样本16合并,此时系数为0.960;第三步,样本3(实际上是第二步样本3和16组成的新类)和样本4合并,此时系数为0.989;以此类推。
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
1
12
13
.650
0
0
4
2
3
16
.960
0
0
u
3
3
3
4
.989
2
0
7
4
12
14
1.025
1
0
cw
5
2
15
1.280
0
0
8
6
8
10
1.290
0
0
8
7
3
5
1.318
3
0
12
8
2
8
1.330
5
6
cw
9
2
12
1.406
8
4
1C
10
2
11
1.473
9
0
12
11
6
7
1.800
0
0
13
12
2
3
1.840
10
7
13
13
2
6
1.881
12
11
15
14
1
9
3.131
0
0
15
15
1
2
3.404
14
13
0
3.冰柱:
左侧是分组数目,上侧是被分组的样本,样本之间由等距的间隔分开,间隔被填充的,说明相邻两样本合并为一组,没有被填充就不被合并。
按照此规则,首先从下往上看,当分为15类时,只有样本13和12合并了,其余的各自是一类;当分为10类时,从左到右依次是(7),(6),(5),(4,16,3),(11),(14,13,12),(10,8),(15,2),(9),
(1);其他的分组数目时以此类推。
(该冰柱的分组数目有2.5、7.5、12.5等含有半组的情况,不需要掌握。
)
s」*sn-u苫
4.树状图:
Dendrogram
+;+=^+++:
*=(!
^+^^*+*++p|f+HIERARCHTCALCLUSr
D&tidiogramusingSingleLinkage
RescaledDistanceClusherComtune
LabelHum.4
安徽12+
福律13-+十
江西14+
天津24+|
L1J东15T|-J+
慝龙江6+丨I
江苏to+iI
浙江Li十
河北3亠+I|
河南16+H+|■+-b
山西4+H十II
内蔬古5+II
辽宁614|
吉林7+|
北京1"^+
_g°—■—卜
这是分类结果最后的树状图,把整个分类情况一目了然地呈现出来了。
最上面的是标尺,数字0-25是大致按照距离比例重新标定的数值,不影响对分类结果的观察与结论。
解读此图的方法是:
每个样本的右侧都是虚线,虚线的端点处是“+”,说明该样本在此和另一个样本或者组(它也有上下相对齐的“+”)合
并为一类。
女口:
安徽和福建在对应标尺1附近时合并为一类,之后与江西在标尺数值4附近合并为一类。
天津、山东、黑龙江、江苏四个样本的“+”看起来好
像是统一对齐的,其实不是,实际情况是:
天津和山东在1.280(欧氏距离)处
对齐,黑龙江和江苏在1.290(欧氏距离)处对齐。
总说明:
1.聚类分析从数学上讲不是很严谨,所以采用不同的统计量和采取不同的聚类方法,聚类结果可能有较大的差异。
但是只要整个分析过程没有错误就是完整正确的,聚类结果都是认可的。
(本例中,原始数据首先进行标准差标准化,再求欧氏距离方阵,聚类方法采取的是最短距离法。
)
2.聚类分析的最终结果自然是分类,除了SPSS输出的树状图,最好自己再做
出Word格式的分类表,具体分为几类,自己看情况而定。
譬如该例子就可以分为4类或5类。
3.聚类分析只是分类,并不能进行评判(如发展水平高低等),如要评判各样本应结合主成分分析、因子分析等方法共同进行。
其分类结果也不一定按照聚类分析的结果为准,可以结合主成分分析、因子分析的结果进行修正。
最短距离法具体计算方法及步骤
在系统聚类法中,最短距离法应用比较广泛。
计算过程一般是首先对原始数据进行标准化处理,再计算初始欧氏距离矩阵,然后应用最短距离法聚类。
假设有6个样本的初始欧氏距离矩阵如下:
G1
G2
G3
G4
G5
G6
0
0.375
0
D(o)=0.483
0.776
0
1.749
1.596
1.926
0
1.516
1.336
1.662
0.501
0
1.972
1.743
2.154
0.693
0.589
0
(系统聚类法在聚类之前把每个样本看成一组,用G1,G2,….代替。
在该矩阵中,第i行和第i列都代表第i组,在左侧括号的外面应该自上到下依次是G1,G2,…,G6,因为word中不好输入,所以省略了。
)
在初始距离系数矩阵的基础上,用最短距离法分类的具体步骤是:
1.在初始距离系数矩阵D⑼中,选出距离数值最小者,即di2=0.375,把第一类G1和第二类G2合并为一个新类G7,记为G7={G1,G2}。
再利用最短距离法计算新类G7与其他各类G3,G4,G5,G6的距离,得
d73=min{di3,d23}=min{0.483,0.776}=0.483
d74=min{di4,d24}=min{1.749,1.596}=1.596
d75=min{d15,d25}=min{1.516,1.336}=1.336
d76=min{d16,d26}=min{1.972,1.743}=1.743
形成距离系数矩阵D⑴
G7
G3
G4
G5
G6
0
0.483
0
D
(1)
1.596
1.926
0
1.336
1.662
0.501
0
1.743
2.154
0.693
0.589
0
2.在矩阵D
(1)中,选出距离数值最小者,即d73=0.483,这时G7和G3合并为一个新类G8,记为G8={G7,G3}。
再利用最短距离法计算新类G8与其他各类G4,G5,G6的距离,得
D84=min{d34,d74}=min{1.926,1.596}=1.596
D85=min{d35,d75}=min{1.662,1.336}=1.336
D86=min{d36,d76}=min{2.154,1.743}=1.743
形成距离系数矩阵D⑵。
G8
G4
G5
G6
0
⑵1.596
D(2
0
1.336
0.501
0
1.743
0.693
0.589
0
3.在矩阵D⑵中,选出距离数值最小者,即d45=0.501,这时G4和G5合并为一个新类G9,记为G9={G4,G5}。
再利用最短距离法计算新类G9与其他各类G8,G6的距离,得
D98=min{d48,d58}=min{1.596,1.336}=1.336
D96=min{d46,d56}=min{0.693,0.589}=0.589形成距离系数矩阵D(3)。
G8G9G6
0
D⑶1.3360
1.7430.5890
4.在矩阵D⑶中,选出距离数值最小者,即d69=0.589,这时G6和G9合并为一个新类G10,记为G10={G6,G9}。
再利用最短距离法计算新类G10与G8的距离,得
Di0,,8=min{d68,d98}=min{1.743,1.336}=1.336
形成距离系数矩阵D⑷。
G8G10
D⑷
0
1.3360
由矩阵D⑷可以看出,G8和G10在距离系数为1.336时合并成一类G11类。
记为G11={G8,G10},至此聚类完毕。
最后绘出分类谱系图(草图):
(左侧竖线是距离标尺,每格数值0.2,因不好标注,所以未标出。
谱系图中的短横线自下而上依次表示G7,G8,G9,G10,G11聚类时的数值,也应该标出。
)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 步骤