教育多元统计学与SPSS软件8聚类分析.docx
- 文档编号:18034955
- 上传时间:2023-04-24
- 格式:DOCX
- 页数:49
- 大小:248.52KB
教育多元统计学与SPSS软件8聚类分析.docx
《教育多元统计学与SPSS软件8聚类分析.docx》由会员分享,可在线阅读,更多相关《教育多元统计学与SPSS软件8聚类分析.docx(49页珍藏版)》请在冰豆网上搜索。
教育多元统计学与SPSS软件8聚类分析
第八章聚类分析
聚类分析是一种研究“物以类聚”问题的多元统计方法,按照一定的分类原则,将指标或样品聚为一类。
第一节概述
聚类分析根据分类对象的不同,分为R型聚类分析与Q型类分析两种。
用于指标的分类用R型聚类分析,用于样品的分类用Q型聚类分析。
聚类分析的基本思想:
先将分类对象(指标或样品)各自看成一类,然后选择一个统计量来衡量分类对象的相似程度,根据其大小先将两两对象聚成一类,如此下去,直至所有对象都聚成一类(或预分的类)为止。
将聚类的整个过程作成一张谱系图,然后根据实际问题的需要,选择一个合适的分类标准,便能得到所要分的类。
聚类方法可单独使用,也可与其它多元统计方法结合使用,如可先进行聚类分析,再进行多元回归分析或判别分析。
对于R型聚类结果,需要选出各类的代表性指标,称为典型指标。
当一类中只有两个指标时,可以任选一个作为典型指标。
当一类中多于两个指标时,需要计算相关指数R2(相关系数的平方,也称判定系数)的平均数R2,将其值最大的指标作为典型指标。
Σr2
R2=
k-1
其中,r为类内指标之间的相关系数,k为类内的指标个数。
1.聚类方法
一般多元统计书上介绍8种方法:
最短距离法:
将两类样本间的最短距离作为类与类之间的距离,具有单调性,空间收缩很快。
最长距离法:
与最短距离法相反,将两类样本间的最长距离作为类与类之间的距离,也具有单调性,聚类空间呈扩张状态。
中间距离法:
类间距离介于以上两种方法之间,聚类空间处于守衡状态,不能保证类距离总是单调的。
重心法:
上述3种方法在定义类间距离时均未考虑新类中所含样本点的多少,存在不合理之处,该方法可以纠正上述问题。
与中间距离法类似,聚类空间守衡,不能保证类距离总是单调的。
类平均法:
为了更多地吸取类内样本点信息,定义类间距离为两类中样本点间距离平方的平均。
该法空间守衡,又是单调的,是较为理想的系统聚类方法。
可变类平均法:
在计算类间距离的公式中引入了聚集强度系数β(β<1),β取不同的值可能会得到不同的聚类结果,选择合适的β值,以达到最佳聚类效果,一般认为取-1/4时效果较好。
该方法仍具有单调性,比类平均法更为合理一些。
可变法:
将可变类平均法中的聚集强度系数β引进中间距离法就形成了该方法。
离差平方和法:
又称Ward法,利用方差分析原理进行聚类。
2.常用的数据变换方法
中心化变换、标准化变换、极差正规化变换、对数变换
3.距离
绝对值、欧氏、切比雪夫、兰氏、马氏、斜交空间
4.相似系数
积差相关系数、夹角余弦、指数相似系数
第二节系统聚类法
聚类方法有多种,如系统聚类、动态聚类、有序样品聚类及模糊聚类等,下面进行简要介绍。
系统聚类方法(也称分层聚类方法):
将p个指标(样品)看成p类,将性质最接近的两类聚成一个新类,得到p-1类,再从中将性质最接近的两类聚成一个新类,得到p-2类,依此类推,直至所有的指标(样品)均聚为一类。
动态聚类方法:
先将指标(样品)粗略的分成若干类,然后根据某种最优原则进行调整,反复多次,直至不能调整时为止。
有序样品聚类方法:
先将指标(样品)根据某种原因排成次序,要求次序相邻的指标(样品)聚成一类。
模糊聚类方法:
将模糊数学理论用于聚类分析中产生的方法。
本节结合SPSS软件介绍系统聚类方法。
1.SPSS软件计算步骤
选择“Analyze”→“Classify”→“HierarchicalCluster”项。
弹出如图8.2.1所示的对话框。
1.1Variables栏
存放聚类变量。
1.2LabelCasesby栏
存放标识变量,如用指标名称、编号、姓名来标明各指标或样品最后聚到哪一类,不指定时,系统自动将序号作为标识变量。
1.3Cluster选项
①Cases
对样品进行聚类,Q型聚类。
②Variables
图8.2.1分层聚类分析主对话框
对指标进行聚类,R型聚类。
1.4Display选项
①Statistics
输出统计量。
②Plots
输出图形。
1.5Statistics按钮
图8.2.2Statistics对话框
①Agglomerationschedule复选项
凝聚状态表,显示聚类过程中每一步合并的类或观测值,根据该表跟踪聚类的合并过程。
②ProximityMatrix复选项
各项间的距离(R型聚类为相关系数)矩阵。
③ClusterMembership类成员栏
显示每个观测值被分到的类或显示若干步聚类过程。
None:
不显示类成员表。
Singlesolution:
输入数值n,显示聚为n类时各观测值的归属情况。
Rangeofsolutions:
要求列出某个范围中每一步各观测值所属的类,如输入3、5,则输出结果中列出3类、4类与5类所包括的观测值。
1.6Plots按钮
图8.2.3Plots对话框
①Dendrogram选项
树形图。
②Icicle选项
冰柱图栏。
Allclusters:
聚类的每一步都显示在图中。
Specifiedrangeofclusters:
输入起始、中止及增量数。
None:
不生成冰柱图。
③Orientation选项
Vertical:
纵向显示冰柱图。
Horizontal:
水平显示冰柱图。
1.7Method按钮
①ClusterMethod聚类方法选项
Between-groupslinkage:
类间平均法,合并两类的结果使所有的两两项对之间的平均距离最小,项对的两个成员分别属于不同的类。
方法中的各对之间的距离既非最大距离,也非最小距离。
图8.2.4Method对话框
Within-groupslinkage:
类内平均法,当两类合并为一类后,合并后的类中的所有项之间的平均距离最小,两类间的距离是合并后的类中所有可能的观测值对之间的距离平方。
Nearestneighbor:
最近邻居法(也称最短距离法),合并最近的或最相似的两项,用两类间最近点的距离代表两类间的距。
Furthestneighbor:
最远邻居法(也称最长距离法或称完全连接法),合并最远的两项,两类间最远点的距离代表两类间的距离。
Centroidclustering:
重心法,以两类重心(均值)之间的距离代表两类间的距离,与欧氏距离平方法一起使用(也可与欧氏距离一起使用,主要看聚类效果)。
Medianclustering:
中间距离法,以最短距离与最长距离的中间距离代表两类间的距离;与欧氏距离平方法一起使用。
Ward’smethod:
离差平方和法,根据方差分析的原理得到,若分类较为合理,则同类之间离差平方和较小,类与类之间的离差平方和较大,与欧氏距离平方法一起使用。
②Measure距离测度选项
有3项供选择:
“Count”项用于计数变量、“Binary”项用于二值变量,暂略。
下面介绍用于连续变量的“Interval”项。
Euclideandistance:
欧氏距离,用于Q型聚类。
SquaredEuclideandistance:
欧氏距离平方,用于Q型聚类。
Cosine:
变量矢量的余弦,是模型相似性的度量。
Pearsoncorrelation:
相关系数,用于R型聚类。
Chebychev:
Chebychev(切贝雪夫)距离,两观察单位间的距离为指标的差值中绝对值最大者,用于Q型聚类。
Block:
City-Block或Manhattan(绝对值或布洛克)距离,即两观察单位间的距离为其值之差的绝对值和,用于Q型聚类。
Minkowski:
(明考斯基)距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的p次根,p由用户指定。
Customized:
(用户自定义距离)距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的第r次根,p、r由用户指定。
③TransformValues标准化方法选项
None:
不进行标准化。
Zscores:
标准化Z分数(均值为0,标准差为1)。
Range–1to1:
将数值标准化到-1到+1范围内,对每个值用正在被标准化的变量值的范围去除。
Maximummagnitude:
将数值标准化到最大值1,对正在标准化的变量的值用最大值去除。
Range0to1:
将数值标准化到0到1的范围内,对正在被标准化变量的值减去正在被标准化变量的最小值,然后除以范围。
Meanof1:
将数值标准化到一个均值的范围,对正在被标准化变量的值除以正在被标准化变量的值的均值。
Standarddeviationof1:
将数值标准化到单位标准差,对每个值除以正在被标准化变量的标准差。
Byvariable:
对指标进行标准化。
Bycase:
对样品进行标准化。
④TransformMeasures测度转换方法选项
AbsoluteValues:
将距离取绝对值,当数值符号表示相关方向,且只关心数值大小时使用该方法。
Changesign:
将相似性值变为不相似性值或相反,用求反的方法使距离顺序颠倒。
Rescaleto0~1range:
使距离取值于0~1之间,首先减去最小值,然后除以范围,使距离标准化。
1.8Save按钮
图8.2.5Save对话框
①None:
不建立新变量。
②Singlesolution:
生成一个新变量,标明每个样品最后所属的类,在该项后面的矩形框中指定类数。
③Rangeofsolutions:
指定范围内的结果,生成若干个新变量,标明聚为若干类时,每个样品最后所属的类。
2.应用举例
例8.2.1某学校为了了解教育专业的课程结构,随机抽取30人,试对这30人的16门主要课程成绩进行R型聚类分析。
([1]P363)
表8.2.130人16门课成绩
序
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
x14
x15
x16
1
86
83
86
83
80
90
75
87
90
85
84
86
82
75
88
70
2
77
90
89
79
78
72
75
84
90
78
82
85
84
65
83
76
3
60
74
87
72
78
86
60
88
85
64
67
72
82
50
83
60
4
73
78
87
88
85
94
70
89
90
86
79
90
85
82
87
90
5
70
77
85
90
81
81
75
88
90
73
82
71
83
77
75
74
6
62
80
87
71
87
77
60
87
84
81
82
81
75
62
82
80
7
67
64
83
73
83
81
67
85
83
63
56
75
84
83
80
57
8
73
75
75
79
78
90
77
88
80
84
75
65
81
54
81
70
9
77
75
89
90
86
79
83
91
90
77
79
79
81
62
74
85
10
84
90
90
85
85
87
72
93
84
86
91
75
84
86
90
80
11
75
85
90
78
81
85
86
90
94
79
84
93
91
67
85
80
12
64
71
90
76
92
80
78
90
90
81
78
84
86
88
90
84
13
75
75
85
74
81
78
64
83
86
92
73
76
84
69
74
85
14
86
77
90
89
80
90
73
86
92
88
88
87
90
88
90
81
15
69
74
80
77
80
77
74
87
84
84
81
69
80
64
73
65
16
60
76
87
87
81
75
82
82
86
61
70
75
81
60
78
66
17
74
75
92
81
82
80
70
72
81
81
74
81
86
46
83
80
18
64
75
83
82
74
79
66
85
84
86
78
80
78
72
78
60
19
68
91
89
93
85
93
82
91
90
84
83
86
81
79
87
82
20
75
80
83
78
85
82
65
78
82
72
79
74
90
60
73
73
21
72
80
86
83
74
82
70
80
82
60
68
67
73
50
77
60
22
71
75
85
85
76
83
50
79
90
81
69
75
84
54
81
88
23
74
82
80
74
80
76
63
82
81
79
68
80
82
61
84
80
24
78
73
83
78
85
80
60
84
74
72
75
84
80
36
88
77
25
82
82
89
85
85
85
80
80
87
86
83
78
83
63
76
72
26
67
90
89
91
80
87
75
90
83
83
80
85
81
67
90
58
27
69
83
89
66
85
77
70
89
88
80
82
82
73
54
70
73
28
84
82
87
80
86
92
62
89
89
82
81
88
90
73
86
84
29
83
87
85
84
85
87
80
91
92
81
85
87
90
63
76
94
30
63
76
80
82
76
86
84
85
76
66
73
80
83
62
81
70
其中:
x1:
英语,x2:
外教史,x3:
中教史,x4:
教育概论,x5:
教学论,x6:
小教法,x7:
马列论作,x8:
德育,x9:
教育心理,x10:
发展心理,x11:
普通心理,x12:
心理学流派,x13:
实验心理,x14:
人体解剖,x15:
教育测验,x16:
教育统计
选择“Analyze”→“Classify”→“HierarchicalCluster”项,将16个变量放入“Variables”框,选择“Variables”项,对指标进行聚类;保留“Display”中的选项,输出统计量与图形;按“Statistics”按钮,保留默认项“Agglomerationschedule”,显示聚类过程中每一步合并的类,再选择“Proximtymatrix”,输出相关系数矩阵;在“Rangeofsolutions”中输入3、5,给出3、4、5类的结果;按“Plots”按钮,选择“Dendrogram”,输出聚类谱系图,保留默认项“Allclusters”与“Vertical”,图中显示聚类的每一步,纵向显示冰柱图;按“Method”按钮,在“Interval”框中选择相关系数项“Pearsoncorrelation”,在“ClusterMethod”中先用默认项类间平均法“Between-groupsLinkage”进行试聚,数据不进行标准化,结果如下。
表8.2.2相关系数
Case
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X1
.358
.175
.240
.171
.351
.058
.038
.277
.461
.509
.306
.461
.158
.180
.450
X2
1
.365
.302
.055
.242
.283
.307
.305
.329
.645
.401
.057
.111
.224
.214
X3
1
.238
.389
.050
.175
.093
.542
.166
.397
.511
.164
.249
.291
.266
X4
1
-.092
.458
.419
.127
.276
.135
.327
.143
.210
.302
.251
.148
X5
1
.072
.121
.332
.233
.225
.335
.371
.236
.288
.137
.500
X6
1
.151
.373
.209
.268
.288
.285
.368
.345
.480
.183
X7
1
.351
.266
-.005
.372
.193
.144
.276
-.021
-.015
X8
1
.387
.230
.454
.295
.013
.495
.263
.146
X9
1
.357
.448
.440
.373
.522
.034
.451
X10
1
.629
.368
.208
.369
.208
.490
X11
1
.437
.218
.345
.184
.404
X12
1
.409
.304
.508
.480
X13
1
.360
.285
.464
X14
1
.351
.164
X15
1
.150
X16
1
表8.2.3聚类凝聚过程表
(1)
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
(相关系数)
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
1
2
11
.645
0
0
6
2
3
9
.542
0
0
9
3
12
15
.508
0
0
12
4
5
16
.500
0
0
10
5
8
14
.495
0
0
11
表8.2.3聚类凝聚过程表
(2)
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
(相关系数)
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
6
2
10
.479
1
0
9
7
1
13
.461
0
0
10
8
4
6
.458
0
0
14
9
2
3
.340
6(“2”在第6步)
2(“3”在第2步)
12
10
1
5
.330
7
4
13
11
7
8
.314
0
5
14
12
2
12
.310
9
3
13
13
1
2
.292
10
12
15
14
4
7
.286
8
11
15
15
1
4
.224
13
14
0
表中“Stage”为聚类的步骤,“ClusterCombined”标明哪一步哪两类合并,新类序号取两类中较小的,如在第1步中,第2类与第11类合并,相关系数为0.645最大,新类取“2”。
“StageClusterFirstAppears”表示合并的类首次出现的步数,如在第6步中“Cluster1”的值为1,表示合并的两项中第1项是在第1步首次生成的新类。
“NextStage”表示合并的类又被合并为新类的步骤数,如第1行的数字6表示第1步生成的新类将在第6步再次合并。
表8.2.4分类结果
ClusterMembership
Case
5Clusters
4Clusters
3Clusters
X1
1
1
1
X2
2
2
1
X3
2
2
1
X4
3
3
2
X5
1
1
1
X6
3
3
2
X7
4
4
3
X8
4
4
3
X9
2
2
1
X10
2
2
1
X11
2
2
1
X12
5
2
1
X13
1
1
1
X14
4
4
3
X15
5
2
1
X16
1
1
1
表中为聚为5、4、3类分别包括的变量。
如变量x1、x5、x13与x16合并为第1类;变量x12与x15合并为第5类。
下面给出聚类谱系图,选择合适的分类标准进行分类。
或是根据表8.2.4取分为5类的结果。
X2
X11
X10
X3
X9
X12
X15
X5
X16
X1
X13
X4
X6
X8
X14
X7
图8.2.6聚类谱系图形
分类标准取为0.311,则分为5类:
第1类:
x1,x5,x13,x16
第2类:
x2,x3,x9,x10,x11
第3类:
x4,x6
第4类:
x7,x8,x14
第5类:
x12,x15
下面是用重心法“CentroidClustering”聚类的结果。
表8.2.5分类结果
(1)
ClusterMembership
Case
5Clusters
4Clusters
3Cluster
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教育 多元 统计学 SPSS 软件 聚类分析