聚类分析与判别分析.docx
- 文档编号:5295308
- 上传时间:2022-12-15
- 格式:DOCX
- 页数:24
- 大小:136.34KB
聚类分析与判别分析.docx
《聚类分析与判别分析.docx》由会员分享,可在线阅读,更多相关《聚类分析与判别分析.docx(24页珍藏版)》请在冰豆网上搜索。
聚类分析与判别分析
目录
1.聚类分析2
1.1问题描述2
1.2数据初步分析2
1.3层次聚类2
1.4结果解释3
1.5聚类结果的验证与进一步分析5
1.6最终的类别特征描述6
2.判别分析6
2.1问题描述6
2.2数据基本分析9
2.3判别分析9
2.4结果分析10
2.5判别效果的验证14
1.聚类分析
1.1问题描述
对16中饮料的热量、咖啡因、钠和价格四个变量作为数据进行聚类分析,希望通过聚类分析的方法将相似的饮料找出来,即将16种饮料划分为若干类别,从而更好的指导销售者制定销售计划,具体数据如下表1:
表1:
饮料数据
Number
calorie
caffeine
sodium
price
1
207.20
3.30
15.50
2.80
2
36.80
5.90
12.90
3.30
3
72.20
7.30
8.20
2.40
4
36.70
.40
10.50
4.00
5
121.70
4.10
9.20
3.50
6
89.10
4.00
10.20
3.30
7
146.70
4.30
9.70
1.80
8
57.60
2.20
13.60
2.10
9
95.90
.0
8.50
1.30
10
199.00
.0
10.60
3.50
11
49.80
8.00
6.30
3.70
12
16.60
4.70
6.30
1.50
13
38.50
3.70
7.70
2.00
14
.0
4.20
13.10
2.20
15
118.80
4.70
7.20
4.10
16
107.00
.0
8.30
4.20
1.2数据初步分析
首先对数据进行初步的考察,对各个指标做简单描述性统计分析。
表2:
DescriptiveStatistics
N
Minimum
Maximum
Mean
Std.Deviation
热量
16
.00
207.20
87.1000
60.90961
咖啡因
16
.00
8.00
3.5500
2.49212
钠
16
6.30
15.50
9.8625
2.72271
价格
16
1.30
4.20
2.8563
.96331
ValidN(listwise)
16
从表2中可以看出4个指标的量纲基本不同,尤其以热量和价格的差距最为明显,显示了数据量纲间有很强的差异性。
为消除不同变量大小对聚类结果的影响,有必要在聚类分析前对数据进行标准化处理。
1.3层次聚类
在SPSS中,实现层次聚类的过程步骤如下:
Analyze-Classify-HierarchicalCluster:
Variables:
caloriecaffeinesodiumprice
Labelcaseby:
Number
Plots:
Dendrogram
Method:
ClusterMethod:
WardsMethods
TransformValues:
Standardize:
ZScores
Save:
ClusterMembership:
Rangeofsolutions:
3-8
在Method中,默认选择的是不对数据进行标准化,但在此例子中,采用ZScores方法对数据进行标准化。
1.4结果解释
层次聚类输出的聚类过程表(表3),它说明层次聚类过程中的每一个步骤是如何进行的,一般来讲,步骤数为参加聚类的数据条数减1,在这里是15步。
表3的第1列列出了聚类过程的步骤号,第2列和第3列列出了在某一步骤中哪些饮料参与了合并,例如在第一步中,饮料5和饮料6首先被合并在一起。
第4列列出了每一聚类步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。
第5列和第6列表示参与合并的饮料是在第几步中第一次出现的,0表示第一次出现在聚类过程中。
第7列表示在这一步骤中合并的类别,下一次将在第几步中与其他类别再进行合并。
要注意,在聚类过程的描述中,往往一个记录号已经不单单代表的是一个记录,而是一个类别。
表3:
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
dimension0
1
5
6
.233
0
0
4
2
12
13
.645
0
0
10
3
8
14
1.436
0
0
7
4
5
15
2.428
1
0
11
5
4
16
3.455
0
0
12
6
3
11
4.716
0
0
11
7
2
8
6.479
0
3
13
8
7
9
8.547
0
0
10
9
1
10
11.316
0
0
12
10
7
12
15.000
8
2
13
11
3
5
18.847
6
4
14
12
1
4
26.599
9
5
15
13
2
7
35.262
7
10
14
14
2
3
45.703
13
11
15
15
1
2
60.000
12
14
0
聚类过程表中大部分内容并不是通常要关注的对象,因为在大部分实际应用中,并不关心聚类的具体过程。
但是当需要判断数据应该分成多少类别时,聚类系数这一列却有着很好的参考价值。
事实上,可以根据该系数的变化来判断数据应该被分成多少类,当两个相邻步骤系数变化远大于前面相邻步骤变化时,便可以大致确定应该将聚类过程进行到哪里的类别数是较为合适的。
在这个例子中,11步时聚类系数为18.847,比第10步大了3.847,而在12步时聚类系数为26.599,比第11步大了近8,从统计意义上来说聚类过程结束于第12步是合理的;同时在13,14,15步时,聚类系数同样比前一步骤大了很多,这说明数据被分成5类、3类或是2类都是合理的,当然,这种方法只是起到一个参考作用,真正数据应该分成多少类,还是需要分析者根据自己实际问题综合进行判断。
层次聚类产生的最重要的结果就是谱系图,通过谱系图可以非常直观地看出整个聚类过程和结果。
在谱系图中,聚类的全过程以直观的方式表现出来,它把类间的最大距离算做相对距离为25,其余的距离均换算成与之相比的相对距离大小。
图形的左边代表进行聚类的对象或是事物,而对象或者类别的合并则通过线条连接的方式来表示,在这个例子中,对应的是这些饮料编号列在结果的最左边,而在结果的上部列出的是类别见的相对距离,通过观察这个结果,可以将这些饮料分为若干个类别。
图1:
谱系图
下面两种比较典型的聚类方案,分别聚成5类和3类。
表4:
聚类方案
Case
5Clusters
3Clusters
1:
1
1
1
2:
2
2
2
3:
3
3
3
4:
4
4
1
5:
5
3
3
6:
6
3
3
7:
7
5
2
8:
8
2
2
9:
9
5
2
10:
10
1
1
11:
11
3
3
12:
12
5
2
13:
13
5
2
14:
14
2
2
15:
15
3
3
16:
16
4
1
1.5聚类结果的验证与进一步分析
为了确定分成多少个类别合适,并且为各个类别命名,还需要对聚类结果进行进一步的分析。
在进行聚类的过程中,总是理想化的希望每个类别包含的对象是差不多相等的,但是从以上的分析可以看出,这几乎是不可能的,于是找出尽可能等分的分类就是通常确定类别数目的原则之一。
当把16种饮料分为3-8类时各类的饮料个数如表5所示:
表5:
各类的饮料总数
1
2
3
4
5
6
7
8
WardMethod(8)
1
3
2
2
3
2
1
2
WardMethod(7)
2
3
2
2
3
2
2
WardMethod(6)
2
3
2
2
3
4
WardMethod(5)
2
3
5
2
4
WardMethod(4)
4
3
5
4
WardMethod(3)
4
7
5
从上表中,可以看出分成3类、4类、5类都是合适的,但考虑类别不能过少,并且每类的总数分布应该趋于正态分布,因此选择分成5类是相对合理的。
在确定的分成多少个类别以及每个类别中含有多少种饮料后,接下来最关心的就是各个类别间是否有显著差异,以及各个类别具有怎样的特征,可以应用SPSS中Means过程计算各个类别的描述统计量和各个类别中4个变量是否有显著差异的方差分析表,结果如表5和表6所示:
表6:
Report
Mean
WardMethod(5)
热量
咖啡因
钠
价格
1
1
203.1000
1.6500
13.0500
3.1500
2
31.4667
4.1000
13.2000
2.5333
3
90.3200
5.6200
8.2200
3.4000
4
71.8500
.2000
9.4000
4.1000
5
74.4250
3.1750
8.0500
1.6500
Total
87.1000
3.5500
9.8625
2.8563
从表7中可以看出,各个类别热量、咖啡因、钠、价格等4个变量上都是有显著差异的,且这种差异存在统计意义。
表7:
ANOVATable
从表6中可以看出,各类之间的F检验在=0.05的置信区间下,都是有显著差异的,聚类效果明显。
1.6最终的类别特征描述
综合以上的分析,将16种饮料分为5类,并且总结出各个类别的特征如下:
第1类:
含高热量。
热量要明显高于其他类别,包括第1、10两种饮料。
第2类:
含钠成分高,价格一般。
该类饮料含钠成分要明显高于其他类别,包括第2、8和14种饮料。
第3类:
咖啡因含量高,含钠成分偏高,价格也偏高,包括第3、5、6、11、15种饮料。
第4类:
咖啡因含量低,价格高的饮料。
该类饮料的咖啡因含量明显低于其他类别,同时价格要明显高于其他类别,包括第4、16种饮料。
第5类:
价格低。
该类饮料的价格要明显低于其他类别,包括第7、9、12、13种饮料。
2.判别分析
2.1问题描述
我们希望用一套打分体系来描绘企业的状况,该体系对每个企业的一些指标(变量)进行评分。
这些指标包括:
企业规模(is),服务(se),雇员工资比例(sa),利润增长(prr),市场份额(ms),市场份额增长(msr),流动资金比例(cp),资金周转速度(cs)等等。
另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。
我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:
group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。
该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。
这个数据就是一个“训练样本”,具体如表8所示:
表8:
data
group
is
se
sa
prr
ms
msr
cp
cs
1
43.2
0
8.5
214.1
23.2
95.4
15.4
8.6
1
42.2
0.1
14.4
61.8
15.4
47.5
22.6
9.1
1
2
0.1
10.7
248.2
14.5
53.9
18.9
8.7
1
34.4
0.2
14.2
123.8
21.3
62.4
12.9
8.2
1
31.8
0
5.8
268.1
2.8
60.1
24.9
9.4
1
22.7
0.2
12
153.5
3.4
97.2
27.9
8.7
1
41.8
0.1
14.8
140.3
1.8
53.6
12.2
8.4
1
37.8
0.2
15.4
197
8.9
73.8
25.9
9.4
1
24.6
0.1
14.8
95.8
24.2
69.9
21.3
7.7
1
22
0.2
15.8
256.7
10.6
32.9
26.9
9.3
1
18
0.2
7.4
271.9
17.5
96.1
10.8
7.2
1
11.9
0
15.8
162
12.2
55.5
13
7.1
1
41.7
0.1
15
175.5
19.3
35.3
24.1
7.8
1
19.3
0.1
12.1
217.7
8.8
89.2
14.4
8.2
1
43.2
0.3
7.2
131.9
8.2
46
12.2
9.3
1
13.4
0.2
11.3
161.5
18.2
68.3
13.8
9.4
1
26
0.2
11.6
185.9
12.8
76.7
24.8
7
1
22
0.1
15.1
190
11.7
59.8
29.8
7.1
1
7.2
0
15
64.8
22.9
80.7
24.1
7
1
8.2
0.2
8
115.1
9.6
32.6
15.5
8.9
1
9.6
0.1
15.2
78.3
13.1
40.4
14.2
9.4
1
12
0.2
6.5
175.2
13.6
66.9
10.1
8.1
1
33
0.3
13
121
24.5
74.9
12.3
7.5
1
29
0.2
18.8
94.1
1.3
94.7
24.7
9.2
1
40.4
0.3
13.2
167
5
45.6
25.6
9.7
1
22.5
0.2
19
117.5
24.7
70.5
10.3
7.6
1
26
0
6.4
93.2
4.8
93
26.4
8.7
1
40.8
0.2
14.4
291.8
9.9
34
14.9
8.9
1
0.6
0.3
9.7
225.9
21.7
77.7
26.3
8.5
1
33.6
0.2
9
57.9
2.7
50.6
26.7
7.6
2
51.9
0.5
37.4
10.2
36.4
3.5
7.3
6.7
2
54.8
0.5
38.2
25.9
26.6
18.4
14.3
7.3
2
64
0.4
59.7
16.6
25.9
13.3
13.9
6.5
2
37.9
0.3
21.3
-3.2
32.1
38.1
13.9
5.7
2
46.2
0.7
14.2
-8
17.9
49.5
15.8
6.5
2
74
0.6
59.7
61.5
15.8
11.6
8.4
5
2
55.4
0.3
15.3
11.2
23.2
25
8.5
5.6
2
65.9
0.3
42.6
-2.4
34.5
44.4
6.6
5.7
2
74.2
0.4
28.7
43.9
21.1
32.2
16.4
5.4
2
63.6
0.5
17.5
26.4
38.4
14.1
19.3
7.7
2
53.9
0.3
28
38.9
22.8
11.2
16.3
5
2
39.8
0.6
49.2
-8.2
17.7
25.8
7.8
6.2
2
63.7
0.2
42.3
12.3
20.6
22.7
14.5
6.2
2
47.2
0.5
24
41.4
32.3
38
16.4
7.3
2
66
0.5
47.4
-1.5
28
7
12.2
7.1
2
40.5
0.2
24.4
68.2
26.7
31.5
19
6.5
2
35.7
0.5
33.6
17.8
15
11.3
19.1
6.1
2
66.7
0.7
48.3
28.2
32.5
41.5
5.9
6.5
2
64
0.3
38.7
56.2
31.7
16
17.7
5.6
2
70.2
0.7
25.6
37.5
29.8
32.3
8.7
7.8
2
51.5
0.2
38.3
67.8
24.5
28.6
6.1
7.2
2
43.9
0.7
56.8
1.8
32.4
23.3
6.9
5.6
2
67.2
0.4
43.2
95.4
19.4
7.6
6
7
2
57
0.7
18.1
-4.8
28.1
46
9.5
7
2
51.2
0.5
19.6
89.3
22.8
4.1
17.9
6.9
2
57.2
0.6
25.5
66.5
19.3
47
7
7
2
69.7
0.6
39.3
88
16.1
35.4
15.4
5.3
2
36.3
0.3
10.7
25.2
38.4
8.3
6.2
5.6
2
43.7
0.5
46.4
82.5
19.5
13.1
6.7
7.4
2
67.1
0.6
51.9
98.3
20.7
2.5
10.2
5.3
3
72.9
0.6
75.4
7.7
37.8
7.2
9.2
2.2
3
82.9
0.6
61.3
-35.8
39.1
10.3
7.6
6.1
3
78.1
0.7
54.4
-10.9
47
1.7
8.9
1.2
3
82.3
0.9
62.9
-77
38.6
1
9.4
1.1
3
87.6
0.7
58.4
-88
38.6
-1.1
2.5
4.7
3
92.4
0.7
68.7
-51.7
49.2
-8.4
9.7
5.7
3
98.3
1
52.5
-34.7
46.8
7.6
8.1
5.2
3
94.3
0.9
51.6
-64.6
39.4
-2.3
5
3.1
3
69.5
0.8
51.2
-60.8
45.2
14.2
8.2
4.3
3
97.6
0.8
68
12.6
43
18.6
7.4
1.7
3
89.4
1
63.6
-35.1
32.4
12.5
3.3
1.6
3
66.7
0.8
73.7
-56.9
37
7.3
3.6
2.9
3
96.9
1
55
0.2
40.5
15.4
2.2
3.2
3
97.4
0.8
58.5
-11.4
33
-7.3
9.6
4.7
3
69.1
0.8
75.6
6.1
37.7
13.2
5.7
1.9
3
77.2
0.9
66
-12.2
48.6
16.4
2.3
3.4
3
82.6
0.9
58
7.2
30.4
4.4
2.1
2.2
3
95.1
0.8
63.5
-39.5
46.1
6.5
7.3
5.6
3
78.3
0.7
73.8
-9.6
48.2
11.1
8.7
5.3
3
65.2
0.5
79.3
-42.5
42.7
5.5
8.7
1.5
3
70.5
0.8
79.5
8.8
40.3
17.7
8.1
4.4
3
95.1
0.8
51.6
3
49.4
-1.6
6.2
4.1
3
81.6
0.9
54
-84
45.6
18.8
6.5
4.3
3
97.6
0.8
62.1
-24.2
30.7
12.1
5
4.8
3
92.9
0.7
64.5
-13.3
39.8
7.2
4.9
5.5
3
74
0.9
56.8
-98.9
41.9
-3.5
9.9
6.4
3
87.3
0.6
65
12.7
38.1
3.5
5.2
3.1
3
87.9
0.6
53.7
-82.6
46.3
-7.4
3
4.2
3
89.7
0.6
73.7
-17.8
34.1
-6.8
5.8
2.6
3
78.1
0.9
57.9
-4.1
32.3
-6.5
3.1
4.2
2.2数据基本分析
表9为所有变量做单因素的方差分析,其原假设是:
该自变量在各组总体之间没有差异。
从表最后的Sig值可见,很明显各组之间存在差异,因此这些变量对类间的判别是会起到作用的。
表9:
TestsofEqualityofGroupMeans
Wilks'Lambda
F
df1
df2
Sig.
服务
.205
168.241
2
87
.000
雇员工资比例
.179
199.700
2
87
.000
利润增长
.256
126.415
2
87
.000
市场份额
.256
126.148
2
87
.000
市场份额增长
.271
117.063
2
87
.000
流动资金比例
.441
55.040
2
87
.000
资金周转速度
.252
128.913
2
87
.000
企业规模
.190
185.828
2
87
.000
2.3判别分析
在SPSS中实现判别分析的过程步骤如下:
1)Analyze-Classify-Discriminant;
2)把group放入GroupingVariable,再定义范围,即在DefineRange输入1-3的范围。
然后在Independents输入所有想用的变量;但如果要用逐步判别,则不选Enterindependentstogethe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 判别分析
![提示](https://static.bdocx.com/images/bang_tan.gif)