应用多元统计分析习题解答聚类分析Word下载.docx
- 文档编号:20548229
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:18
- 大小:45.56KB
应用多元统计分析习题解答聚类分析Word下载.docx
《应用多元统计分析习题解答聚类分析Word下载.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析习题解答聚类分析Word下载.docx(18页珍藏版)》请在冰豆网上搜索。
K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。
不同:
系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;
有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。
5.6试述K均值法与系统聚类有何区别?
试述有序聚类法的基本思想。
K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。
系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
有序聚类就是解决样品的次序不能变动时的聚类分析问题。
如果用X山,X⑵,…,Xg表示"
个有序的样品,则每一类必须是这样的形式,即X”),X“+”「X『,其中1<
/<
«
且j<
n,简记为G,={H+1,…J}。
在同一类中的样品是次序相邻的。
一般的步骤是
(1)计算直径{D(i,j)}o
(2)计算最小分类损失函数{L[p(l,k)]}o(3)确定分类个数k。
(4)最优分类。
5.7检测某类产品的重量,抽了六个样品,每个样品只测了一个指标,分别为1,2,
3,6,9,11.试用最短距离法,重心法进行聚类分析。
(1)用最短距离法进行聚类分析。
采用绝对值距离,汁算样品间距离阵Dyqy
gi0
G210
由上表易知Dyw中最小元素是于是将G],G2,Gm聚为一类,记为G?
计算距离阵Dyiy
G70
G430
Gs630
G68520
Dyht中最小元素是二2于是将Gs聚为一类,记为Gg
计算样本距离阵DY2Y
。
钉—£
b—3
(2)用重心法进行聚类分析
计算样品间平方距离阵D'
yoy
易知D'
yqy中最小元素是于是将6,G2,G3聚为一类,记
为G?
计算距离阵D'
yiy
G4160
Gs4990
G6812540
注:
计算方法,其他以此类推。
D'
yiy中最小元素是°
256=4于是将G5,G&
聚为一类,记为Gg
计算样本距离阵D2Y2Y
Gs64160
D2¥
2Y中最小元素是于是将聚为一类,记为Gg
因此,
5.8下表是13个上市公司2001年的一些主要财务指标,使用系统聚类法和K—均值法分别对这些公司进行聚类,并对结果进行比较分析。
公司
编号
净资
产收
益率
每股
净利
润
总资
产周
转率
资产负
债率
流动
负债
比率
产
净利润
增长率
总资产
11.09
0.21
0.05
96.98
70.53
1.86
-44.04
81.99
2
11.96
0.59
0.74
51.78
90.73
4.95
7.02
16.11
3
0.03
181.99
100
2.98
103.33
21.18
11.58
0.13
0.17
46.07
92.18
1.14
6.55
-56.32
5
-6.19
0.09
43.3
82.24
1.52
-1713.5
-3.36
6
10
0.47
0.48
68.4
86
4.7
-11.56
0.85
7
10.49
0.11
0.35
82.98
99.87
1.02
100.23
30.32
8
11.12
1.69
0.12
132.14
0.66
4454.39
-62.75
9
3.41
0.04
0.2
67.86
98.51
1.25
-11.25
-11.43
1.16
0.01
0.54
43.7
1.03
-87.18
-7.41
11
30.22
0.16
0.4
87.36
94.88
0.53
729.41
-9.97
12
8.19
0.22
0.38
30.31
2.73
-12.31
-2.77
13
95.79
-5.2
0.5
252.34
99.34
5.42
9816.52
-46.82
14
16.55
0.93
72.31
84.05
2.14
115.95
123.41
15
24.18
0.79
56.26
97.8
4.81
-533.89
-27.74
解:
令净资产收益率为XI,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下:
a)系统聚类法:
1.在SPSS窗口中选择Analyze-*Classify-*HierachicalCluster.调出系统聚类分析主界面,并将变量X1-X8移入Variables框中。
在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。
在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时
得到聚类结果统讣量和统汁图。
图5.1系统分析法主界面
2•点击Statistics按钮,设置在结果输出窗口中给岀的聚类分析统计量。
我们选择Agglomerationschedule与ClusterMembership中的Rangeofsolution2-4,如图5.2所示,点击Continue按钮,返回主界面。
(其中,Agglomerationschedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;
Proximitymatrix表示输出各个体之间的距离矩阵;
ClusterMembership表示在结果中输出一个表,表中显示每个个体被分配到的类别,Rangeofsolution2-4即将所有个体分为2至4类。
)
3.点击Plots按钮,设置结果输出窗口中给出的聚类分析统讣图。
选中Dendrogram
复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。
单击Continue按钮,返回主界面。
图5.2Statistics子对话框图5.3Plots子对话框
4.点击Method按钮,设置系统聚类的方法选项。
ClusterMethod下拉列表用于指定
聚类的方法,这里选择Between-groupinkage(组间平均数连接距离);
Measure栏用于选择对距离和相似性的测度方法,选择SquaredEuclideandistance(欧氏距离):
图5.4Method子对话框图5.5Save子对话框
5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。
None表示
不保存任何新变量;
Singlesolution表示生成一个分类变量,在其后的矩形框
中输入要分成的类数:
Rangeofsolutions表示生成多个分类变量。
这里我们选择Rangeofsolutions»
并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。
点击Continue*返回主界面。
6.点击0K按钮,运行系统聚类过程。
聚类结果分析:
下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的悄况,另外,
从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;
若分为3类,则公司8分离出来,自成一类。
以此类推。
表5.1各样品所属类别表
图5.6聚类树形图
b)K均值法的步骤如下:
1.在SPSS窗口中选择Analyze-*Classify-*K-MeansCluster.调出K均值聚类分析主界面,并将变量X1-X8移入VariablesIS中。
在Method框中选择Iterateclassify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classifyonly,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。
在NumberofCluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分为3类。
(Centers按钮,则用于设置迭代的初始类中心。
如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。
2.点击Iterate按钮,对迭代参数进行设置。
MaximumIterations参数框用于设定
K-means算法迭代的最大次数,输入10,ConvergenceCriterion参数框用于设定算法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。
单击Continue,返回主界面。
图5.8Iterate子对话框
3.点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。
我们将两个复
选框都选中,其中Clustermembership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_l:
Distancefromclustercenter选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。
单击Continue按钮返回。
图5.9Save子对话框
4.点击Options按钮,指定要计算的统计量°
选中Initialclustercenters和
Clusterinformationforeachcase复选框。
这样,在输出窗口中将给出聚类的初始类中心和每个公司的分类信息,包括分配到哪一类和该公司距所属类中心的距离。
单击Continue返回。
图5.10Options子对话框
5.点击0K按钮,运行K均值聚类分析程序。
聚类结果分析:
以下三表给出了各公司所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各类的公司数。
由以上表格可得公司13与公司8各自成一类,其余的公司为一类。
通过比较可知,两种聚类方法得到的聚类结果完全一致。
5.9下表是某年我国16个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。
试通过统计分析软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
地区
食品
衣着
燃料
住房
交通和
通讯
娱乐教
育文化
北京
190.33
43.77
9.73
60.54
49.01
9.04
天津
135.2
36.4
10.47
44.16
36.49
3.94
河北
95.21
22.83
9.3
22.44
22.81
2.8
山西
104.78
25.11
6.4
9.89
18.17
3.25
内蒙
128.41
27.63
8.94
12.58
23.99
2.27
辽宁
145.68
32.83
17.79
27.29
39.09
3.47
吉林
159.37
33.38
18.37
11.81
25.29
5.22
黑龙
江
116.22
29.57
13.24
13.76
21.75
6.04
上海
221.11
38.64
12.53
115.65
50.82
5.89
江苏
144.98
29.12
11.67
42.6
27.3
5.74
浙江
169.92
32.75
12.72
47.12
34.35
安徽
135.11
23.09
15.62
23.54
18.18
6.39
福建
144.92
21.26
16.96
19.52
6.73
江西
140.54
21.5
17.64
19.19
15.97
4.94
山东
115.84
30.26
12.2
33.6
33.77
3.85
河南
101.18
23.26
8.46
20.2
20.5
4.3
令食品支出为XI,衣着支出为X2,燃料支出为X3,住房支岀为X4,交通和通讯支出为X5,娱乐教育文化支出为X6,用spss对16各地区聚类分析的步骤如5.8题,不同的方法在第4个步骤的Method子对话框中选择不同的Clustermethodo
1.Between-groupinkage(组间平均数连接距离)
上表给出了把全国16个地区分为2类、3类和4类时,各地区所属的类别,另外从右边的树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
2.Within-grouplinkage(组内平均连接距离)
若用组内平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。
3.Nearestneighbor(最短距离法)
若用最短距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。
4.Furthestneighbor(最远距离法)
若用最远距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
5.Centroidcluster(重心法)
若用重心法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
6.Mediancluster(中位数距离)
若用中位数距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
7.Wardmethod(离差平方和)若用离差平方和法将这些地区分为3类,则9(上海),1(北京)和11(浙江)为一类,2(天津)、6(辽宁)、7(吉林)、10(江苏)、12(安徽)、13(福建)和14
(江西)为一类,剩余地区为一类。
5.10根据上题数据通过SPSS统计分析软件进行快速聚类运算,并与系统聚类分析结果进行比较。
解:
快速聚类运算即K均值法聚类,具体步骤同5.8,聚类结果如下:
聚类的结果为9(上海)独自为一类,1(北京)、2(天津)、6(辽宁)、7(吉林)、
10(江苏)、11(浙江)、13(福建)和14(江西)为一类,剩余地区为一类。
5.11下表是2003年我国省会城市和计划单列市的主要经济指标:
人均GDPx,
(元)、人均工业产值兀(元)、客运总量兀(万人)、货运总量兀(万吨)、地方财政预算内收入兀(亿元)、固定资产投资总额%(亿元)、在岗职工占总人口的比例旺
(%)、在岗职工人均工资额兀(元)、城乡居民年底储蓄余额暫(亿元)。
试通过统计分析软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
城市
3052
3067
59
200
37.
2531
644
31886
33168
3467
20
18.
1864
182
夭津
26433
43732
3507
934
石家庄
太原
呼和浩
特
沈阳
大连
长春
哈尔滨
南京
1184
1000
1230
104
15134
13159
49
416
9.5
1524
22.
1267
15752
15831
2975
33
197
660
13.
1411
18991
11257
3508
4155
21
255
1463
14.
1496
142
23268
15446
6612
81
557
1100
2108
1756
131
29145
27615
407
1089
12.
1387
18630
21045
6999
46
294
831
17.
1245
115
14825
7561
6458
9518
76
423
6386
89
227
21.
2730
605
46586
77083
7212
1679
1480
15.
2219
113
27547
43853
794
2134
1681
11.
2466
146
32667
49823
717
2493
1379
10.
2369
106
32543
47904
555
1390
10621
11714
6034
4641
36
245
8.3
359
1505
22281
21310
9680
8250
67
376
876
38.
1902
53590
93126
4441
3055
70
238
397
1391
14221
9205
5728
4454
31
210
483
1435
1602
23437
22634
5810
429
758
1466
1533
24705
35506
548
908
1070
1353
16674
14023
7847
66
373
杭州
F波
合肥
福州
厦门
南吕
济南
青岛
郑州
1188
1661
1373
128
21278
17083
80
623
1060
1063
1698
8873
60
434
705
2885
27
108
25.
2880
372
48220
55404
19183
34751
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 习题 解答 聚类分析
![提示](https://static.bdocx.com/images/bang_tan.gif)