应用多元统计分析习题解答聚类分析报告Word下载.docx
- 文档编号:19461655
- 上传时间:2023-01-06
- 格式:DOCX
- 页数:27
- 大小:390.67KB
应用多元统计分析习题解答聚类分析报告Word下载.docx
《应用多元统计分析习题解答聚类分析报告Word下载.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析习题解答聚类分析报告Word下载.docx(27页珍藏版)》请在冰豆网上搜索。
(4)最优分类。
5.7检测某类产品的重量,抽了六个样品,每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。
(1)用最短距离法进行聚类分析。
采用绝对值距离,计算样品间距离阵
0
10
210
5430
87630
1098520
由上表易知中最小元素是于是将,,聚为一类,记为
计算距离阵
30
630
8520
中最小元素是=2于是将,聚为一类,记为
计算样本距离阵
30
630
中最小元素是于是将,聚为一类,记为
因此,
(2)用重心法进行聚类分析
计算样品间平方距离阵
410
251690
64493690
10081642540
易知中最小元素是于是将,,聚为一类,记为
160
4990
812540
注:
计算方法,其他以此类推。
中最小元素是=4于是将,聚为一类,记为
160
64160
5.8下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法分别对这些公司进行聚类,并对结果进行比较分析。
公司
编号
净资产收益率
每股净利润
总资产周转率
资产负债率
流动负债比率
每股净资产
净利润增长率
总资产增长率
11.09
0.21
0.05
96.98
70.53
1.86
-44.04
81.99
2
11.96
0.59
0.74
51.78
90.73
4.95
7.02
16.11
3
0.03
181.99
100
-2.98
103.33
21.18
4
11.58
0.13
0.17
46.07
92.18
1.14
6.55
-56.32
5
-6.19
-0.09
43.3
82.24
1.52
-1713.5
-3.36
6
10
0.47
0.48
68.4
86
4.7
-11.56
0.85
7
10.49
0.11
0.35
82.98
99.87
1.02
100.23
30.32
8
11.12
-1.69
0.12
132.14
-0.66
-4454.39
-62.75
9
3.41
0.04
0.2
67.86
98.51
1.25
-11.25
-11.43
1.16
0.01
0.54
43.7
1.03
-87.18
-7.41
11
30.22
0.16
0.4
87.36
94.88
0.53
729.41
-9.97
12
8.19
0.22
0.38
30.31
2.73
-12.31
-2.77
13
95.79
-5.2
0.5
252.34
99.34
-5.42
-9816.52
-46.82
14
16.55
0.93
72.31
84.05
2.14
115.95
123.41
15
-24.18
-1.16
0.79
56.26
97.8
4.81
-533.89
-27.74
解:
令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下:
a)系统聚类法:
1.在SPSS窗口中选择Analyze→Classify→HierachicalCluster,调出系统聚类分析主界面,并将变量
移入Variables框中。
在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。
在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
图5.1系统分析法主界面
2.点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。
我们选择Agglomerationschedule与ClusterMembership中的Rangeofsolution2-4,如图5.2所示,点击Continue按钮,返回主界面。
(其中,Agglomerationschedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;
Proximitymatrix表示输出各个体之间的距离矩阵;
ClusterMembership表示在结果中输出一个表,表中显示每个个体被分配到的类别,Rangeofsolution2-4即将所有个体分为2至4类。
3.点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。
选中Dendrogram复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。
单击Continue按钮,返回主界面。
图5.2Statistics子对话框图5.3 Plots子对话框
4.点击Method按钮,设置系统聚类的方法选项。
ClusterMethod下拉列表用于指定聚类的方法,这里选择Between-groupinkage(组间平均数连接距离);
Measure栏用于选择对距离和相似性的测度方法,选择SquaredEuclideandistance(欧氏距离);
图5.4Method子对话框图5.5Save子对话框
5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。
None表示不保存任何新变量;
Singlesolution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;
Rangeofsolutions表示生成多个分类变量。
这里我们选择Rangeofsolutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。
点击Continue,返回主界面。
6.点击OK按钮,运行系统聚类过程。
聚类结果分析:
下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;
若分为3类,则公司8分离出来,自成一类。
以此类推。
表5.1各样品所属类别表
图5.6聚类树形图
b)K均值法的步骤如下:
1.在SPSS窗口中选择Analyze→Classify→K-MeansCluster,调出K均值聚类分析主界面,并将变量X1-X8移入Variables框中。
在Method框中选择Iterateclassify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classifyonly,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。
在NumberofCluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分为3类。
(Centers按钮,则用于设置迭代的初始类中心。
如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。
图5.7K均值聚类分析主界面
2.点击Iterate按钮,对迭代参数进行设置。
MaximumIterations参数框用于设定K-means算法迭代的最大次数,输入10,ConvergenceCriterion参数框用于设定算法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。
单击Continue,返回主界面。
图5.8Iterate子对话框
3.点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。
我们将两个复选框都选中,其中Clustermembership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;
Distancefromclustercenter选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。
单击Continue按钮返回。
图5.9Save子对话框
4.点击Options按钮,指定要计算的统计量。
选中Initialclustercenters和Clusterinformationforeachcase复选框。
这样,在输出窗口中将给出聚类的初始类中心和每个公司的分类信息,包括分配到哪一类和该公司距所属类中心的距离。
单击Continue返回。
图5.10Options子对话框
5.点击OK按钮,运行K均值聚类分析程序。
以下三表给出了各公司所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各类的公司数。
由以上表格可得公司13与公司8各自成一类,其余的公司为一类。
通过比较可知,两种聚类方法得到的聚类结果完全一致。
5.9下表是某年我国16个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。
试通过统计分析软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
地区
食品
衣着
燃料
住房
交通和
通讯
娱乐教
育文化
北京
190.33
43.77
9.73
60.54
49.01
9.04
天津
135.2
36.4
10.47
44.16
36.49
3.94
河北
95.21
22.83
9.3
22.44
22.81
2.8
山西
104.78
25.11
6.4
9.89
18.17
3.25
内蒙
128.41
27.63
8.94
12.58
23.99
2.27
辽宁
145.68
32.83
17.79
27.29
39.09
3.47
吉林
159.37
33.38
18.37
11.81
25.29
5.22
黑龙江
116.22
29.57
13.24
13.76
21.75
6.04
上海
221.11
38.64
12.53
115.65
50.82
5.89
江苏
144.98
29.12
11.67
42.6
27.3
5.74
浙江
169.92
32.75
12.72
47.12
34.35
安徽
135.11
23.09
15.62
23.54
18.18
6.39
福建
144.92
21.26
16.96
19.52
6.73
江西
140.54
21.5
17.64
19.19
15.97
4.94
山东
115.84
30.26
12.2
33.6
33.77
3.85
河南
101.18
23.26
8.46
20.2
20.5
4.3
令食品支出为X1,衣着支出为X2,燃料支出为X3,住房支出为X4,交通和通讯支出为X5,娱乐教育文化支出为X6,用spss对16各地区聚类分析的步骤如5.8题,不同的方法在第4个步骤的Method子对话框中选择不同的Clustermethod。
1.Between-groupinkage(组间平均数连接距离)
上表给出了把全国16个地区分为2类、3类和4类时,各地区所属的类别,另外从右边的树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
2.Within-grouplinkage(组内平均连接距离)
若用组内平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。
3.Nearestneighbor(最短距离法)
若用最短距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。
4.Furthestneighbor(最远距离法)
若用最远距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
5.Centroidcluster(重心法)
若用重心法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
6.Mediancluster(中位数距离)
若用中位数距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。
7.Wardmethod(离差平方和)
若用离差平方和法将这些地区分为3类,则9(上海),1(北京)和11(浙江)为一类,2(天津)、6(辽宁)、7(吉林)、10(江苏)、12(安徽)、13(福建)和14(江西)为一类,剩余地区为一类。
5.10根据上题数据通过SPSS统计分析软件进行快速聚类运算,并与系统聚类分析结果进行比较。
解:
快速聚类运算即K均值法聚类,具体步骤同5.8,聚类结果如下:
聚类的结果为9(上海)独自为一类,1(北京)、2(天津)、6(辽宁)、7(吉林)、10(江苏)、11(浙江)、13(福建)和14(江西)为一类,剩余地区为一类。
5.11下表是2003年我国省会城市和计划单列市的主要经济指标:
人均GDP
(元)、人均工业产值
(元)、客运总量
(万人)、货运总量
(万吨)、地方财政预算内收入
(亿元)、固定资产投资总额
(亿元)、在岗职工占总人口的比例
(%)、在岗职工人均工资额
(元)、城乡居民年底储蓄余额
(亿元)。
试通过统计分析软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。
城市
31886
33168
30520
30671
593
2000
37.8
25312
6441
26433
43732
3507
34679
205
934
18.8
18648
1825
石家庄
15134
13159
11843
10008
49
416
9.5
12306
1044
太原
15752
15831
2975
15248
33
197
22.8
12679
660
呼和浩特
18991
11257
3508
4155
21
182
13.5
14116
255
沈阳
23268
15446
6612
14636
81
557
14.8
14961
1423
大连
29145
27615
11001
21081
111
407
14.7
17560
1310
长春
18630
21045
6999
10892
46
294
12.5
13870
831
哈尔滨
14825
7561
6458
9518
76
423
17.7
12451
1154
46586
77083
7212
63861
899
2274
21.0
27305
6055
南京
27547
43853
16790
14805
136
794
15.4
22190
1134
杭州
32667
49823
21349
16815
150
717
11.8
24667
1466
宁波
32543
47904
24938
13797
139
555
10.9
23691
1060
合肥
10621
11714
6034
4641
36
245
8.3
13901
359
福州
22281
21310
9680
8250
67
376
15053
876
厦门
53590
93126
4441
3055
70
238
38.6
19024
397
南昌
14221
9205
5728
4454
31
210
11.0
13913
483
济南
23437
22634
5810
14354
429
16027
758
青岛
24705
35506
14666
30553
120
548
14.5
15335
908
郑州
16674
14023
10709
7847
66
373
12.7
13538
1048
武汉
21278
17083
11882
16610
80
623
17.4
13730
1286
长沙
8873
10609
10631
60
434
10.0
16987
705
广州
48220
55404
29751
28859
275
1089
25.1
28805
3727
深圳
191838
347519
10989
6793
291
875
69.6
31053
2199
南宁
8176
3390
7016
5893
170
13171
451
海口
16442
14553
13284
3304
99
16.5
14819
284
重庆
7190
5076
58290
32450
162
1187
6.5
12440
1897
成都
17914
9289
72793
28798
90
788
11.9
15274
1494
贵阳
11046
10350
18511
5318
40
231
15.8
12181
345
昆明
16215
11601
5126
12338
342
14.6
14255
709
西安
13140
8913
11413
9392
65
446
15.9
13505
1211
兰州
14459
17136
2209
5581
203
18.0
13489
468
西宁
7066
5605
2788
2037
10.1
14629
175
银川
11787
11013
2146
2127
134
21.9
13497
193
乌鲁木齐
22508
17137
2188
12754
41
180
26.1
16509
420
20
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 习题 解答 聚类分析 报告