北航数理统计判别分析大作业.docx
- 文档编号:3306205
- 上传时间:2022-11-21
- 格式:DOCX
- 页数:24
- 大小:135.19KB
北航数理统计判别分析大作业.docx
《北航数理统计判别分析大作业.docx》由会员分享,可在线阅读,更多相关《北航数理统计判别分析大作业.docx(24页珍藏版)》请在冰豆网上搜索。
北航数理统计判别分析大作业
数理统计
(课程大作业2)
聚类和判别分析
学院:
机械工程学院
专业:
材料加工工程
日期:
2014年12月22日
摘要:
本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。
关键字:
经济类型SPSS聚类分析判别分析
1引言
中华人民共和国成立后,通过有计划地进行大规模的社会主义建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。
按预定计划,到2010年,中国将建立起比较完善的社会主义市场经济体制;到2020年,建立起比较成熟的社会主义市场经济体制。
但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。
近年来,这种不均衡引起了人们的注意。
新中国成立至1978年的30年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。
自1978年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003年广东省为13626亿元,约相当于3个湖南(4639亿元)或10个贵州(1365亿元)或35个青海(390亿元).从人均地区生产总值来看,2003年浙江为20147亿元,3倍于江西(6678元),4倍于甘肃,5.6倍于贵州。
本文就是在这样的背景下提出来的,使用SPSSStatistics19.0这一统计软件,利用国家统计局公布的《中国统计年鉴2013》中提供的2012年我国各地区经济发展的数据,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。
2数据采集
本文数据来源于《中国统计年鉴2013》,具体数据见表1
表1源数据
地区
居民消费水平(元)
社会固定资产投资(亿元)
人均地区生产总值(元)
政府消费支出(亿元)
城镇居民人均总收入(元/人)
北京
30349.5
6112.4
87475
4451.8
36468.75
天津
22984.0
7934.8
93173
1698.7
29626.41
河北
10749.4
19661.3
36584
3272.7
20543.44
山西
10829.0
8863.3
33628
1605.4
20411.71
内蒙古
15195.5
11875.7
63886
2466.9
23150.26
辽宁
17998.7
21836.3
56649
2178.8
23222.67
吉林
12276.3
9511.5
43415
1566.2
20208.04
黑龙江
11600.8
9694.7
35711
2812.7
17759.75
上海
36892.9
5117.6
85373
2807.3
40188.34
江苏
19452.3
30854.2
68347
7329.0
29676.97
浙江
22844.7
17649.4
63374
4013.3
34550.30
安徽
10977.7
15425.8
28792
1876.3
21024.21
福建
16143.9
12439.9
52763
1854.8
28055.24
江西
10572.9
10774.2
28800
1560.5
19860.36
山东
15095.0
31256.0
51768
5960.3
25755.19
河南
10380.3
21450.0
31499
3584.0
20442.62
湖北
12283.0
15578.3
38572
2897.3
20839.59
湖南
11739.5
14523.2
33480
2397.7
21318.76
广东
21823.3
18751.5
54095
6241.8
30226.71
广西
10519.5
9808.6
27952
1612.2
21242.80
海南
10634.5
2145.4
32377
448.3
20917.71
重庆
13655.4
8736.2
38914
1389.3
22968.14
四川
11280.2
17040.0
29608
2831.4
20306.99
贵州
8372.0
5717.8
19710
1039.7
18700.51
云南
9781.6
7831.1
22195
1763.2
21074.50
西藏
5339.5
670.5
22936
289.6
18028.32
陕西
11852.2
12044.5
38564
1944.9
20733.88
甘肃
8542.0
5145.0
21978
1131.9
17156.89
青海
10289.1
1883.4
33181
410.2
17566.28
宁夏
12120.4
2096.9
36394
404.2
19831.41
新疆
10675.1
6158.8
33796
1891.8
17920.68
三聚类分析
3.1聚类分析过程
首先将数据导入SPSS中,并剔除待分析的河北、浙江、新疆三省数据。
表3所示的为聚类分析的汇总结果:
表3案例处理汇总
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
28
100.0
0
.0
28
100.0
a.平方Euclidean距离已使用
b.平均联结(组之间)
从表3中可以看到28个样本的数据全都有效,均用于系统聚类分析过程。
表中列出了有效样本、缺失样本和样本总数的个数和百分数。
表4显示的是样本的凝聚过程。
对本文选取的28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。
表4聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
12
18
3568152.164
0
0
11
2
10
21
4789624.428
0
0
9
3
22
26
7892087.384
0
0
8
4
19
27
12067895.815
0
0
7
5
15
25
13591635.444
0
0
12
6
3
7
14116255.332
0
0
14
7
19
28
19190996.708
4
0
19
8
22
23
21666276.496
3
0
13
9
10
16
23240192.308
2
0
11
10
6
20
30411453.520
0
0
12
11
10
12
41848265.896
9
1
16
12
6
15
42054641.615
10
5
14
13
22
24
53920958.101
8
0
23
14
3
6
54768430.052
6
12
19
15
1
8
64763844.618
0
0
22
16
10
14
81191025.397
11
0
20
17
5
17
96231017.522
0
0
18
18
5
11
1.141E8
17
0
21
19
3
19
1.218E8
14
7
20
20
3
10
1.515E8
19
16
23
21
4
5
1.868E8
0
18
25
22
1
2
2.597E8
15
0
27
23
3
22
2.667E8
20
13
26
24
9
13
3.113E8
0
0
25
25
4
9
3.780E8
21
24
26
26
3
4
1.133E9
23
25
27
27
1
3
3.450E9
22
26
0
表4所列各项的意义如下:
阶——聚类步骤号;
群集组合——在某步中合并的个案;
系数——距离或相似系数;
首次出现阶群集——新生成聚类;
下一阶——对应步骤生成的新类将在第几步与其它个案或新类合并。
从中可以看出聚类的进度和类详细合并的步骤。
可以从表中看出,第12和第18个样本最先进行了聚类,样本间的距离为3568152.164。
表5显示的是聚类后的集群成员:
表5群集成员
案例
群集
1:
北京
1
2:
天津
1
3:
山西
2
4:
内蒙古
3
5:
辽宁
3
6:
吉林
2
7:
黑龙江
2
8:
上海
1
9:
江苏
3
10:
安徽
2
11:
福建
3
12:
江西
2
13:
山东
3
14:
河南
2
15:
湖北
2
16:
湖南
2
17:
广东
3
18:
广西
2
19:
海南
2
20:
重庆
2
21:
四川
2
22:
贵州
2
23:
云南
2
24:
西藏
2
25:
陕西
2
26:
甘肃
2
27:
青海
2
28:
宁夏
2
从表5可以看到系统聚类分析的最终结果为:
北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。
图1为垂直冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得名。
横轴:
案例(Case)表示被聚类的对象;
纵轴:
群集数(Numberofclusters)表示被聚成几类;
图1以冰柱图表示聚类分析结果。
图中第1列为聚类步骤号,第1行为样本及样本号。
图中每一列代表一个冰柱,深色柱代表冰柱的长短。
从冰柱的长短变化可以看出聚类的全过程。
即如果样本或新类在第n步合并,则在图中第n步以上合并项对应列中用深色填充,没有空格。
由于冰柱图是按照聚类的编号进行排列,所以其与聚结表的顺序刚好相反,也就是说聚结表的第一步对应于冰柱图的最后一步。
冰柱图一般从表格的最后一行开始观察。
最后一行中,类的数目为27,即聚积成27类,其中样本江西和广西用深色柱连接在一起,表示成两个样本聚成一类,其余每个样本构成一类。
因此从冰柱图中可以非常清楚地看到,聚成n时类时,各个样本的类归属情况。
图1冰柱图
图2为聚类分析之后的树状图:
图2树状图
图2清晰地表示出了聚类的全过程。
它将实际的距离按比例调整到0-25的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。
在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将和水平线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。
3.2聚类分析结果总结
从上一部分的聚类分析过程可以看出,SPSS软件将本文所采用的数据分为3类,如表6所示:
表6
集群
地区
第一类
北京、天津、上海
第二类
其他省、自治区、直辖市
第三类
内蒙古、辽宁、江苏、福建、山东、广东
北京市、天津市、上海市构成一类。
北京、天津作为老牌经济强省,同时也是北方京津冀经济圈的主要经济贡献力量,其在全国经济整体盘面上表现一直相对强劲。
上海市作为中国的经济中心,其整体发展水平高于全国其他地市,其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。
内蒙古由于近几年煤炭等能源生产增长,还有富饶的草原畜牧业,经济发展迅速。
而辽宁、江苏、福建、山东、广东这些沿海地区,由于受到改革开放经济政策的影响,经济实力仅次于北京、上海、天津。
故以上几个省份被划为一类。
其余省市被划分为一类。
这些省市中也包括黑龙江省等经济条件较好的省市,但各行业领域发展并不均衡,故将其划入该类中。
4判别分析
4.1判别分析过程
根据聚类分析的结果,将省份分为3类,在SPSS中添加一个新变量G用来表示类别,取值为1、2和3,同时在表中添加了三个个案河北、浙江、新疆,作为待判样本。
下面是判别结果相关表格。
下表7为参与分析的个案处理的摘要显示,可以看出,共有28个样本作为判别基础数据进入分析。
表7分析案例处理摘要
未加权案例
N
百分比
有效
28
90.3
排除的
缺失或越界组代码
3
9.7
至少一个缺失判别变量
0
.0
缺失或越界组代码还有至少一个缺失判别变量
0
.0
合计
3
9.7
合计
31
100.0
下表8为分组的统计量统计信息。
由下表可以看出一共有3个组,其中第一组3例,第二组19例,第三组6例。
同时,下表给出了各组中变量的均值和标准差。
表8组统计量
G类别
均值
标准差
有效的N(列表状态)
未加权的
已加权的
1
居民消费水平
30075.4667
6958.49808
3
3.000
社会固定资产投资
6388.2667
1428.71648
3
3.000
人均地区生产总值
88673.6667
4035.79005
3
3.000
城镇居民人均总收入
35427.8333
5357.35214
3
3.000
政府消费支出
2985.9333
1385.21562
3
3.000
2
居民消费水平
10686.6263
1816.10285
19
19.000
社会固定资产投资
9417.9158
5710.44151
19
19.000
人均地区生产总值
31458.2105
6544.42549
19
19.000
城镇居民人均总收入
20020.6563
1518.89422
19
19.000
政府消费支出
1661.3158
938.74936
19
19.000
3
居民消费水平
17618.1167
2668.37565
6
6.000
社会固定资产投资
21168.9333
8537.01207
6
6.000
人均地区生产总值
57918.0000
6708.25283
6
6.000
城镇居民人均总收入
26681.1733
3121.52932
6
6.000
政府消费支出
4338.6000
2430.30174
6
6.000
合计
居民消费水平
14249.3214
6810.84948
28
28.000
社会固定资产投资
11611.3857
7880.56214
28
28.000
人均地区生产总值
43258.3929
20322.59927
28
28.000
城镇居民人均总收入
23098.6789
5646.00438
28
28.000
政府消费支出
2376.9429
1755.02985
28
28.000
下表9为组均值的均等性检验表:
表9组均值的均等性的检验
Wilks的Lambda
F
df1
df2
Sig.
居民消费水平
.153
69.121
2
25
.000
社会固定资产投资
.570
9.437
2
25
.001
人均地区生产总值
.092
123.026
2
25
.000
城镇居民人均总收入
.172
60.366
2
25
.000
政府消费支出
.592
8.615
2
25
.001
该检验方法的原假设是组均值对应相等,此时各变量间没有显著差异。
本例中的各变量的显著性概率均小于0.05,所以拒绝原假设,即认为各变量之间存在显著的差异。
下表10为汇聚的组内矩阵表,该表显示了各个变量两两之间的协方差和相关系数。
表10汇聚的组内矩阵
居民消费水平
社会固定资产投资
人均地区生产总值
城镇居民人均总收入
政府消费支出
协方差
居民消费水平
7672426.660
3033279.657
5216758.878
5283078.918
1480414.129
社会固定资产投资
3033279.657
38217995.847
8001104.608
3391896.304
6634790.857
人均地区生产总值
5216758.878
8001104.608
41140382.873
960452.898
1465320.179
城镇居民人均总收入
5283078.918
3391896.304
960452.898
5905955.377
1618204.396
政府消费支出
1480414.129
6634790.857
1465320.179
1618204.396
1969279.350
相关性
居民消费水平
1.000
.177
.294
.785
.381
社会固定资产投资
.177
1.000
.202
.226
.765
人均地区生产总值
.294
.202
1.000
.062
.163
城镇居民人均总收入
.785
.226
.062
1.000
.474
政府消费支出
.381
.765
.163
.474
1.000
a.协方差矩阵的自由度为25。
下表11的协方差矩阵,展示了聚类分析后的各个类的变量两两之间的协方差:
表11协方差矩阵
G类别
居民消费水平
社会固定资产投资
人均地区生产总值
城镇居民人均总收入
政府消费支出
1
居民消费水平
48420695.503
-9852735.767
-27368710.967
36940141.442
4156123.882
社会固定资产投资
-9852735.767
2041230.773
5741544.133
-7654132.957
-1084074.793
人均地区生产总值
-27368710.967
5741544.133
16287601.333
-21531547.583
-3479584.133
城镇居民人均总收入
36940141.442
-7654132.957
-21531547.583
28701221.961
4071622.683
政府消费支出
4156123.882
-1084074.793
-3479584.133
4071622.683
1918822.303
2
居民消费水平
3298229.580
4319615.980
9662694.105
1680206.960
662639.440
社会固定资产投资
4319615.980
32609142.188
8424512.846
3916161.119
4982434.632
人均地区生产总值
9662694.105
8424512.846
42829504.953
3747667.059
1404456.119
城镇居民人均总收入
1680206.960
3916161.119
3747667.059
2307039.664
413414.266
政府消费支出
662639.440
4982434.632
1404456.119
413414.266
881250.360
3
居民消费水平
7120228.610
3556875.065
2245580.000
5590592.956
3354119.110
社会固定资产投资
3556875.065
72880575.051
7380659.140
5922954.673
15670819.526
人均地区生产总值
2245580.000
7380659.140
45000656.000
-76717.890
3662392.520
城镇居民人均总收入
5590592.956
5922954.673
-76717.890
9743945.307
4974081.553
政府消费支出
3354119.110
15670819.526
3662392.520
4974081.553
5906366.532
合计
居民消费水平
46387670.622
6278134.148
1.252E8
36970857.207
5704313.183
社会固定资产投资
6278134.148
62103259.585
30401569.858
8345411.101
11060870.150
人均地区生产总值
1.252E8
30401569.858
4.130E8
1.003E8
16762748.823
城镇居民人均总收入
36970857.207
8345411.101
1.003E8
31877365.455
5444351.363
政府消费支出
5704313.183
11060870.150
16762748.823
5444351.363
3080129.790
a.总的协方差矩阵的自由度为27。
4.2判别分析结果总结
首先,对协方差矩阵的均等性进行箱式检验。
下表12为对数行列式表,该表包括各类别和合并组内的对应的秩和对数行列式:
表12对数行列式
G类别
秩
对数行列式
1
.a
.b
2
5
74.080
3
5
80.611
汇聚的组内
5
78.557
打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。
a.秩<3
b.案例太少无法形成非奇异矩阵
通过表13得出检验结果:
表13检验结果a
箱的M
79.900
F
近似。
3.083
df1
15
df2
339.325
Sig.
.000
对相等总体协方差矩阵的零假设进行检验。
a.有些协方差矩阵是奇异
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北航 数理统计 判别分析 作业