spss数据分析作业中国区域经济类型的聚类和判别分析.docx
- 文档编号:8828945
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:19
- 大小:113.53KB
spss数据分析作业中国区域经济类型的聚类和判别分析.docx
《spss数据分析作业中国区域经济类型的聚类和判别分析.docx》由会员分享,可在线阅读,更多相关《spss数据分析作业中国区域经济类型的聚类和判别分析.docx(19页珍藏版)》请在冰豆网上搜索。
spss数据分析作业中国区域经济类型的聚类和判别分析
应用数理统计(论文)
中国区域经济类型的聚类和判别分析
******
院系名称:
材料科学与工程
学号:
SY*******
******
2014年12月20日
摘要
区域经济发展的指标体系,包括人口总数、第一产业总产值、第二产业总产值、第三产业总产值、财政收入、社会消费品零售总额、货物进出口总额、平均工资、人均可支配收入和居民消费水平等。
本文主要通过系统类聚的方法,将全国31个省市(自治区)的2013年经济发展状况进行归类分析,得出全国区域经济发展水平的一些基本情况,并进行了相应的判别分析,为我国经济在快速发展的前提下,做好协调发展提供一些启示。
关键字:
区域经济聚类分析判别分析
1引言
在制定国民经济和社会发展规划时,通常需要按照行政区域进行经济类型的划分,这有助于对不同地区经济发展存在的差异进行宏观调控,从而因地制宜出台相应的经济政策,促进各地区经济的协调发展,为国民经济持续协调健康发展奠定了坚实基础。
明确当前我国发达地区和落后地区的区间格局,对于进一步的研究和分析我国各区域间经济发展的状况,并探求切实可行的区域协调发展政策以实现我国经济的可持续发展有着极为重要的现实意义。
在多元统计分析中,常常使用聚类分析和判别分析来解决样本的分类问题。
在事先并不知道应将样品或指标分为几类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类;而在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。
本文试图通过聚类分析的方法,分析2013年中国31个省市(区域)经济发展发展状况和差异情况,从中寻找一些有用的信息,提出对我国经济如何在快速发展的基础上,做到协调发展的一些思考。
本文采用多元统计分析方法,对我国区域经济发展指标进行聚类分析,客观地反映当前各地区的经济类型。
2数据收集
1
2
分区指标是表征分区单位的特征因子,它的确定合理与否是分区成败的关键。
由于经济是与科技以及人民生活状况等因素直接联系的,为反映全国经济系统的全貌,评价或分析系统时必须充分考虑这三个方面的水平和状态,这是本文选择指标的理论依据,实际选择指标时还要考虑指标与目标的一致性和取得指标数据的可能性。
本文选取2013年大陆31省市的10项与经济相关的指标来衡量一个地区的经济发展水平:
人口总数(万人)、第一产业总产值(亿元)、第二产业总产值(亿元)、第三产业总产值(亿元)、财政收入(亿元)、社会消费品零售总额(亿元)、货物进出口总额(亿元)、平均工资(元)、人均可支配收入(元)和居民消费水平(元)。
上述数据来源于《中国统计年鉴2014》,如表2.1所示。
选取33个省市作为聚类的变量。
表2.1数据收集
地区
国内生产总值(亿元)
总人口(万人)
在岗职工平均工资(元)
社会商品零售总额(亿元)
货物进出口总额(百万美元)
北京
21330.83
1333.4
103400
9638
415538.1
天津
15726.93
1016.66
73839
4738.7
160846.6
太原
2531.09
369.74
57771
1450.2
10671.05
呼和浩特
2894.05
237.88
50469
1256.1
2195
沈阳
7098.71
730.84
56590
3570.1
15800.29
长春
5342.43
754.55
56977
2217.5
20728.75
哈尔滨
5340.07
987.29
51554
3070.9
6807.96
上海
23567.7
1438.69
100623
9303.5
466622.3
南京
8820.75
648.72
77286
4167.2
57220.77
杭州
9206.16
715.76
70823
4201.5
67997.75
宁波
7610.28
583.78
70228
2992
104704.1
合肥
5157.97
712.81
59648
1666.8
20087
福州
5169.16
674.94
58838
3062.9
34663.17
厦门
3273.58
203.44
63062
1072.3
83553.11
南昌
3667.96
517.73
51848
1304.9
12226.43
济南
5770.6
621.61
62323
3087.6
10500.14
青岛
8692.1
780.64
62097
3361.7
79888.33
郑州
6776.99
937.8
49756
2913.6
46430.9
武汉
10069.48
827.31
60624
4369.3
26428.87
长沙
7824.81
671.41
61847
3162.1
12561.3
广州
16706.87
842.42
74246
7144.5
130589.8
深圳
16001.82
332.21
73492
4844
487765
南宁
3148.3
729.66
54330
1616.9
4814.1
海口
1091.7
165.31
50653
541.3
3400.9
重庆
14262.6
3375.2
56852
5710.7
95450.24
成都
10056.59
1210.74
63201
4468.9
55844.39
昆明
3712.99
550.5
58153
1905.9
29394.32
拉萨
347.45
52.73
72468
180.3
2076.29
西安
5492.64
815.29
54098
3093.9
24982.97
兰州
2000.94
374.67
54008
944.9
4556.49
西宁
1065.78
202.64
54914
414.1
1596.74
银川
1388.62
196
59080
382.5
4500
乌鲁木齐
2461.47
266.91
61617
1070
8284.58
表2.1数据收集
省份
社会消费品零售总额(亿元)
货物进出口总额(亿元)
平均工资(元)
人均可支配收入(元)
居民消费水平(元)
北京
8375.1
42899581
93006
40321.0
33337
天津
4470.4
12850179
67773
32293.6
26261
河北
10516.7
5491157
41501
22580.3
11557
山西
5139.3
1579098
46407
22455.6
12078
内蒙古
5114.2
1199457
50723
25496.7
17168
辽宁
10581.4
11447819
45505
25578.2
20156
吉林
5426.4
2583174
42846
22274.6
13676
黑龙江
6251.2
3887909
40794
19597.0
12978
上海
8052.0
44126822
90908
43851.4
39223
江苏
20796.5
55080227
57177
32537.5
23585
浙江
15225.5
33578871
56571
37850.8
24771
安徽
6542.4
4551897
47806
23114.2
11618
福建
8275.3
16932090
48538
30816.4
17115
江西
4576.1
3674663
42473
21872.7
11910
山东
22294.8
26653153
46998
28264.1
16728
河南
12426.6
5995687
38301
22398.0
11782
湖北
10885.9
3638008
43899
22906.4
13912
湖南
9018.6
2517531
42726
23414.0
12920
广东
25453.9
109158144
53318
33090.0
23739
广西
5133.1
3282750
41391
23305.4
11710
海南
992.9
1498543
44971
22928.9
11712
重庆
4599.8
6869216
50006
25216.1
15270
四川
10561.4
6457466
47965
22367.6
12485
贵州
2366.2
829010
47364
20667.1
9541
云南
4004.6
2530356
42447
23235.5
11224
西藏
293.2
331941
57773
20023.4
6275
陕西
4999.5
2012806
47446
22858.4
13206
甘肃
2173.8
1023611
42833
18964.8
9616
青海
544.1
140274
51393
19498.5
12070
宁夏
610.5
321769
50476
21833.3
13537
新疆
2108.2
2756139
49064
19873.8
11401
3聚类分析
1
2
3
3.1聚类分析概述
聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。
研究怎样对事物进行合理分类(归类)的统计方法称为聚类分析。
依据分类对象的不同可以把聚类分析再分成Q型聚类和R型聚类,Q型聚类是指对样品进行聚类,R型聚类是指对变量进行聚类。
聚类分析的基本原理是把某种性质相似的对象归于同一类,而不同类的之间则存在较大差异。
为此,首先要能刻画各个变量之间或者各个样本点之间的相似性。
Q聚类一般使用“距离”度量样本点之间的相似性,定义样本点之间的距离可以采用欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等测度。
R聚类则使用“相似系数”作为变量相似性的度量。
定义各变量之间的相似系数则多采用样本相关系数、夹角余弦等测度。
聚类分析包括很多种方法,包括系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,不同的方法适合解决不同类型的问题,本文中使用的为系统聚类法。
系统聚类法是最常用的一种聚类方法,初始时要先把要归类的n个对象各自视为一类,然后逐渐把关系最密切的两个类合并成一个新类,知道最后把n个对象都归为一类时停止。
这种聚类过程可以用一张聚类谱系图形象的展示出来。
由于系统聚类时要把两个“最接近”的类合并到一起构成一个新类,这是还需要规定类与类之间的相似性测度,常用的方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平法和。
3.2聚类分析过程及结果输出
用SPSS程序中的聚类分析进行分类计算。
聚类方法使用Ward,所用的距离种类选择欧氏平方距离以两变量差值平方和为距离,即两观察单位间的距离为其值差的平方和。
标准化选择Z得分。
对33各省市进行聚类处理,结果汇总如下:
表3.1表示所有观测量都加入聚类分析,没有遗漏。
表3.1个案处理摘要a
个案
有效
缺失
总计
个案数
百分比
个案数
百分比
个案数
百分比
33
100.0%
0
0.0%
33
100.0%
a.平方欧氏距离使用中
表3.2聚类表
阶段
组合聚类
系数
首次出现聚类的阶段
下一个阶段
聚类1
聚类2
聚类1
聚类2
1
6
12
.107
0
0
6
2
31
32
.113
0
0
14
3
13
16
.131
0
0
9
4
3
30
.147
0
0
12
5
7
29
.148
0
0
10
6
6
27
.199
1
0
15
7
15
23
.199
0
0
15
8
4
24
.203
0
0
18
9
13
20
.212
3
0
11
10
7
18
.215
5
0
21
11
5
13
.262
0
9
20
12
3
33
.280
4
0
14
13
9
10
.288
0
0
19
14
3
31
.308
12
2
18
15
6
15
.386
6
7
21
16
1
8
.403
0
0
32
17
17
19
.433
0
0
20
18
3
4
.480
14
8
22
19
9
11
.617
13
0
25
20
5
17
.649
11
17
23
21
6
7
.892
15
10
23
22
3
14
.958
18
0
26
23
5
6
1.149
20
21
27
24
2
21
1.233
0
0
29
25
9
26
1.848
19
0
27
26
3
28
2.152
22
0
28
27
5
9
2.634
23
25
28
28
3
5
3.477
26
27
30
29
2
22
8.610
24
0
30
30
2
3
13.370
29
28
31
31
2
25
28.727
30
0
32
32
1
2
40.125
16
31
0
表3.2为分层聚类分析的聚类过程表。
表中第一列表示聚类分析的步骤,第二列和第三列表示该步聚类分析中,哪两个样本聚成了一类;如:
第一步是第6个变量和第12个变量进行聚类,第二步是第31个变量和第32个变量进行聚类,以此类推,聚类过程共进行了32步,所有的样本聚成了一大类。
第四列表示两个样本间的距离系数,从表中可以看出,距离小的样本之间先聚类;第五和第六列表示某步聚类分析中,参与聚类的是样本还是类,0则表示样本,数字n(非零)表示第n步聚类产生的类参与了本步聚类;第七列表示本步聚类结果在下面聚类的第几步中用到。
图3.1为系统聚类的冰柱图,图的纵坐标表示聚类的数目,从图最下方看起,从32类,逐渐到20类、15类、最后聚成一个大类。
首先是合肥和昆明聚成一类,其余变量各为一类。
第二步将兰州和乌鲁木齐聚成另一类中,以此类推,最后所有变量聚成了一个大类。
该图相较而言更为直观的显示了聚类过程。
图3.1系统聚类的冰柱图
图3.2Ward联结的树状图
图3.2为Ward联结的树状图,该图比冰柱图更容易看出分类状况,并且分析结果与聚类表和聚类冰柱图的分析结果是一致的。
通过比较,选择四群集,即将变量分成四类,如表3.3所示。
表3.3Ward联结的树状图
案例
区域群集
1:
北京
1
2:
天津
2
3:
河北
3
4:
山西
3
5:
内蒙古
3
6:
辽宁
3
7:
吉林
3
8:
黑龙江
1
9:
江苏
3
10:
浙江
3
11:
安徽
3
12:
福建
3
13:
江西
3
14:
河南
3
15:
湖北
3
16:
广东
3
17:
广西
3
18:
海南
3
19:
重庆
3
20:
四川
3
21:
云南
2
22:
西藏
2
23:
甘肃
3
24:
青海
3
25:
宁夏
4
26:
新疆
3
27:
上海
3
3.3讨论
北京是我国的首都,属于我国政治经济文化中心,而上海是我国的第一大城市,属于经济龙头,无论是经济发展水平还是科技文化教育的实力在我国都是领先的,因此这两者分在一类(第一类)。
而广东、江苏作为沿海开放的省份,外商投资多,经济实力相当雄厚,所以分为一类(第四类);相比之下,天津、河北、辽宁、浙江、福建、河南、湖北、四川这几个省份,福建、辽宁、天津、浙江、河北作为沿海省份,在经济上稍逊于前两个类,但辽宁作为我国的重工业发展基地,福建紧靠台湾,近两年沿海交流加深,浙江近几年由于引进外资以及小商品行业的发展,经济实力迅猛提高,而天津与河北则处在紧邻北京的优势地理位置上,河南、湖北与四川则各自有着自己的优势,因此划分为一类(第二类),其余划分为第三类,这些省份主要集中在我国的西部和中部内陆,与前面类别中的省份存在一定的差异。
4判别分析
4.1判别分析概述
判别分析是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。
它是判别样品所属类型的一种统计方法。
其主要原理是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线形关系式),然后利用该函数去判断未知样品属于哪一类。
因而是个学习和预测的过程。
我们常用的判别分析方法有距离判别法、费歇尔判别法和贝叶斯判别法等。
4.2判别分析过程及结果输出
选取27个省份的数据与其对应的类别作为已知分类,湖南、贵州、山东、陕西作为带分类变量进行判别分析,定义分类结果为变量“分组类别”,采用自变量全进入模型来进行判别分析,因此分类结果变量的取值范围为1~4。
输出结果如下所示:
表4.1分析案例处理摘要表
未加权个案数
个案数
百分比
有效
33
100.0
排除
缺失或超出范围组代码
0
.0
至少一个缺失判别变量
0
.0
既包括缺失或超出范围组代码,也包括至少一个缺失判别变量
0
.0
总计
0
.0
总计
33
100.0
表4.1为分析案例处理摘要表,表明一共有33条记录,已分好类的有33条,还有0条需要进行分类。
表4.2为特征值表。
由于本文中的预测变量有四个,类别数也为4个,因此判别函数的个数应为4。
判别函数的特征值越大,表明该函数越具有区别力。
从表中可以得到不同函数的特征值。
表4.2特征值表表
函数
特征值
方差百分比
累计百分比
典型相关性
1
8.683a
52.4
52.4
.947
2
6.777a
40.9
93.4
.933
3
1.098a
6.6
100.0
.723
a.在分析中使用了前3个典则判别函数。
表4.3判别函数显著性检验
函数检验
威尔克Lambda
卡方
自由度
显著性
1直至3
.006
139.224
15
.000
2直至3
.061
76.787
8
.000
3
.477
20.379
3
.000
表4.3为判别函数的显著性检验结果表,从Sig.值来看,三个判别函数的效果是显著的。
表4.4标准化典型判别式函数系数
函数
1
2
3
国内生产总值(亿元)
-1.572
.843
-2.949
总人口(万人)
2.066
-.569
.118
在岗职工平均工资(元)
.637
.175
.600
社会商品零售总额(亿元)
-.178
.103
2.416
货物进出口总额(百万美元)
.740
.412
.433
表4.4为标准化典型判别式函数系数,即标准化的Fisher判别函数系数,由该表可以得到三个Fisher判别函数,将标准化的变量代入该函数计算可以得到各观测值的具体空间位置。
表4.5组重心Fisher判别函数值
AverageLinkage(BetweenGroups)
函数
1
2
3
1
3.631
7.317
2.148
2
-1.919
4.391
-2.462
3
-.586
-.920
.184
4
14.322
-2.962
-1.876
表4.5为各类别重心在空间中的坐标位置,故若将个观测值代入前一个表格得到的判别函数中得到具体坐标位置后,即可计算其与各类别重心的距离,从而得到分类。
表4.6分类函数系数
AverageLinkage(BetweenGroups)
1
2
3
4
国内生产总值(亿元)
-.007
4.502E-5
-.005
-.012
总人口(万人)
.066
.030
.051
.160
在岗职工平均工资(元)
.003
.002
.002
.003
社会商品零售总额(亿元)
.003
-.005
-.001
-.007
货物进出口总额(百万美元)
.000
5.382E-5
5.286E-5
.000
(常量)
-168.887
-75.669
-66.403
-271.508
表4.6为Bayes判别函数系数,可以得到四个Bayes判别函数,将观测值代入该函数,可以得到四个函数值,通过比较函数值的大小即可判断该样品判入哪一类。
下图为典型判别函数图,从该图可以直观的看出各类别的分布。
图4.1典型判别函数图
4.3讨论
通过一系列的计算,可以得到如表4.7的分类结果矩阵,由表可知原已分类案例的判别回报率为100%,说明判别正确率非常高。
同时,从表中还可以得出待分类的四个案例中,有两个被分到了第一类,有三个被分到了第二类,有27个被分到了第三类,有一个被分到了第四类。
表4.7分类结果矩阵
AverageLinkage(BetweenGroups)
预测组成员信息
1
2
3
4
原始
计数
1
2
0
0
0
2
0
3
0
0
3
0
0
27
0
4
0
0
0
1
%
1
100.0
.0
.0
.0
2
.0
100.0
.0
.0
3
.0
.0
100.0
.0
4
.0
.0
.0
100.0
5结论
采用聚类分析和判别分析,本文对全国31个省及直辖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 数据 分析 作业 中国 区域经济 类型 判别分析