书签分享收藏举报版权申诉 / 19

立即下载加入VIP,免费下载

当前位置：首页 > 小学教育 > 小升初 > spss数据分析作业中国区域经济类型的聚类和判别分析.docx

spss数据分析作业中国区域经济类型的聚类和判别分析.docx

文档编号：8828945
上传时间：2023-02-02
格式：DOCX
页数：19
大小：113.53KB

《spss数据分析作业中国区域经济类型的聚类和判别分析.docx》由会员分享，可在线阅读，更多相关《spss数据分析作业中国区域经济类型的聚类和判别分析.docx（19页珍藏版）》请在冰豆网上搜索。

spss数据分析作业中国区域经济类型的聚类和判别分析.docx

spss数据分析作业中国区域经济类型的聚类和判别分析

应用数理统计（论文）

中国区域经济类型的聚类和判别分析

******

院系名称：

材料科学与工程

学号：

SY*******

******

2014年12月20日

摘要

区域经济发展的指标体系，包括人口总数、第一产业总产值、第二产业总产值、第三产业总产值、财政收入、社会消费品零售总额、货物进出口总额、平均工资、人均可支配收入和居民消费水平等。

本文主要通过系统类聚的方法，将全国31个省市（自治区）的2013年经济发展状况进行归类分析，得出全国区域经济发展水平的一些基本情况，并进行了相应的判别分析，为我国经济在快速发展的前提下，做好协调发展提供一些启示。

关键字：

区域经济聚类分析判别分析

1引言

在制定国民经济和社会发展规划时，通常需要按照行政区域进行经济类型的划分，这有助于对不同地区经济发展存在的差异进行宏观调控，从而因地制宜出台相应的经济政策，促进各地区经济的协调发展，为国民经济持续协调健康发展奠定了坚实基础。

明确当前我国发达地区和落后地区的区间格局,对于进一步的研究和分析我国各区域间经济发展的状况，并探求切实可行的区域协调发展政策以实现我国经济的可持续发展有着极为重要的现实意义。

在多元统计分析中,常常使用聚类分析和判别分析来解决样本的分类问题。

在事先并不知道应将样品或指标分为几类的情况下，可以使用聚类分析根据样本或指标的相似程度，将样本或指标归组分类；而在事先已经建立了样品分类，需要将新样本归入到已知分类的样本组中时，就可以使用判别分析。

本文试图通过聚类分析的方法，分析2013年中国31个省市（区域）经济发展发展状况和差异情况，从中寻找一些有用的信息，提出对我国经济如何在快速发展的基础上，做到协调发展的一些思考。

本文采用多元统计分析方法，对我国区域经济发展指标进行聚类分析，客观地反映当前各地区的经济类型。

2数据收集

1

2

分区指标是表征分区单位的特征因子，它的确定合理与否是分区成败的关键。

由于经济是与科技以及人民生活状况等因素直接联系的，为反映全国经济系统的全貌，评价或分析系统时必须充分考虑这三个方面的水平和状态，这是本文选择指标的理论依据，实际选择指标时还要考虑指标与目标的一致性和取得指标数据的可能性。

本文选取2013年大陆31省市的10项与经济相关的指标来衡量一个地区的经济发展水平：

人口总数（万人）、第一产业总产值（亿元）、第二产业总产值（亿元）、第三产业总产值（亿元）、财政收入（亿元）、社会消费品零售总额（亿元）、货物进出口总额（亿元）、平均工资（元）、人均可支配收入（元）和居民消费水平（元）。

上述数据来源于《中国统计年鉴2014》，如表2.1所示。

选取33个省市作为聚类的变量。

表2.1数据收集

地区

国内生产总值（亿元）

总人口（万人）

在岗职工平均工资（元）

社会商品零售总额（亿元）

货物进出口总额（百万美元）

北京

21330.83

1333.4

103400

9638

415538.1

天津

15726.93

1016.66

73839

4738.7

160846.6

太原

2531.09

369.74

57771

1450.2

10671.05

呼和浩特

2894.05

237.88

50469

1256.1

2195

沈阳

7098.71

730.84

56590

3570.1

15800.29

长春

5342.43

754.55

56977

2217.5

20728.75

哈尔滨

5340.07

987.29

51554

3070.9

6807.96

上海

23567.7

1438.69

100623

9303.5

466622.3

南京

8820.75

648.72

77286

4167.2

57220.77

杭州

9206.16

715.76

70823

4201.5

67997.75

宁波

7610.28

583.78

70228

2992

104704.1

合肥

5157.97

712.81

59648

1666.8

20087

福州

5169.16

674.94

58838

3062.9

34663.17

厦门

3273.58

203.44

63062

1072.3

83553.11

南昌

3667.96

517.73

51848

1304.9

12226.43

济南

5770.6

621.61

62323

3087.6

10500.14

青岛

8692.1

780.64

62097

3361.7

79888.33

郑州

6776.99

937.8

49756

2913.6

46430.9

武汉

10069.48

827.31

60624

4369.3

26428.87

长沙

7824.81

671.41

61847

3162.1

12561.3

广州

16706.87

842.42

74246

7144.5

130589.8

深圳

16001.82

332.21

73492

4844

487765

南宁

3148.3

729.66

54330

1616.9

4814.1

海口

1091.7

165.31

50653

541.3

3400.9

重庆

14262.6

3375.2

56852

5710.7

95450.24

成都

10056.59

1210.74

63201

4468.9

55844.39

昆明

3712.99

550.5

58153

1905.9

29394.32

拉萨

347.45

52.73

72468

180.3

2076.29

西安

5492.64

815.29

54098

3093.9

24982.97

兰州

2000.94

374.67

54008

944.9

4556.49

西宁

1065.78

202.64

54914

414.1

1596.74

银川

1388.62

196

59080

382.5

4500

乌鲁木齐

2461.47

266.91

61617

1070

8284.58

表2.1数据收集

省份

社会消费品零售总额（亿元）

货物进出口总额（亿元）

平均工资（元）

人均可支配收入（元）

居民消费水平（元）

北京

8375.1

42899581

93006

40321.0

33337

天津

4470.4

12850179

67773

32293.6

26261

河北

10516.7

5491157

41501

22580.3

11557

山西

5139.3

1579098

46407

22455.6

12078

内蒙古

5114.2

1199457

50723

25496.7

17168

辽宁

10581.4

11447819

45505

25578.2

20156

吉林

5426.4

2583174

42846

22274.6

13676

黑龙江

6251.2

3887909

40794

19597.0

12978

上海

8052.0

44126822

90908

43851.4

39223

江苏

20796.5

55080227

57177

32537.5

23585

浙江

15225.5

33578871

56571

37850.8

24771

安徽

6542.4

4551897

47806

23114.2

11618

福建

8275.3

16932090

48538

30816.4

17115

江西

4576.1

3674663

42473

21872.7

11910

山东

22294.8

26653153

46998

28264.1

16728

河南

12426.6

5995687

38301

22398.0

11782

湖北

10885.9

3638008

43899

22906.4

13912

湖南

9018.6

2517531

42726

23414.0

12920

广东

25453.9

109158144

53318

33090.0

23739

广西

5133.1

3282750

41391

23305.4

11710

海南

992.9

1498543

44971

22928.9

11712

重庆

4599.8

6869216

50006

25216.1

15270

四川

10561.4

6457466

47965

22367.6

12485

贵州

2366.2

829010

47364

20667.1

9541

云南

4004.6

2530356

42447

23235.5

11224

西藏

293.2

331941

57773

20023.4

6275

陕西

4999.5

2012806

47446

22858.4

13206

甘肃

2173.8

1023611

42833

18964.8

9616

青海

544.1

140274

51393

19498.5

12070

宁夏

610.5

321769

50476

21833.3

13537

新疆

2108.2

2756139

49064

19873.8

11401

3聚类分析

1

2

3

3.1聚类分析概述

聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性，于是根据一批样品的多个观测指标，找出能够度量样品或变量之间相似程度的统计量，并以此为依据，采用某种聚类法，将所有的样品或变量分别聚合到不同的类中，使同一类中的个体有较大的相似性，不同类中的个体差异较大。

研究怎样对事物进行合理分类（归类）的统计方法称为聚类分析。

依据分类对象的不同可以把聚类分析再分成Q型聚类和R型聚类，Q型聚类是指对样品进行聚类，R型聚类是指对变量进行聚类。

聚类分析的基本原理是把某种性质相似的对象归于同一类，而不同类的之间则存在较大差异。

为此，首先要能刻画各个变量之间或者各个样本点之间的相似性。

Q聚类一般使用“距离”度量样本点之间的相似性，定义样本点之间的距离可以采用欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等测度。

R聚类则使用“相似系数”作为变量相似性的度量。

定义各变量之间的相似系数则多采用样本相关系数、夹角余弦等测度。

聚类分析包括很多种方法，包括系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等，不同的方法适合解决不同类型的问题，本文中使用的为系统聚类法。

系统聚类法是最常用的一种聚类方法，初始时要先把要归类的n个对象各自视为一类，然后逐渐把关系最密切的两个类合并成一个新类，知道最后把n个对象都归为一类时停止。

这种聚类过程可以用一张聚类谱系图形象的展示出来。

由于系统聚类时要把两个“最接近”的类合并到一起构成一个新类，这是还需要规定类与类之间的相似性测度，常用的方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平法和。

3.2聚类分析过程及结果输出

用SPSS程序中的聚类分析进行分类计算。

聚类方法使用Ward，所用的距离种类选择欧氏平方距离以两变量差值平方和为距离，即两观察单位间的距离为其值差的平方和。

标准化选择Z得分。

对33各省市进行聚类处理，结果汇总如下：

表3.1表示所有观测量都加入聚类分析，没有遗漏。

表3.1个案处理摘要a

个案

有效

缺失

总计

个案数

百分比

个案数

百分比

个案数

百分比

33

100.0%

0

0.0%

33

100.0%

a.平方欧氏距离使用中

表3.2聚类表

阶段

组合聚类

系数

首次出现聚类的阶段

下一个阶段

聚类1

聚类2

聚类1

聚类2

1

6

12

.107

0

6

2

31

32

.113

0

14

3

13

16

.131

0

9

4

3

30

.147

0

12

5

7

29

.148

0

10

6

27

.199

1

0

15

7

15

23

.199

0

15

8

4

24

.203

0

18

9

13

20

.212

3

0

11

10

7

18

.215

5

0

21

11

5

13

.262

0

9

20

12

3

33

.280

4

0

14

13

9

10

.288

0

19

14

3

31

.308

12

2

18

15

6

15

.386

6

7

21

16

1

8

.403

0

32

17

19

.433

0

20

18

3

4

.480

14

8

22

19

9

11

.617

13

0

25

20

5

17

.649

11

17

23

21

6

7

.892

15

10

23

22

3

14

.958

18

0

26

23

5

6

1.149

20

21

27

24

2

21

1.233

0

29

25

9

26

1.848

19

0

27

26

3

28

2.152

22

0

28

27

5

9

2.634

23

25

28

3

5

3.477

26

27

30

29

2

22

8.610

24

0

30

2

3

13.370

29

28

31

2

25

28.727

30

0

32

1

2

40.125

16

31

0

表3.2为分层聚类分析的聚类过程表。

表中第一列表示聚类分析的步骤，第二列和第三列表示该步聚类分析中，哪两个样本聚成了一类；如：

第一步是第6个变量和第12个变量进行聚类，第二步是第31个变量和第32个变量进行聚类，以此类推，聚类过程共进行了32步，所有的样本聚成了一大类。

第四列表示两个样本间的距离系数，从表中可以看出，距离小的样本之间先聚类；第五和第六列表示某步聚类分析中，参与聚类的是样本还是类，0则表示样本，数字n（非零）表示第n步聚类产生的类参与了本步聚类；第七列表示本步聚类结果在下面聚类的第几步中用到。

图3.1为系统聚类的冰柱图，图的纵坐标表示聚类的数目，从图最下方看起，从32类，逐渐到20类、15类、最后聚成一个大类。

首先是合肥和昆明聚成一类，其余变量各为一类。

第二步将兰州和乌鲁木齐聚成另一类中，以此类推，最后所有变量聚成了一个大类。

该图相较而言更为直观的显示了聚类过程。

图3.1系统聚类的冰柱图

图3.2Ward联结的树状图

图3.2为Ward联结的树状图，该图比冰柱图更容易看出分类状况，并且分析结果与聚类表和聚类冰柱图的分析结果是一致的。

通过比较，选择四群集，即将变量分成四类，如表3.3所示。

表3.3Ward联结的树状图

案例

区域群集

1:

北京

1

2:

天津

2

3:

河北

3

4:

山西

3

5:

内蒙古

3

6:

辽宁

3

7:

吉林

3

8:

黑龙江

1

9:

江苏

3

10:

浙江

3

11:

安徽

3

12:

福建

3

13:

江西

3

14:

河南

3

15:

湖北

3

16:

广东

3

17:

广西

3

18:

海南

3

19:

重庆

3

20:

四川

3

21:

云南

2

22:

西藏

2

23:

甘肃

3

24:

青海

3

25:

宁夏

4

26:

新疆

3

27:

上海

3

3.3讨论

北京是我国的首都，属于我国政治经济文化中心，而上海是我国的第一大城市，属于经济龙头，无论是经济发展水平还是科技文化教育的实力在我国都是领先的，因此这两者分在一类（第一类）。

而广东、江苏作为沿海开放的省份，外商投资多，经济实力相当雄厚，所以分为一类（第四类）；相比之下，天津、河北、辽宁、浙江、福建、河南、湖北、四川这几个省份，福建、辽宁、天津、浙江、河北作为沿海省份，在经济上稍逊于前两个类，但辽宁作为我国的重工业发展基地，福建紧靠台湾，近两年沿海交流加深，浙江近几年由于引进外资以及小商品行业的发展，经济实力迅猛提高，而天津与河北则处在紧邻北京的优势地理位置上，河南、湖北与四川则各自有着自己的优势，因此划分为一类（第二类），其余划分为第三类，这些省份主要集中在我国的西部和中部内陆，与前面类别中的省份存在一定的差异。

4判别分析

4.1判别分析概述

判别分析是在已知分类数目的情况下，根据一定的指标对不知类别的数据进行归类。

它是判别样品所属类型的一种统计方法。

其主要原理是利用原有的分类信息，得到体现这种分类的函数关系式（称之为判别函数，一般是与分类相关的若干个指标的线形关系式），然后利用该函数去判断未知样品属于哪一类。

因而是个学习和预测的过程。

我们常用的判别分析方法有距离判别法、费歇尔判别法和贝叶斯判别法等。

4.2判别分析过程及结果输出

选取27个省份的数据与其对应的类别作为已知分类，湖南、贵州、山东、陕西作为带分类变量进行判别分析，定义分类结果为变量“分组类别”，采用自变量全进入模型来进行判别分析，因此分类结果变量的取值范围为1~4。

输出结果如下所示：

表4.1分析案例处理摘要表

未加权个案数

个案数

百分比

有效

33

100.0

排除

缺失或超出范围组代码

0

.0

至少一个缺失判别变量

0

.0

既包括缺失或超出范围组代码，也包括至少一个缺失判别变量

0

.0

总计

0

.0

总计

33

100.0

表4.1为分析案例处理摘要表，表明一共有33条记录，已分好类的有33条，还有0条需要进行分类。

表4.2为特征值表。

由于本文中的预测变量有四个，类别数也为4个，因此判别函数的个数应为4。

判别函数的特征值越大，表明该函数越具有区别力。

从表中可以得到不同函数的特征值。

表4.2特征值表表

函数

特征值

方差百分比

累计百分比

典型相关性

1

8.683a

52.4

.947

2

6.777a

40.9

93.4

.933

3

1.098a

6.6

100.0

.723

a.在分析中使用了前3个典则判别函数。

表4.3判别函数显著性检验

函数检验

威尔克Lambda

卡方

自由度

显著性

1直至3

.006

139.224

15

.000

2直至3

.061

76.787

8

.000

3

.477

20.379

3

.000

表4.3为判别函数的显著性检验结果表，从Sig.值来看，三个判别函数的效果是显著的。

表4.4标准化典型判别式函数系数

函数

1

2

3

国内生产总值（亿元）

-1.572

.843

-2.949

总人口（万人）

2.066

-.569

.118

在岗职工平均工资（元）

.637

.175

.600

社会商品零售总额（亿元）

-.178

.103

2.416

货物进出口总额（百万美元）

.740

.412

.433

表4.4为标准化典型判别式函数系数，即标准化的Fisher判别函数系数，由该表可以得到三个Fisher判别函数，将标准化的变量代入该函数计算可以得到各观测值的具体空间位置。

表4.5组重心Fisher判别函数值

AverageLinkage（BetweenGroups）

函数

1

2

3

1

3.631

7.317

2.148

2

-1.919

4.391

-2.462

3

-.586

-.920

.184

4

14.322

-2.962

-1.876

表4.5为各类别重心在空间中的坐标位置，故若将个观测值代入前一个表格得到的判别函数中得到具体坐标位置后，即可计算其与各类别重心的距离，从而得到分类。

表4.6分类函数系数

AverageLinkage（BetweenGroups）

1

2

3

4

国内生产总值（亿元）

-.007

4.502E-5

-.005

-.012

总人口（万人）

.066

.030

.051

.160

在岗职工平均工资（元）

.003

.002

.003

社会商品零售总额（亿元）

.003

-.005

-.001

-.007

货物进出口总额（百万美元）

.000

5.382E-5

5.286E-5

.000

（常量）

-168.887

-75.669

-66.403

-271.508

表4.6为Bayes判别函数系数，可以得到四个Bayes判别函数，将观测值代入该函数，可以得到四个函数值，通过比较函数值的大小即可判断该样品判入哪一类。

下图为典型判别函数图，从该图可以直观的看出各类别的分布。

图4.1典型判别函数图

4.3讨论

通过一系列的计算，可以得到如表4.7的分类结果矩阵，由表可知原已分类案例的判别回报率为100%，说明判别正确率非常高。

同时，从表中还可以得出待分类的四个案例中，有两个被分到了第一类，有三个被分到了第二类，有27个被分到了第三类，有一个被分到了第四类。

表4.7分类结果矩阵

AverageLinkage（BetweenGroups）

预测组成员信息

1

2

3

4

原始

计数

1

2

0

2

0

3

0

3

0

27

0

4

0

1

%

1

100.0

.0

2

.0

100.0

.0

3

.0

100.0

.0

4

.0

100.0

5结论

采用聚类分析和判别分析，本文对全国31个省及直辖

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: spss 数据分析作业中国区域经济类型判别分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：spss数据分析作业中国区域经济类型的聚类和判别分析.docx
链接地址：https://www.bdocx.com/doc/8828945.html

spss数据分析作业中国区域经济类型的聚类和判别分析.docx

热门标签