我国各地区经济发展的统计分析.docx
- 文档编号:6302114
- 上传时间:2023-01-05
- 格式:DOCX
- 页数:23
- 大小:93.69KB
我国各地区经济发展的统计分析.docx
《我国各地区经济发展的统计分析.docx》由会员分享,可在线阅读,更多相关《我国各地区经济发展的统计分析.docx(23页珍藏版)》请在冰豆网上搜索。
我国各地区经济发展的统计分析
多元统计分析
课程设计
题目
我国各地区经济发展的统计分析
学院:
理学院
专业:
统计学
学号:
姓名:
指导老师:
2013-4-25
摘要:
采用因子分析的思想和聚类分析方法对2011年我国内地31个省、市、自治区的20项社会经济发展指标数据进行主成分因子分析,提取2个综合因子,累积贡献率达87.689%再计算综合得分,并对我国内地各地区的经济给出综合排名,最后对各地区经济进行聚类分析,将31个省市分为4类,分析其结果。
在评价结果的基础上,对我国内地各地区经济的发展,科学规划产业布局,优化产业结构等方面提出了相应的政策建议。
关键词:
因子分析;聚类分析;综合得分;经济排名
0引言
衡量一个省(自治区或直辖市)经济发展的基本状况,应该从多方面比如从该省(自治区或直辖市)的工业生产总值、固定资产投资、居民消费水平、进出口等指标去考察。
而由于这些指标都是对经济发展基本状况的反映,它们自身之间就存在着较强的相关性,这样在用这些指标反映经济发展状况时就造成了信息的大量重叠,这种信息的大量重叠有时甚至会抹杀经济发展状况的内在规律,所以如果能找到一组较少的但却包含着较多信息量的变量来研究这个问题,就更容易使人抓住主要矛盾,同时使问题得到简化。
因子分析正是解决这样问题的有效方法。
本文就是先运用因子分析方法,对20011年全国内地31个省、市、自治区选取影响经济发展的20项指标进行分析,提取了2个综合因子,再用这2个综合因子进行分析,从而使复杂的问题得以简化。
在运用聚类分析(快速聚类)将20个指标进行
分成4类,即将各地区的经济强弱分成4类分析,在给出对应的分类。
选取的20项指标分别为:
农、林、牧、渔业总产值(亿元);地区生产总值(亿元);粮食产量(万公斤);居民消费水平(万元);进出口(万美元);最终消费支出(亿元);财政收入(亿元);支出财政(亿元);人口(万人);城乡居民人民币储蓄存款(亿元);国有企业工业总产值(亿元);私营企业工业总产值(亿元);建筑业总产值(万元);客运量(万人);旅游收入(百万美元);教育经费(万元);城镇基本医疗保险参保人数(万人);公共图书馆个数医疗卫生机构床位(个);教职工人数(人)。
1、数据的分析
1.1数据的收集与整理
本文的数据的20指标均来自《中国统计年鉴2012》,由于20个数据都非常大,数据量多,因此对数据进行了提取,20指标的数据提取集中在一个表中,见附表1。
1.2指标的注释
(1)农、林、牧、渔业总产值:
指以货币表现的农、林、牧、渔业全部产品的总量,它反映一定时期内农业生产总规模和总成果。
也直接反映了各地区的经济
(2)地区生产总值:
地区生产总值是指本地区所有常住单位在一定时期内生产活动的最终成果。
(3)粮食产量:
包括稻谷、小麦、玉米、高粱、谷子及其他杂粮外的产量。
(4)居民消费水平:
居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。
(5)进出口:
国家(地区)与国家(地区)之间的贸易往来,进为购入,出为外销,进口和出口的综合。
(6)最终消费支出:
消费支出间接的反映了地区经济发展水平,且大小与经济大致成正比
(7)财政收入:
居民消费支出是指城乡居民个人和家庭用于生活消费以及集体用于个人消费的全部支出。
(8)财政支出:
通常是指国家或地区为实现其各种职能,由财政部门按照预算计划,将国家或地区集中的财政资金向有关部门和方面进行支付的活动,因此也称预算支出。
(9)人口:
人口是一个内容复杂、综合多种社会关系的社会实体,具有性别和年龄及自然构成,多种社会构成和社会关系、经济构成和经济关系。
城乡居民人民币储蓄存款:
储蓄存款指为居民个人积蓄货币资产和获取利息而设定的一种
(10)存款:
顾名思义存款数目的大小直接反应各地区经济的强弱。
(11)国有企业工业总产值:
即国有企业或国有控股企业的工业生产总值,是评定经济水平的一重要指标。
(12)私营企业工业总产值:
即私营或个体企业的工业生产总值
(13)建筑业总产值:
建筑业在一定时期内完成的以价值表现的生产总量,是反映建筑业生产成果的综合指标。
通过它可以了解建筑业的生产规模、发展速度、经营成果,并为国家制订经济建设计划提供依据
(14)客运量:
客运量指在一定时期内,各种运输工具实际运送旅客数量。
它是反映运输业为国民经济和人民生活服务的数量指标,也是制定和检查运输生产计划、研究运输发展规模和速度的重要指标。
(15)旅游收入:
旅游收入是指旅游接待部门(或国家、地区)在一定时期内通过销售旅游商品而获取的全部货币收入
(16)教育经费:
教育经费,是指中央和地方财政部门的财政预算中实际用于教育的费用。
各地区经济费用的大小间接反应了经济的强弱。
(17)城镇基本医疗保险参保人数:
城镇职工基本医疗保险是为补偿劳动者因疾病风险遭受经济损失而建立一项社会保险制度。
通过用人单位和个人缴费,建立医疗保险基金,参保人员患病就诊发生医疗费用后,与医疗保险经办机构给与一定的经济补偿,以避免或减轻劳动者因患病、治疗等所承受的经济风险。
(18)公共图书馆个数:
由国家中央或地方政府管理、资助和支持的、免费为社会公众服务的图书馆。
(19)机构床位:
这个指标间接的反应了各个地区医疗卫生的强度,而医疗强度近似与经济城正比,这样也间接的反应了经济的强度。
教职工人数:
教职工人数能反应该地区文化深度,一个地区的文化深度的大小间接的可以看出该地区经济又多强
2、因子分析模型的分析
2.1基本理论:
因子分析是一种用较少的综合变量来表达多个观测变量的多元统计分析方法。
它的基本思想是:
由相关性大小把变量分组,同组内的变量之间有较高的相关性,不同组的变量相关性较低。
它的基本目的是用少数几个综合变量(也称“综合因子”)去刻画较多变量之间的协方差关系,而各个综合变量之间是不相关的。
这样,在保证数据信息丢失最少的原则下,对高维变量空间做了降维处理,•因子分析的结果经常用于综合判定。
它的数学模型可表示如下:
Xi=aiiFi+9!
2尸2*■八+耳皿&+却
X^-a21F1a22F2a2mFm;2
Xp=apiF|•ap2F2apmFm*;p
其中,Xl,X2/Xp为p个原始变量,是均值为0,方差为1的标准化变量,Fl,F2/Fp为
m个综合因子变量,m小于p,j为因子载荷,表示的是第i个原始变量在第j个因子变量上的负荷,如果把变量Xi看成是m维因子空间中的一个向量,则-ij为Xi在坐标轴Fj上的投影,相当于多元回归中的标准回归系数,模型表示成矩阵形式为X=AF+E,其中X为原始变量向量,A为因子载荷矩阵,F为因子变量或公共因子,E二"e=a&由于残差E的影响可以忽略不记,这时数学模型就变为X=AF,因子分析的核心问题是构造因子变量,并对因子变量进行命名解释。
22具体问题的分析
本文对我国内地31个省、市、自治区经济发展的基本状况采取8个主要指标进行了主成分分析,由于多个指标量纲不同,数据缺少可比性,因此必须将原始数据标准化,使得
各个指标有可比性,做以下变换:
*xij_xj1n1n
x「.XjXij-J2〕(Xj-Xj)2
°j其中n7ny
令这样用得到的标准化数据做因子分析。
采用的统计软件是SPSS数据处理系统得到相关
系数阵表,及KMO和Bartlett的检验1和表2所示:
表120个指标的样本相关系数阵(部分)
农、林、牧、
渔业总产值
地区生产总值
粮食产量
居民消费水平(
进出口
农、林、牧、渔业总产值
1.000
.744
.812
.677
.164
地区生产总值
.744
1.000
.433
.971
.685
粮食产量
.812
.433
1.000
.353
-.116
居民消费水平
.677
.971
.353
1.000
.779
进出口
.164
.685
-.116
.779
1.000
表2
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
Bartlett的球形度近似卡方
检验df
Sig.
.744
1385.944
190
.000
利用因子分析有一个潜在的要求,即原始变量之间要有比较强的相关性,如果原始变量之间不存在较强的相关关系,那么就无法从中综合出共同特性的少数因子来。
因此,在作因子分析时,需要对原始变量做相关分析。
根据巴特利特球体检验,相伴概率(sig)为
0小于显著性性水平0.05,说明相关矩阵不是单位矩阵,适合做因子分析。
再根据KMO检验。
该检验的思想是比较变量之间的简单相关系数和时,KMO值接近1。
一般而言KMO
值越接近1时效果越好,0.5以下不适合做主成分分析。
这里KMO值为0.744比较好。
可以作因子分析。
由表二,我们取前2个因子,累积贡献率已经达到87.689,可见提取2个因子后,它们反映了原始变量的大部分信息,同时也起到了降维的作用。
表2旋转后的因子特征值、贡献率和累计贡献率
因子序号
特征值
贝献率(%累计贝献率(%
1
10.431
52.153
52.153
2
7.107
35.536
87.689
由表3可以看出,第
1个因子对前
18个指标起主要作用,
第2个因子对后2个起主要
作用。
因此可以把第1个因子看成是由钱18个指标所刻划的反映经济发展状况的综合指标,把第2个因子单独看成是后2个指标的影响。
这个结果是不太让人满意的。
6因为在第2
个因子中,最后2个变量对第1个因子的影响也是比较大的,这样,2个因子的实际意义解释就发生了相互重叠。
要克服这个缺点,使得每个原始变量代表的信息主要集中在某1
个因子中,就要将因子进行旋转,旋转后的因子载荷矩阵如表4。
表3公共因子成分矩阵
指标
成份
指标
成份
1
2
1
2
最终消费支岀(亿元)
0.984
-0.149
医疗卫生机构床位(个)
0.881
0.438
教育经费(万元)
0.984
-0.034
教职工人数(人)
0.877
0.135
地区生产总值(亿元)
0.981
-0.06
私营企业工业总产值(亿元)
0.85
0.19
居民消费水平(万元)
0.977
-0.164
国有企业工业总产值(亿元)
0.833
0.092
财政收入(亿元)
0.971
0.015
农、林、牧、渔业总产值(亿元)
0.78
0.578
城乡居民人民币储蓄存款(亿元)
0.948
-0.262
建筑业总产值(万元)
0.76
-0.111
城镇基本医疗保险参保人数
0.931
-0.2
旅游收入(百万美元)
0.711
-0.668
支出财政(亿元)
0.908
-0.35
进岀口(万美元)
0.674
-0.666
人口(万人)
0.9
0.349
粮食产量(万公斤)
0.489
0.749
客运量(万人)
0.885
-0.111
公共图书馆个数
0.585
0.632
指标
成份
指标
成份
1
2
1
2
旅游收入(白力美元)
0.97
-0.109
财政收入(亿元)
0.768
0.594
进岀口(万美元)
0.938
-0.129
建筑业总产值(万元)
0.675
0.367
支出财政(亿元)
0.937
0.263
国有企业工业总产值(亿元)
0.612
0.573
城乡居民人民币储蓄存款
0.916
0.358
农、林、牧、渔业总产值
0.278
0.93
居民消费水平(万元)
0.881
0.454
粮食产量(万公斤)
-0.057
0.893
最终消费支岀(亿元)
0.877
0.471
医疗卫生机构床位(个)
0.443
0.878
城镇基本医疗保险参保人数
0.865
0.397
公共图书馆个数
0.089
0.856
地区生产总值(亿元)
0.821
0.539
人口(万人)
0.511
0.819
教育经费(万元)
0.808
0.562
私营企业工业总产值(亿元)
0.567
0.662
客运量(万人)
0.775
0.441
教职工人数(人)
0.621
0.634
从表4可以看出由旋转后的因子载荷矩阵可以得到20个原始变量与这2个因子之间的
表达式如下:
'Xi=0.970Fi-0.109F2
x2=0.938F1-0.129F2
1:
I'
x2^0.621F10.634F2
由表达式可见F1,的系数在前13个原始变量里最大,在其余的7个原始变量中的系数非常小,所以可以把第1因子看成主要是由前13个原始变量都是从总体角度度量各个地区的经济发展状况,这13个方面都是从总体角度衡量一个地区经济发展状况的,因此命名
为“总量因子”。
F2的系数在上表最后7个原始变量中最大,且为正,所以可以把第2因子看成是由其他7个方面构成的,这7个方面都是间接反映经济水平的,因此第2个因子命名为“间接因子”。
要求得2个主要因子与原始变量之间的表达式,就要计算因子得分系数矩阵。
SPSS软件求得结果,如表5:
指标
成份
指标
成份
1
2
1
2
农、林、牧、渔业总产值(亿元)
-0.078
0.193
国有企业工业总产值(亿元)
0.026
0.06
地区生产总值(亿元)
0.066
0.023
私营企业工业总产值(亿元)
0.007
0.088
粮食产量(万公斤)
-0.13
0.229
建筑业总产值(万元)
0.065
0
居民消费水平(万元)
0.088
-0.006
客运量(万人)
0.072
0.005
进岀口(万美元)
0.176
-0.158
旅游收入(百万美元)
0.178
-0.157
最终消费支岀(亿元)
0.085
-0.001
教育经费(万元)
0.061
0.031
财政收入(亿元)
0.05
0.044
城镇基本医疗保险参保人数
(万人)
0.093
-0.018
支出财政(亿元)
0.123
-0.061
公共图书馆个数
-0.1
0.2
人口(万人)
-0.024
0.134
医疗卫生机构床位(个)
-0.043
0.158
城乡居民人民币储蓄存款(亿元)
0.106
-0.034
教职工人数(人)
0.02
0.074
由因子得分系数矩阵可以得到这2个因子与20个原始变量之间的表达式:
[£二乂皿乂,+0.66X2-0.13X3+…+0.20X20IY2=0.193Xi+0.023X2+0.229X3+…+0.074X2。
因此分析31个省(自治区或直辖市)经济发展的基本状况,不必通过20个原始变量从20个角度去分析,可以从总量因子■,间接因子丫2这2个方面去衡量.由表二“相关特征值丫1,丫2及贡献率”可知,旋转后2个综合因子丫1,丫2,的贡献率分别为1=52.153和2=35.536,也就是综合因子的权重。
令丫=52.153Y135.536Y2为经济综合实力,根据各省市自治区经济综合实力丫的得分大小给出各地区经济综合排名(见表6)。
由于各个地区人口总数不同,而给定的20个指标均为总数,不能很好的反应各地区经济的水平,所以根据各地区人口在作出一份平均经济排名来分析31个省(自治区或直辖市)经济发展的基本状况,
平均排名计算简介:
人均经济排名P=(各地区人口x/31个地区总人口X)*总得分丫
即:
R二互丫,得到平均排名,(见表7)
X
地区
综合得分
经济排名
地区
综合得分
经济排名
广东
2.132098
1
江西
-0.24844
17
江苏
1.50888
2
广西
-0.26282
18
山东
1.294062
3
云南
-0.26996
19
浙江
0.75878
4
山西
-0.28088
20
河南
0.636126
5
重庆
-0.33309
21
四川
0.536472
6
内家古
-0.34149
22
辽宁
0.362451
7
吉林
-0.35846
23
河北
0.353689
8
天津
-0.46849
24
湖南
0.2324
9
新疆
-0.51543
25
湖北
0.202055
10
贵州
-0.53696
26
上海
0.161469
11
甘肃
-0.59036
27
北京
0.138026
12
海南
-0.88071
28
安徽
0.083359
13
宁夏
-0.92711
29
福建
-0.12914
14
青海
-0.93344
30
陕西
-0.13702
15
西藏
-1.01965
31
黑龙江
-0.16642
16
表7各地区经济综人均排名
地区平均得分%排名地区平均得分%排名
由表可知平均经济实力的排名可知,中国各地区经济强弱大概是东部沿海强,大部分中原地区居中,表西部地区经济最弱。
3、聚类分析
3.1基本原理
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。
聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异较大。
根据分类对象的不同可将其分为对样品聚类和对指标聚类。
把n个样品看成p维空间中n个点,通过计算p维空间中两点的距离djj来度量两样品间的相似程度,其值越小表示两个样品接近程度越大,其值越大表示两个样品接近程度越小。
如果把任何两个样品的距离都算出来后,可排成距离阵
@1
•I■ab
d12
d加
D=
d21
"J・・・
d22
a
d2n
nJ■■■■ dn2 dnnj 其中,dn二d22二…二dnn,且D为实对称阵。 根据D可对n个点进行分类,距离近的归为一类,距离远的点归为不同的类 3.2用快速聚类法将地区经济进行分类得到表8和表9 表8聚类成员表 案例号 地区 聚类 距离 案例号 地区 聚类 距离 1 北京 1 31989890.24 17 湖北 1 24127653.24 2 天津 2 39114556.62 18 湖南 1 21753397.44 3 河北 1 21619132.02 19 广东 3 0 4 山西 2 40347894.46 20 广西 2 43845720.19 5 内家古 2 34205529.21 21 海南 2 6841512.556 6 辽宁 1 20495786.17 22 重庆 2 46209004.28 7 吉林 2 32298606.63 23 四川 1 6774683.098 8 黑龙江 2 44177015.99 24 贵州 2 25378422.05 9 上海 1 11218445.2 25 云南 2 41111306.42 10 江苏 4 0 26 西藏 2 0 11 浙江 4 19514683.52 27 陕西 2 47826143.45 12 安徽 1 31295301.24 28 甘肃 2 19675097.01 13 福建 1 34940738.71 29 青海 2 4055450.594 14 江西 2 45970777.14 30 宁夏 2 6099984.61 15 山东 1 46309921.08 31 新疆 2 22022900.18 16 河南 1 0 表9每个聚类中的案例数 聚类 1 11.000 2 17.000 3 1.000 4 2.000 有效 31.000 缺失 .000 有表9可知中国内地31个地区被分为4个等级,第一等级是11个经济强的地区,第二等级是17个经济一般地区,剩下的两个等级是3个经济弱的地区,且相对应的地区(见表)。 表10聚类归属表 聚类 地区 北京、河北、辽宁、上海、安徽、福建、山东、河南、湖北、湖南、 1 四川 天津、山西、内蒙古、吉林、黑龙江、江西、广西、海南、重庆、贵 2 3 4 州、云南、西臧、陕西、甘肃、青海、宁夏、新疆广东 江苏、浙江 4、总结 4.1根据表7分析表10可知 经济最强的地区: 广东、江苏、浙江3个。 其中,广东的经济遥遥领先,这主要源自其高度发达的经济实力和对外开放程度。 经济较强的地区: 包括北京、河北、辽宁、上海、安徽、福建、山东、河南、湖北、湖南、四川,这11个地区。 这11个地区大部分为沿海和中部地区。 经济较弱的地区有: 天津、山西、内蒙古、吉林、黑龙江、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆这17地区,这17个地区大部分为西 部和中部地区。 4.2因子分析与聚类分析结合分析 结合因子分析与聚类分析的方法来评价我国2011年31个省、市、自治区的经济综合发展实力,分析结果与实际情况基本一致。 需要指出的是,我国东西部发展较为悬殊,经济文化较为繁荣的多位于东部地区。 我国中西部地区资源丰富,是个尚待开发的战略地区,也是中国潜在的大市场。 只有中西部地区发展起来了,东部地区的经济发展才会有更为广阔的市场支撑。 。 因此在保持东部沿海地区经济稳定发展的基础上加大对西部地区的开发,可使我国的经济总量稳定持续增加,因此从这个角度上讲实施“西部大开发”战略是非常 必要的,而且从这里就可见其部分成效,因为河南、四川经济综合实力排名和大部分中原、西部地区相比靠前,很大程度上也是西部大开发给其带来的结果。 东北老工业基地在过去的历史时期曾为我国的经济发展做出了巨大贡献,但从这个排名中可以看出现在的发展不及东部沿海地区,因此近两年提出的“振兴东北老工业基地”的政策也是非常符合实际情况的 参考文献 [1]何晓群.多元统计分析[M].北京: 中国人民大学出版社,2008. [2]乔慧.关于我国31个省市自治区经济发展的多元统计分析[J].科技情报开发与经济, 2011,(21): 160-164. [3]李娜,基于因子分析的中国各省市竞争力比较[J].山东大学商业技术学院学报,2006(5)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 我国 各地区 经济发展 统计分析