数据分析课程设计社会发展的综合状况指标分析Word文档下载推荐.docx
- 文档编号:19074813
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:17
- 大小:132.80KB
数据分析课程设计社会发展的综合状况指标分析Word文档下载推荐.docx
《数据分析课程设计社会发展的综合状况指标分析Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据分析课程设计社会发展的综合状况指标分析Word文档下载推荐.docx(17页珍藏版)》请在冰豆网上搜索。
这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xp的第一,第二,…,第m主成分。
其中,z1在总方差中占的比例最大,z2,z3,…,zm的方差依次递减。
在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的载荷lij(i=1,2,…,m;
j=1,2,…,p),从数学上容易知道,它们分别是x1,x2,…,xp的相关矩阵的m个较大的特征值所对应的特征向量。
2.1.2主成分分析确定的一般原则
在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息,有以下几点原则:
(1)主成分的累积贡献率:
一般来说,提取主成份的累计贡献率达到80%~85%以上就比较满意了,可以此确定提取多少个主成分。
(2)特征根:
特征根在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。
因此一般可以用特征根大于1作为纳入标准。
(3)综合判断:
大量的实践表明,如果根据累积贡献率确定主成分个数往往较多,而用特征根确定又往往偏低,许多时候应该将二者结合起来,以综合确定合适的数量。
2.1.3主成分分析的基本步骤
在实际操作中,主成分分析主要是按照如下的步骤来对实际问题进行分析的:
第一步:
对原p个指标n×
p个原始变量标准化。
目的是为了消除变量之间在数量级上或量纲上不用而产生的影响,以使每个变量的均值为0,方差为1。
变换标准化的公式为:
其中
和
分别是第j个变量的平均值和标准差;
第二步,根据标准化矩阵求出协方差矩阵;
第三步,求出协方差矩阵的特征根
第四步,确定主成分,结合专业知识给出各主成分所蕴含的信息,给予恰当的解释,并利用它们来判断样本的特性。
2.1.4主成分分析得到的主成分与原始变量之间的关系
主成分分析就是设法将原来众多的具有一定相关性的指标,重新组合成一组新相互无关的综合指标来代替原来指标(比如p个指标)。
通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?
如果将选取的第一个线性自合即第一个综合指标为
,自然希望
尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?
最经典的方法就是用
的方差来表达,即Var(
)越大,表示
包含的信息越多。
因此在所有的线性组合中所选取的
应该是方差最大的,故称
为第一主成分。
如果第一主成分不足以代表原来p个指标的信息,再考虑
即选第二个线性组合,为了有效的反映原来的信息,
已有的信息就不需要再出现在
中,用数学语言表达就是要求Cov(
)=0,称
为第二主成分,以此类推可以造出第三、四…p个主成分。
不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。
因此在实际工作中,就挑选前几个最大的主成分虽然这样做会损失一部分信息,但是由于它们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
一般来说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:
(1)每个主成分都是各原始变量的线性组合
(2)主成分的数目大大少于原始变量的数目
(3)主成分保留了原始变量绝大多数信息
(4)各主成分之间互不相关
通过主成分分析可以从事物之间错综复杂的关系中找出一些主成份,从而有效的利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及发展规律的一些深层次的启发,把研究工作引向深入。
2.2原始数据及来源
本论文数据来源于中国统计年鉴《2006年全国各省自治区社会发展综合状况指标》
单位:
亿元
地区
人均地区
城镇居民
农村居民
在校
学校数
卫生
固定资产
每万人
生产总值
可支配收
家庭人均
学生数
(所)
机构数
投资总额
拥有公共
(元)
入(元)
纯收入(元)
(人)
(个)
(亿元)
交通车辆(标台)
北京
50467
19977.52
8275.47
565779
80
4877
3296.4
22.2
天津
41163
14283.09
6227.94
357382
45
2367
1820.5
14.2
河北
16962
10304.56
3801.82
862618
88
17733
5470.2
8.1
山西
14123
10027.7
3180.92
446428
56
9776
2255.7
5.7
内蒙古
20053
10357.99
3341.88
252917
37
7958
3363.2
6.1
辽宁
21788
10369.61
4090.4
720548
78
15876
5689.6
9.3
吉林
15720
9775.07
3641.13
435065
9696
2594.3
7.7
黑龙江
16195
9182.31
3552.43
592000
65
8181
2236.0
8.7
上海
57695
20667.91
9138.65
466333
60
2519
3900.0
12.5
江苏
28814
14084.26
5813.23
1306181
116
17143
10069.2
8.6
浙江
31874
18265.1
7334.81
719869
68
14230
7590.2
安徽
10055
9771.05
2969.08
663684
83
9288
3533.6
福建
21471
13753.28
4834.75
461341
63
9652
2981.8
9.0
江西
10798
9551.12
3459.53
770525
66
10210
2683.6
山东
23794
12192.24
4368.33
1338122
108
17016
11111.4
10.5
河南
13313
9810.26
3261.03
974096
84
14629
5904.7
7.1
湖北
13296
9802.65
3419.35
1092274
86
10052
3343.5
10.6
湖南
11950
10504.67
3389.62
830181
96
15331
3175.5
广东
28332
16015.58
5079.78
1008577
105
16953
7973.4
广西
10296
9898.75
2770.48
387447
55
9977
2198.7
7.4
海南
12654
9395.13
3255.53
90138
15
2337
423.9
7.9
重庆
12457
11569.74
2873.83
376118
38
6613
2407.4
9.1
四川
10546
9350.11
3002.38
860640
74
24015
4412.9
8.2
贵州
5787
9116.61
1984.62
221546
36
6147
1197.4
5.8
云南
8970
10069.89
2250.46
284230
50
10020
2208.6
9.7
西藏
10430
8941.08
2435.02
23327
6
1349
231.1
15.5
陕西
12138
9267.7
2260.19
726219
76
11631
2480.7
901.0
甘肃
8757
8920.59
2134.05
263691
33
12022
1022.6
青海
11762
9000.35
2358.37
35983
11
1643
408.5
18.3
宁夏
11847
9177.26
2760.14
55931
13
1553
498.7
新疆
15000
8871.27
2737.28
199251
31
8175
1567.1
13.4
依次设人均地区生产总值、城镇居民可支配收入、农村居民家庭纯收入、在校学生数、学校数、卫生机构数、固定资产投资总额、每万人拥有公共交通车辆为X1、X2、X3、X4、X5、X6、X7、X8
2.3对指标的主成分分析及筛选
在SPSS环境下进行操作,下面对主成分分析过程所得结果进行分析
2.3.1操作过程
打开数据文件;
第二步:
原始数据一致化处理;
第三步:
打开factor将变量移到Variables;
第四步:
输出原始分析结果与原始变量的相关系数矩阵以及所以变量相关系数单侧检验的p值;
第五步:
输出碎石图;
第六步:
提交系统运行,显示结果清单;
2.3.2实验结果输出
表1
相关矩阵
X1
X2
X3
X4
X5
X6
X7
X8
相关
1.000
.923
.962
.190
.281
-.133
.362
-.088
.954
.242
.349
-.032
.435
-.109
.291
.371
-.028
.445
-.158
.950
.773
.857
.081
.750
.819
.096
.705
.044
-.073
Sig.(单侧)
.000
.152
.063
.238
.023
.320
.094
.027
.431
.007
.279
.056
.020
.440
.006
.198
.333
.304
.407
表2
公因子方差
初始
提取
.997
.998
.993
.999
提取方法:
主成份分析。
表3
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
1
4.063
50.790
2
2.447
30.587
81.376
3
.989
12.360
93.737
4
.208
2.601
96.338
5
.165
2.065
98.403
.074
.920
99.323
7
.038
.477
99.801
8
.016
.199
100.000
表4
成份矩阵a
.660
-.719
.111
.013
.162
-.076
.715
-.657
.072
.105
.032
-.193
.018
.740
.057
.051
.082
.830
.498
.017
-.213
.001
.037
.112
.867
.410
.060
-.189
.153
-.063
-.107
.582
.719
-.106
.329
.046
.009
.886
.286
-.116
.069
-.336
-.011
-.046
.227
.971
-.039
提取方法:
主成分分析法。
a.已提取了7个成份。
2.3.3实验结果分析
如表1(相关矩阵表)所示各变量之间存在着较强的相关关系,如果直接用于分析,可能带来严重的共线性问题,因此有必要对变量进行主成分分析,表中的空格表明自身相关系数为1,其不相关的显著性概率为0,因此不再显示。
如表2所示,表中列出了所有的主成分,他们按照特征根从小到大的次序排列,可见第一个主成分的特征值为4.063,他解释了总变异的50.79%;
第二个主成分的特征值为2.447,他解释了总变异的30.58%;
第三个个主成分虽然解释了总变异的12.36%,但其特征值小于1,因此根据主成分个数的原则,即累计方差贡献率达到80%以上和特征值大于1这两个原则,确定这8个变量需要提取2个主成分。
图3为碎石图,实际上是按特征根大小排列的主成分散点图,如图所示,第一主成分与德尔主成分的特征值都大于1,从第三个主成分开始特征根就比较低,特征根小于1,可以认为前两个主成分能概括绝大部分信息。
如表4所示,从因子载荷矩阵可以看出,标准化的原始变量可以用求得的主成分来线性表示,其近似表达式可根据表3写出,以X1为例,由于本实验过程有2个主成分,可以用F1,F2来表示这两个主成分,得到的表达式如下:
X1=0.660*F1-0.719*F2
此外,运用该系数矩阵还可以得出各原始变量写出的因子表达式,方法为用此表中的第i列向量除以第i个特征根的算术平方根后,得到第i个主成分的变量系数向量,具体表达式如下:
F2=-0.4596*X1-0.42*X2-0.42*X3+0.3184*X4+0.2621*X5+0.4596*X6+0.1828*X7+0.1451*X8
从上式可以看出,第一主成分主要由X4、X5、X7确定的,并且均为中度正相关,故可以认为第一个主成分是说明教育和地方投资对社会发展的影响
第二个主成分主要是由X1、X2、X3、X6确定的,所以可以认为是反映居民医疗和生活水平,因为这两个主成分累计方差贡献率高达80%,所以用他们来替代原问题具有80%的可靠性。
可以看出,上述分析并不能看出这31个省市自治区社会发展状况的差别,因此还要计算它们分别在第一第二主成分以及综合上的得分,以此作为评价的依据。
排名表:
教育与投资
收入和医疗
主成分1
排名
主成分2
综合
262509.25571
14
147923.74746
66898.934344
169491.81751
21
87674.047865
22
48826.959138
373365.14741
270071.35209
52239.695142
9
197011.76168
18
135004.14793
16
32959.780346
20
119401.79659
24
69829.299989
25
28597.919059
316130.44495
221660.34173
49272.307963
10
193056.05146
19
130588.01945
33524.207979
257003.14476
179860.21501
40302.580948
17
224065.17901
111309.99977
67851.128311
563833.03052
403978.36113
81669.358489
323500.88739
211717.94816
12
61285.380949
285402.29087
206251.53098
40070.661202
207773.36143
134193.12458
40645.56197
329626.55711
240073.56188
44940.636698
574557.97028
417986.07026
78676.27587
416992.56582
306324.21672
54967.981616
463257.74986
341320.11025
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 课程设计 社会发展 综合 状况 指标