多元统计分析课程设计doc.docx
- 文档编号:30113858
- 上传时间:2023-08-05
- 格式:DOCX
- 页数:12
- 大小:158.27KB
多元统计分析课程设计doc.docx
《多元统计分析课程设计doc.docx》由会员分享,可在线阅读,更多相关《多元统计分析课程设计doc.docx(12页珍藏版)》请在冰豆网上搜索。
多元统计分析课程设计doc
主成分分析法在我国居民生活质量状况
综合评价中的应用
内容摘要:
改革开放以来,我国各地区间的经济发展速度有着明显差别,而人民的生活质量也因此产生了不同,本文用主成分分析法,选取多个指标,对全国31个省市居民的生活质量进行了简单的分析。
关键词:
数据选取数据分析主成分分析
使用软件:
SPSS
一主成分分析
1.主成分分析定义
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
2.主成分分析法方法简介
主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I个变量就有I个主成分。
其中Li为p维正交化向量(Li*Li=1),Zi之间互不相关且按照方差由大到小排列,则称Zi为X的第I个主成分。
设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量,可以证明,λi所对应的正交化特征向量,即为第I个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数量k满足Σλk/Σλj>0.85。
3.主成分分析主要目的
是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
由此可见,主成分分析实际上是一种降维方法。
二问题背景及数据
1.问题及背景
背景:
随着生产力水平的不断提高,我国居民生活水平不断提高,生活质量也在不断改善。
但是,受各地生产力发展水平不平衡的影响,我国各地居民的生活质量也表现为不平衡。
问题:
利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。
为全面分析各地居民生活状况,可选取如下指标体系进行反应:
职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。
2.数据
图1
数据来源:
《中国统计年鉴2009》
三详细分析过程
第一步:
录入数据,有以下变量:
职工人均工资,人均居住面积,城市人口用水普及量,城市煤气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图2
图2
第二步:
选择功能模块
图3
第三步:
将变量添加到Varicribles中
图4
第四步:
输入信息
图5
图6
图7
图8
图9
第五步:
单击“OK”按钮,完成运算。
图10
三.结果分析
1.
Communalities
Initial
Extraction
人均工资
1.000
.730
居住面积
1.000
.598
人均用水
1.000
.636
煤气普及
1.000
.794
人均道路
1.000
.776
人均绿地
1.000
.771
商品总额
1.000
.883
旅游外汇
1.000
.653
分析:
第一列是列出八个原始变量,第二列是根据主成分分析初始解计算出变量共同度,第三列是是根据主成分分析最终解计算出变量共同度,这时由于因子变量个数少于原始变量个数,因此每个变量的共同度必然小于1。
例如,第一行中0.730表示m个因子变量共同解释掉原始变量“人均工资”方差72.2%。
2.
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
1
3.955
49.438
49.438
3.955
49.438
49.438
3.874
48.419
48.419
2
1.886
23.581
73.019
1.886
23.581
73.019
1.968
24.600
73.019
3
.883
11.033
84.051
4
.463
5.783
89.834
5
.442
5.530
95.364
6
.230
2.874
98.239
7
.093
1.164
99.403
8
.048
.597
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
分析:
上表为spss输出结果,从上表可以看出特征值和和贡献率。
从上表可以看出公共因子对原变量总体的描述情况。
可以看出前2个公共因子的的贡献率达到73.019%,所以提取2个公共因子就可以反映原变量的大部分信息。
3.
分析:
上图为公共因子碎石图,它的横坐标为公共因子数,纵坐标为公共因子的特征值。
可以看出前2个公共因子的特征值变化非常明显,到2个以后趋于平稳。
所以得出提取2个公共因子可以对原变量的信息描述有显著作用。
这与Communalities的结论也相符合。
4.
ComponentScoreCoefficientMatrix
Component
1
2
人均工资
.216
-.272
居住面积
.200
-.010
人均用水
.173
.134
煤气普及
.187
.170
人均道路
-.068
.460
人均绿地
.018
.426
商品总额
.249
-.064
旅游外汇
.213
-.040
分析:
该表格是因子得分矩阵,这是根据回归年算法计算出来的因子得分函数的系数,根据这个表格可得下面的因子得分函数
F1=0.216x1+0.200x2+0.173x3+0.187x4-0.068x5+0.018x6+0.249x7+0.213x8
F2=-0.272x1-0.010x2+0.134x3+0.170x4+0.460x5+0.426x6-0.064x7-0.040x8
SPSS将根据2个因子得分函数自动计算样本的2个因子得分,并且2个因子作为新变量,保存到SPSS窗口中
第一主成分在人均拥有道路面积的系数上为负,其他为正,而且职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数绝对值比较大,说明第一主成分代表了我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。
第二主成分在职工人均工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数上为负,其他为正,而且人均拥有道路面积和人居绿地公共面积的系数的绝对值比较大,说明第二主成分代表了我国居民生活质量状况针对人均公共设施需求(人均拥有道路面积和人居绿地公共面积)和其他居民生活质量状况的反应指标之间的差异。
主成分得分表分析,主成分得分表如下:
北京
2.27203
-1.59501
天津
1.892352
-0.862534
河北
0.043624
0.949832
山西
-0.39209
-0.59951
内蒙古
-1.02483
0.27295
辽宁
0.231639
-0.0096
吉林
-0.67003
-0.10225
黑龙江
-0.84319
-0.37942
上海
2.912851
-2.06156
江苏
1.27821
2.209529
浙江
1.536949
0.598395
安徽
-0.23412
0.536068
福建
0.614881
0.674815
江西
-0.15091
0.670515
山东
0.430619
2.655349
河南
-0.80858
-0.83491
湖北
0.089345
0.607727
湖南
-0.13126
-0.10477
广东
1.530677
0.25892
广西
-0.34558
-0.02902
海南
-1.14739
-0.16167
重庆
-0.05216
-0.04335
四川
-0.46073
-0.29735
贵州
-0.89657
-1.69898
云南
-0.47307
-0.26378
西藏
-0.51009
-1.42896
陕西
-0.17101
0.279638
甘肃
-1.14588
-0.75339
青海
-0.13177
0.07707
宁夏
-0.85301
0.566148
新疆
-0.49854
0.006558
结论:
第一主成得分较高的有北京、天津、上海、江苏、浙江、辽宁,这几个省份都是经济比较发达的地区,第一主成分代表的意义为我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。
第二主成得分较高的有山东、河北、陕西等地,,由于第二主成分代表的意义为我国居民生活质量状况针对人均消费品普及量及人均公共设施需求,由此可见这几个地区非常注重人均公共设施需求及人均消费品普及量这些方面。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 课程设计 doc