多元统计分析课程设计docWord文档格式.docx
- 文档编号:17371159
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:11
- 大小:158.32KB
多元统计分析课程设计docWord文档格式.docx
《多元统计分析课程设计docWord文档格式.docx》由会员分享,可在线阅读,更多相关《多元统计分析课程设计docWord文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
3.主成分分析主要目的
是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
由此可见,主成分分析实际上是一种降维方法。
二问题背景及数据
1.问题及背景
背景:
随着生产力水平的不断提高,我国居民生活水平不断提高,生活质量也在不断改善。
但是,受各地生产力发展水平不平衡的影响,我国各地居民的生活质量也表现为不平衡。
问题:
利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。
为全面分析各地居民生活状况,可选取如下指标体系进行反应:
职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。
2.数据
图1
数据来源:
《中国统计年鉴2009》
三详细分析过程
第一步:
录入数据,有以下变量:
职工人均工资,人均居住面积,城市人口用水普及量,城市煤气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图2
图2
第二步:
选择功能模块
图3
第三步:
将变量添加到Varicribles中
图4
第四步:
输入信息
图5
图6
图7
图8
图9
第五步:
单击“OK”按钮,完成运算。
图10
三.结果分析
1.
Communalities
Initial
Extraction
人均工资
1.000
.730
居住面积
.598
人均用水
.636
煤气普及
.794
人均道路
.776
人均绿地
.771
商品总额
.883
旅游外汇
.653
分析:
第一列是列出八个原始变量,第二列是根据主成分分析初始解计算出变量共同度,第三列是是根据主成分分析最终解计算出变量共同度,这时由于因子变量个数少于原始变量个数,因此每个变量的共同度必然小于1。
例如,第一行中0.730表示m个因子变量共同解释掉原始变量“人均工资”方差72.2%。
2.
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
1
3.955
49.438
3.874
48.419
2
1.886
23.581
73.019
1.968
24.600
3
11.033
84.051
4
.463
5.783
89.834
5
.442
5.530
95.364
6
.230
2.874
98.239
7
.093
1.164
99.403
8
.048
.597
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
上表为spss输出结果,从上表可以看出特征值和和贡献率。
从上表可以看出公共因子对原变量总体的描述情况。
可以看出前2个公共因子的的贡献率达到73.019%,所以提取2个公共因子就可以反映原变量的大部分信息。
3.
上图为公共因子碎石图,它的横坐标为公共因子数,纵坐标为公共因子的特征值。
可以看出前2个公共因子的特征值变化非常明显,到2个以后趋于平稳。
所以得出提取2个公共因子可以对原变量的信息描述有显著作用。
这与Communalities的结论也相符合。
4.
ComponentScoreCoefficientMatrix
.216
-.272
.200
-.010
.173
.134
.187
.170
-.068
.460
.018
.426
.249
-.064
.213
-.040
该表格是因子得分矩阵,这是根据回归年算法计算出来的因子得分函数的系数,根据这个表格可得下面的因子得分函数
F1=0.216x1+0.200x2+0.173x3+0.187x4-0.068x5+0.018x6+0.249x7+0.213x8
F2=-0.272x1-0.010x2+0.134x3+0.170x4+0.460x5+0.426x6-0.064x7-0.040x8
SPSS将根据2个因子得分函数自动计算样本的2个因子得分,并且2个因子作为新变量,保存到SPSS窗口中
第一主成分在人均拥有道路面积的系数上为负,其他为正,而且职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数绝对值比较大,说明第一主成分代表了我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。
第二主成分在职工人均工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数上为负,其他为正,而且人均拥有道路面积和人居绿地公共面积的系数的绝对值比较大,说明第二主成分代表了我国居民生活质量状况针对人均公共设施需求(人均拥有道路面积和人居绿地公共面积)和其他居民生活质量状况的反应指标之间的差异。
主成分得分表分析,主成分得分表如下:
北京
2.27203
-1.59501
天津
1.892352
-0.862534
河北
0.043624
0.949832
山西
-0.39209
-0.59951
内蒙古
-1.02483
0.27295
辽宁
0.231639
-0.0096
吉林
-0.67003
-0.10225
黑龙江
-0.84319
-0.37942
上海
2.912851
-2.06156
江苏
1.27821
2.209529
浙江
1.536949
0.598395
安徽
-0.23412
0.536068
福建
0.614881
0.674815
江西
-0.15091
0.670515
山东
0.430619
2.655349
河南
-0.80858
-0.83491
湖北
0.089345
0.607727
湖南
-0.13126
-0.10477
广东
1.530677
0.25892
广西
-0.34558
-0.02902
海南
-1.14739
-0.16167
重庆
-0.05216
-0.04335
四川
-0.46073
-0.29735
贵州
-0.89657
-1.69898
云南
-0.47307
-0.26378
西藏
-0.51009
-1.42896
陕西
-0.17101
0.279638
甘肃
-1.14588
-0.75339
青海
-0.13177
0.07707
宁夏
-0.85301
0.566148
新疆
-0.49854
0.006558
结论:
第一主成得分较高的有北京、天津、上海、江苏、浙江、辽宁,这几个省份都是经济比较发达的地区,第一主成分代表的意义为我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。
第二主成得分较高的有山东、河北、陕西等地,,由于第二主成分代表的意义为我国居民生活质量状况针对人均消费品普及量及人均公共设施需求,由此可见这几个地区非常注重人均公共设施需求及人均消费品普及量这些方面。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 课程设计 doc