多元统计课设v.docx
- 文档编号:10284205
- 上传时间:2023-02-09
- 格式:DOCX
- 页数:19
- 大小:90.06KB
多元统计课设v.docx
《多元统计课设v.docx》由会员分享,可在线阅读,更多相关《多元统计课设v.docx(19页珍藏版)》请在冰豆网上搜索。
多元统计课设v
前言
主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法。
现在SPSS、SAS等统计软件使用越来越普遍,但SPSS并未像SAS一样,将主成分分析与因子分析作为两个独立的方法并列处理[注:
主成分分析与因子分析二者是又有着区别与联系,最主要的不同在于它们的数学模型的构建上,具体区别请见参考文献2],而是根据二者之间的关系有机地将主成分分析嵌入到因子分析之中,这样虽然简化了分析程序,却为主成分分析的计算带来不便。
且国内许多SPSS教程并没有详细讲解如果应用SPSS进行主成分分析,如何使用SPSS对主成分分析进行计算呢?
为使读者能够正确使用SPSS软件进行主成分分析,本文将通过一个实例来详细介绍如何用SPSS做主成分分析。
接下来先简单介绍主成分分析原理与模型,以便读者对主成分分析有个大致的了解。
关键词:
数据选取数据分析主成分分析
使用软件:
SPSS
一主成分分析原理
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I个变量就有I个主成分。
其中Li为p维正交化向量(Li*Li=1),Zi之间互不相关且按照方差由大到小排列,则称Zi为X的第I个主成分。
设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量,可以证明,λi所对应的正交化特征向量,即为第I个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数量k满足Σλk/Σλj>0.85。
是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
由此可见,主成分分析实际上是一种降维方法。
二主成分分析步骤
由前面的讨论大体上可以明了进行主成分分析的步骤,对此进行归纳如下:
(1)根据研究问题选取初始分析变量;
(2)根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;
(3)求协方差阵或相关阵的特征根与相应标准特征向量;
(4)判断是否存在明显的多重共线性,若存在,则回到第
(1)步;
(5)得到主成分的表达式并确定主成分的个数,选取主成分;
(6)结合主成分对研究问题进行分析并深入研究;
三SPSS操作过程及结果解释
利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。
为全面分析各地居民生活状况,可选取如下指标体系进行反应:
职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。
一录入数据,有以下变量:
职工人均工资,人均居住面积,城市人口用水普及量,城市煤气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图1
地区
X1
X2
X3
X4
X5
X6
X7
X8
北京
56328
38.7
100
100
6.21
8.56
25832.4
4459
天津
41748
28.31
100
100
14.39
9.39
9900.4
1001
河北
24756
30.71
99.97
97.11
14.49
9.49
3976.5
274
山西
25828
26.52
93.27
82.64
9.54
7.64
3753.9
301
内蒙古
26114
21.47
82.03
74.25
12.76
11.1
2127.9
577
辽宁
27729
26.39
96.89
92.38
9.95
9.37
8927.8
1526
吉林
23486
21.94
88.63
84.82
10.39
9.2
3040.4
211
黑龙江
23046
21.72
84.24
79.45
9.28
9.46
2276.4
870
上海
56565
62.3
100
100
4.63
7.82
29712.5
4972
江苏
31667
44.05
99.88
98.23
20.28
13.11
20543.2
3880
浙江
34146
60.48
99.7
97.72
15.2
9.6
18270
3024
安徽
26363
29.88
95.11
87.6
14.15
9.29
3755.4
454
福建
25702
46.13
97.47
97.23
12.05
10.42
5743.4
2394
江西
21000
37.56
96.49
90.18
11.06
10.6
1340.3
252
山东
26404
32.98
99.39
98.5
19.6
14.2
11775.8
1391
河南
24816
31.69
85.56
66.91
9.9
8.2
4483.3
374
湖北
22739
39.04
97.88
90.9
13.03
9.4
6183.6
443
湖南
24870
40.72
94.57
84.26
12.01
7.96
2638.3
617
广东
33110
27.89
93.97
93.94
11.65
11.46
22348.8
9175
广西
25660
31.75
92.87
84.04
11.83
8.61
1998.6
602
海南
21864
22.84
83.87
72.81
12.05
9
734.6
314
重庆
26985
35.03
93.2
90.87
9.49
9.62
2891.2
450
四川
25038
34.94
88.09
81.09
10.78
8.74
4105.7
154
贵州
24602
25.27
88.69
67.82
6.22
6.16
1076.5
117
云南
24030
27.44
95.22
76.1
12.09
7.62
3075.8
1008
西藏
47280
23.97
86.59
74.8
13.46
5.64
64.1
31
陕西
25942
29
96.65
89.55
12.67
8.71
2487.4
660
甘肃
24017
19.87
87.85
65.32
10.37
7.87
1526
16
青海
30983
19.78
100
94.78
11.16
8.53
286.9
10
宁夏
30719
23.06
87.25
75.68
14.82
11
489.3
3
新疆
24687
22.78
92.82
88.61
12.47
7.91
2863.3
136
四主成分分析的上机实现
Spss软件FACTOR模块提供了主成分分析的功能。
下面先以之前版本SPSS17.0自带的数据Employeedata.sav为例介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集;
(1)进入SPSS软件,先进行八个变量x1,x2,x3,x4,x5,x6,x7,x8的相关分析,按照顺序:
分析—相关—双相关打开距离分析的对话框。
在距离相关分析的主对话框中,将所有变量选入Variables中点击OK。
即得到5—1
(2)打开数据集Employeedata.sav.依次点选分析—降维—因子分析,
进入因子分析对话框。
此时,数据集Employeedata.sav中的变量名均已显示在左边的窗口中,依次选中变量人均工资,居住面积,人均用水,煤气普及,人均道路,人均绿地,商品总额,旅游外汇并点击向右的箭头按钮,这八个变量便进入Variable窗口。
点击下方的OK按钮,即可得到输出结果5—2
(3)在上面的主成分分析在,SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分。
(4)在因子分析对话框中,点击描述按钮,在弹出的对话框中,在相关矩阵中选择系数。
回到原对话框中点击下方的OK,即可得到输出结果5—3和输出结果5—4.
(5)在因子分析对话框中,点击抽取按钮,在弹出的对话框中,选中碎石图。
点击确定。
即可得到输出结果5—5
(6)在因子分析对话框中,点击得分按钮,在弹出的对话框中,选中显示因子得分系数矩阵和保存为变量,点击确定。
即可得到输出结果5—6
(7)在因子分析对话框中,点击旋转按钮,在弹出的对话框中,选中载荷图。
点击确定。
即可得到输出结果5—7
(8)依次点选转换—计算变量,进入计算变量对话框。
在目标变量中输入“f”,在数字表达式中输入“(fac1_1*3.931+fac2_1*1.848)/(3.931+1.848)”公式,点击确定。
即可得到综合得分。
(9)依次点选转换—个案排序,将八个变量选入Variables窗口。
点击OK。
即可得到输出结果5—8
五输出结果如下
、
人均工资
居住面积
人均用水
煤气普及
人均道路
人均绿地
商品总额
旅游外汇
人均工资
Pearson相关性
1
.401*
.336
.401*
-.241
-.165
.696**
.509**
显著性(双侧)
.025
.065
.025
.192
.375
.000
.003
N
31
31
31
31
31
31
31
31
居住面积
Pearson相关性
.401*
1
.562**
.555**
-.002
.156
.663**
.456**
显著性(双侧)
.025
.001
.001
.993
.402
.000
.010
N
31
31
31
31
31
31
31
31
人均用水
Pearson相关性
.336
.562**
1
.871**
.208
.246
.539**
.370*
显著性(双侧)
.065
.001
.000
.262
.181
.002
.041
N
31
31
31
31
31
31
31
31
煤气普及
Pearson相关性
.401*
.555**
.871**
1
.232
.448*
.623**
.494**
显著性(双侧)
.025
.001
.000
.210
.011
.000
.005
N
31
31
31
31
31
31
31
31
人均道路
Pearson相关性
-.241
-.002
.208
.232
1
.636**
-.060
-.062
显著性(双侧)
.192
.993
.262
.210
.000
.749
.739
N
31
31
31
31
31
31
31
31
人均绿地
Pearson相关性
-.165
.156
.246
.448*
.636**
1
.296
.330
显著性(双侧)
.375
.402
.181
.011
.000
.106
.069
N
31
31
31
31
31
31
31
31
商品总额
Pearson相关性
.696**
.663**
.539**
.623**
-.060
.296
1
.863**
显著性(双侧)
.000
.000
.002
.000
.749
.106
.000
N
31
31
31
31
31
31
31
31
旅游外汇
Pearson相关性
.509**
.456**
.370*
.494**
-.062
.330
.863**
1
显著性(双侧)
.003
.010
.041
.005
.739
.069
.000
N
31
31
31
31
31
31
31
31
*.在0.05水平(双侧)上显著相关。
**.在.01水平(双侧)上显著相关。
图5—1
图中给出了pearson的相关系数,他以一个矩阵的形式表示出来。
从中可以看出,在这些数据的右边有两个星号,表示在0.01的显著水平下,是显著相关的,还有一些相关系数带有一个星号表示在0.05的显著水平下,相关系数是显著相关的。
则在此题中可以看出表中的相关系数表明八个变量之间存在显著相关性,可以进行主成分分析
相关矩阵
人均工资
居住面积
人均用水
煤气普及
人均道路
人均绿地
商品总额
旅游外汇
相关
人均工资
1.000
.401
.336
.401
-.241
-.164
.696
.509
居住面积
.401
1.000
.562
.555
-.002
.156
.663
.456
人均用水
.336
.562
1.000
.871
.208
.247
.539
.370
煤气普及
.401
.555
.871
1.000
.232
.449
.623
.494
人均道路
-.241
-.002
.208
.232
1.000
.637
-.060
-.062
人均绿地
,
.156
.247
.449
.637
1.000
.296
.330
商品总额
.696
.663
.539
.623
-.060
.296
1.000
.863
旅游外汇
.509
.456
.370
.494
-.062
.330
.863
1.000
图5—2
图5—2是对缺失指标的统计结果,结果表明,八个指标全部可用。
同时,我们知道八个指标间有较强的相关性。
X3和x5,x3和x7和x8,x4和x7,x1和x7,x2和x7,x6和x4,x5和x8之间均有超过60%的相关性,除了x2和x5,x3和x5,x5和x7,x5和x8wai相关程度低,其他各项均在50%以上,因此,我们得出结论这八个数据之间有较强的相关性,适合从中提取公共因子。
公因子方差
初始
提取
人均工资
1.000
.702
居住面积
1.000
.573
人均用水
1.000
.640
煤气普及
1.000
.792
人均道路
1.000
.781
人均绿地
1.000
.770
商品总额
1.000
.883
旅游外汇
1.000
.639
提取方法:
主成份分析。
5—3
其中,公因子方差表给出了该次分析从每个原始变量中提取的信息,表格下面的表注表明,该次分析是用了因子分析模块默认的信息提取方法即主成分分析完成的。
可以看到除了居住面积信息损失较大外,主成分几乎包括了各个原始变量至少60%的信息。
表中为变量共同度,表中最后一列的数据都大于0.5,表明提取的主成分对每个变量的解释程度可以,如果某个变量的共同度不到0.5,说明提取的主成分没有包含此变量的信息,需要增加主成分的个数.
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
3.931
49.136
49.136
3.931
49.136
49.136
2
1.848
23.101
85.236
1.848
37.101
86.236
3
.881
11.010
87.247
4
.526
6.578
89.825
5
.449
5.614
95.438
6
.228
2.848
98.286
7
.090
1.127
99.413
8
.047
.587
100.000
提取方法:
主成份分析。
图5—4
解释的总方差表中则显示了各主成分解释原始变量的总方差的情况,SPSS默认保留特征根大于1的主成分,在本题中看出保留两个主成分为宜,这2个主成分集中了八个原始变量的信息的86.236%,可见效果比较好。
实际上,主成分解释了总方差的百分比也可以由公因子方差表中计算得出,即(0.702+0.573+0.640+0.792+0.781+0.770+0.883+0.639)/8=86.236%
表中为方差贡献率,“Tota”是特征根,“%ofvariance”是每个特征根对应的方差贡献,“Cumulative%”是累计方差贡献;“InitiallyEigenvalues”列出了所有的主成分,并按照特征根的大小排序,而“ExtractionSumsofSquaredLoadings”对应的是提取主成分后的各项指标。
可以看出本题提取了两个主成分,因为有两个特征根大于1,从表中可以看出,第一个主成分特征根为3.955,方差贡献率为49.138%第二个主成分的特征根为1.886,方差贡献率为37.101%,两个主成分的累计贡献率达到85.236%,即两个主成分共解释了总变异的86.236%。
由输出结果看到,前两个主成分Y1,Y2的方差和占全部方差的比例为85.236%。
我们就选取Y1为第一主成分,Y2为第二主成分,且这两个主成分的方差和占全部方差86.236%,即基本上保留了原来指标的信息,这样由原来的八个指标化为2个指标,起到了降维的作用。
进一步说明两个主成分是比较合适的。
图5-5
图5-5为碎石图,实际上是按特征根大小排列的主成分折线图。
横坐标表示第几主成分,纵坐标表示特征根的值,此题在第三个特征根处变得比较平缓,表明可以提取两个主成分。
成份矩阵a
成份
1
2
人均工资
.629
-.553
居住面积
.748
-.113
人均用水
.781
.174
煤气普及
.858
.234
人均道路
.125
.875
人均绿地
.410
.776
商品总额
.914
-.220
旅游外汇
.781
-.167
提取方法:
主成分分析法。
a.已提取了2个成份。
图5-6
图中为因子载荷矩阵,其中的数值是主成分与原始变量的相关系数,绝对值的大小代表了主成分与原始变量的相关程度,据此可以看出每一主成分所代表的原始变量的信息。
本题中如第一主成分与第八个的相关系数都接近1说明他主要涵盖了第八个变量的信息,而第二个主成分主要涵盖了地五个变量。
图5—7
从图5—7中看出变量人均工资,商品总额,旅游外汇,居住面积分布在第四象限,并且第四象限的主要特征是第一主成分,说明代表了我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。
而人均拥有道路面积和人居绿地公共面积分布在第一象限,并且第一象限的主要特征是第二主成分,说明第二主成分代表了我国居民生活质量状况针对人均公共设施需求(人均拥有道路面积和人居绿地公共面积)和其他居民生活质量状况的反应指标之间的差异。
成份
1
2
人均工资
.160
-.299
居住面积
.190
-.061
人均用水
.199
.094
煤气普及
.218
.127
人均道路
.032
.473
人均绿地
.104
.420
商品总额
.232
-.119
旅游外汇
.199
-.090
提取方法:
主成分分析法。
图5—8
成分得分系数矩阵是对SPSS的因子分析模块运行结果输出的成分矩阵的第i行的每个元素分别除以第i个特征根的平方根
,就得到了主成分分析的第i个主成分的系数结果如上表。
表中为主成分得分系数矩阵,根据该矩阵,可以写出以标准化的原始变量表示的主成分的表达式。
若记标准化的原始数据变量为x1,x2,x3,x4,x5,x6,x7,x8,两个主成分记为F1,F2。
则表达式为:
F1=0.160x1+0.190x2+0.199x3+0.218x4-0.032x5+0.104x6+0.232x7+0.199x8
F2=-0.299x1-0.061x2+0.094x3+0.127x4+04730x5+0.420x6-0.119x7-0.404x8
对所选取主成分做解释,主成分分析的关键在于是否给主成分赋予新的意义,给出的合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。
主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。
线性组合中各变量的系数的绝对值大者表明了该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应该认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义。
本题中有8个指标,这八个指标有很强的依赖性,通过主成分计算后,我们选取了2个主成分,这两个主成分具有明显的经济意义。
第一主成分的线性组合中除了人均道路外,其余变量的系数相当,所以第一主成分可以看成x1,x2,x3,x5,x6,x7,x8的综合变量。
可以解释为第一主成分所占的信息总量为49.136%
第一主成分在人均拥有道路面积的系数上为负,其他为正,而且职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数绝对值比较大,说明第一主成分代表了我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。
第二主成分在职工人均工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数上为负,其他为正,而且人均拥有道路面积和人居绿地公共面积的系数的绝对值比较大,说明第二主成分代表了我国居民生活质量状况针对人均公共设施需求(人均拥有道路面积和人居绿地公共面积)和其他居民生活质量状况的反应指标之间的差异。
综合评价
地区
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计