SPSS学习系列30主成份分析.docx
- 文档编号:1068328
- 上传时间:2022-10-16
- 格式:DOCX
- 页数:10
- 大小:273.10KB
SPSS学习系列30主成份分析.docx
《SPSS学习系列30主成份分析.docx》由会员分享,可在线阅读,更多相关《SPSS学习系列30主成份分析.docx(10页珍藏版)》请在冰豆网上搜索。
SPSS学习系列30主成份分析
30.主成份分析
一、基本原理
主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。
其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。
在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。
如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2,称为第二主成分。
为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0.依此类推可以构造出第三、第四、…、第p个主成分。
主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。
设有n个样品(多元观测值),每个样品观测p项指标(变量):
X1,…,Xp,得到原始数据资料阵:
其中,Xi=(x1i,x2i,…,xni)T,i=1,…,p.
用数据矩阵X的p个列向量(即p个指标向量)X1,…,Xp作线性组合,得到综合指标向量:
简写成:
Fi=a1iX1+a2iX2+…+apiXpi=1,…,p
限制系数ai=(a1i,a2i,…,api)T为单位向量,即
且由下列原则决定:
(1)Fi与Fj互不相关,即COV(Fi,Fj)=aiT∑ai=0,其中∑为X的协方差矩阵;
(2)F1是X1,X2,…,Xp的所有满足上述要求的线性组合中方差最大的,即
F2是与F1不相关的X1,…,Xp所有线性组合中方差最大的,…,Fp是与F1,…,Fp-1都不相关的X1,…,Xp所有线性组合中方差最大的。
满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数
ai=(a1i,a2i,…,api)T
就是特征值λi所对应的单位特征向量。
方差的贡献率为
αi越大,说明相应的主成分反映综合信息的能力越强。
注:
主成分分析是将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。
新坐标第一轴与数据变化最大方向对应。
F1,F2,…,Fp可以理解为p维空间中互相垂直的p个坐标轴。
基本步骤:
(1)计算样品数据协方差矩阵Σ=(sij)p⨯p,其中
(2)求出Σ的特征值及相应的特征向量λ1>λ2>…>λp>0,及相应的正交化单位特征向量:
则X的第i个主成分为Fi=aiTX,i=1,…,p.
(3)选择主成分
在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。
一般用方差贡献率
解释主成分Fi所反映的信息量的大小,m的确定是用累计贡献率
达到足够大(一般在85%以上)为原则。
(4)计算n个样品在m个主成分得分
注:
标准化后变量的协方差矩阵Σ=(sij)p⨯p,与原变量的相关系数矩阵R=(rij)p⨯p相同,故主成分分析可以从原始变量数据的相关系数矩阵,也可以从标准化数据的协方差矩阵出发做分析。
二、主成分分析实例
例1对我国30个省市经济发展的8个指标做主成份分析。
数据文件如下:
x1=GDP;x2=居民消费水平;x3=固定资产投资;
x4=职工平均工资;x5=货物周转量;x6=居民消费价格;
x7=商品价格指数;x8=工业总产值。
1.【分析】——【降维】——【因子分析】,打开“因子分析”窗口,将变量“x1-x8”选入【变量】框;
2.点【描述】,打开“描述统计”子窗口,勾选【统计量】下的“单变量描述性”、“原始分析结果”,【相关矩阵】下的“系数”;点【继续】;
其它保持默认即可,【抽取】选项,抽取方法默认就是“主成份”,默认只选取特征值大于1的主成分。
注意:
SPSS进行因子(主成份)分析时,自动对原始变量进行标准化处理,输出结果中的变量通常都是指标准化后的变量。
点【确定】,得到
描述统计量
均值
标准差
分析N
GDP
1921.0927
1474.80603
30
居民消费水平
1745.9333
861.64193
30
固定资产投资
511.5083
402.88548
30
职工平均工资
5447.6333
1317.44330
30
货物周转量
666.1200
459.93526
30
居民消费价格指数
117.2867
2.02531
30
商品价格指数
114.9067
1.89808
30
工业总产值
862.9980
584.58726
30
描述各变量的基本信息:
均值、标准差、样本数。
相关矩阵
GDP
居民消费水平
固定资产投资
职工平均工资
货物周转量
居民消费价格指数
商品价格指数
工业总产值
相关
GDP
1.000
.267
.951
.187
.617
-.273
-.264
.874
居民消费水平
.267
1.000
.426
.716
-.151
-.235
-.593
.363
固定资产投资
.951
.426
1.000
.396
.431
-.280
-.359
.792
职工平均工资
.187
.716
.396
1.000
-.357
-.145
-.543
.099
货物周转量
.617
-.151
.431
-.357
1.000
-.253
.022
.659
居民消费价格指数
-.273
-.235
-.280
-.145
-.253
1.000
.763
-.125
商品价格指数
-.264
-.593
-.359
-.543
.022
.763
1.000
-.192
工业总产值
.874
.363
.792
.099
.659
-.125
-.192
1.000
相关系数矩阵,可以看出“固定资产投资”、“工业总产值”与“GDP”有较高的相关性;“消费价格指数”与“商品价格指数”有较高的相关性;……
相关性较强说明确实有变量在信息上重叠,从而可以做主成份或因子分析。
公因子方差
初始
提取
GDP
1.000
.945
居民消费水平
1.000
.799
固定资产投资
1.000
.902
职工平均工资
1.000
.873
货物周转量
1.000
.857
居民消费价格指数
1.000
.957
商品价格指数
1.000
.928
工业总产值
1.000
.904
提取方法:
主成份分析。
公因子方差,表示各变量中所含原始信息能被提取的主成份所表示的程度。
基本都在0.80以上,表示提取的主成份各变量有较强的解释能力。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
3.754
46.924
46.924
3.754
46.924
46.924
2
2.203
27.532
74.456
2.203
27.532
74.456
3
1.208
15.096
89.551
1.208
15.096
89.551
4
.403
5.042
94.593
5
.214
2.673
97.266
6
.138
1.722
98.988
7
.066
.829
99.817
8
.015
.183
100.000
提取方法:
主成份分析。
主成份提取法,自动提取特征值大于1的主成分,共3个。
【初始特征值】的“合计”列为每一个主成分的特征值,其值越大表示该主成分在解释8个变量的变异时越重要;“方差的%”列为每个提取因素可以解释的变异百分比。
“累积%”列为解释的变异的累积百分比。
8个变量(初始特征值=1)总特征值为8,第一个特征值=3.754,3.754/8=46.924%,即主成份1能解释总方差的46.924%,前3个主成分共能解释89.551%(>85%)的总变异。
因此,用前三个主成分就可以很好地概括这组数据。
成份矩阵a
成份
1
2
3
GDP
.884
.385
.120
居民消费水平
.606
-.596
.277
固定资产投资
.911
.163
.213
职工平均工资
.465
-.725
.362
货物周转量
.486
.737
-.279
居民消费价格指数
-.510
.257
.794
商品价格指数
-.621
.596
.433
工业总产值
.822
.429
.210
提取方法:
主成份。
a.已提取了3个成份。
给出主成份系数矩阵,3列分别是3个主成份在各个变量上的载荷,从而可得到各主成份的表达式:
F1=0.884Zx1+0.606Zx2+0.911Zx3+0.465Zx4+0.486Zx5
-0.510Zx6-0.621Zx7+0.822Zx8
F2=0.385Zx1-0.596Zx2+0.163Zx3-0.725Zx4+0.737Zx5
+0.257Zx6+0.596Zx7+0.429Zx8
F3=0.120Zx1+0.277Zx2+0.213Zx3+0.362Zx4-0.279Zx5
+0.794Zx6+0.433Zx7+0.210Zx8
注意:
这里的各变量不是原始变量,而是标准化后的变量(从而各主成份的均值为0)。
可见,第一主成分中x3、x1、x8的系数最大;因此,可以把第一主成分看成是由固定资产投资(x3)、GDP(x1)、工业总产值(x8)所刻画的反映经济发展水平的综合指标。
第二主成分中x5、x7具有较大的正系数,x4、x2则具有较大的负系数;把第二主成分看成是由货物周转量(x5)、职工平均工资(x4)、居民消费水平(x2)、商品零售价格指数(x7)所刻画的与人民生活水平有关的综合指标。
第三主成分中x6的系数最大,远远超过其他指标的影响。
把第三主成分单独看成是居民消费价格指数(x6)的影响指标。
注1:
各主成份的涵义并不十分明确,若要主成份更容易解释,需要做旋转,即因子分析;
注2:
若要计算每个样本的各个主成分的得分,可在【因子分析】窗口,点【得分】,勾选“保存为变量”默认采用“回归”方法计算,点【继续】
得到
利用变量FAC1_1,FAC2_1,FAC3_1,可以计算每个样本的综合得分,具体见下篇【第31篇:
因子分析】。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 学习 系列 30 成份 分析