SPSS学习系列31因子分析.docx
- 文档编号:26538136
- 上传时间:2023-06-20
- 格式:DOCX
- 页数:18
- 大小:227.15KB
SPSS学习系列31因子分析.docx
《SPSS学习系列31因子分析.docx》由会员分享,可在线阅读,更多相关《SPSS学习系列31因子分析.docx(18页珍藏版)》请在冰豆网上搜索。
SPSS学习系列31因子分析
31.因子分析
一、基本原理
因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。
通常情况下,这些相关因素并不能直观观测。
因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。
因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
主成分分析是因子分析的特例。
主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。
因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:
回归模型中的白变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。
得到估计的因子模型后,还必须对得到的公因子进行解释。
即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。
该公因子的重要程度就是在因子模型矩
阵中相应于这个因子的系数。
由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。
目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。
每个样本都可以计算其在各个公因子上的得分,利用因子得分以及该公因子的方差贡献比例,又可以计算每个样本的综合得分。
二、因子分析实例
例1(综合评价问题)对我国30个省市经济发展的8个指标进行分析和排序。
数据文件如下:
it区
对
Ifl
xS
1
1
139409
2506DQ
519.01
014400
3*切
1V.30
112.60
84343
2
2
王津
020.11
2720.00
345,46
BS010G
¥必
115.20
110.60
582.51
3
3
:
哉
2&4952
1I25B00
704B7
483900
20333D
11520
115SO
123485
4
3
IL15
1W2.43
1250.00
290.30
4721
717.3D
iie.9o
115.50
6&725
5
4
B32狷
138700
250抵
413400
7B170
117SO
116B0
41939
c
5辽宁
血3"
2397Q0
38799
491100
1371it)
11610
11400
1M055
7
0
1伪20
1672M
32045
443000
硕4D
11SM
20
76247
7
壁览江
201453
233JW
J3573
4M5OO
124B0
116.10
伸30
124037
•
24C2.57
即300
SLlB4B
WTO00
20F40
nsra
11100
164245
10
m江苏
5155Z&
192GD0
143495
594300
1025SG
115.00
11130
2025g
11
10
3524.7&
2249.00
1006.39
舶1900
754.40
116.90
11150
91(5.59
12
12
圭横
20HJ35B
11254DO
47«100
460900
9D83D
114BO
11270
B2414
216052
2^2000
553,97
5S5FOO
龄30
115,20
114.40
4珥卯
14
14
120511
1182.00
28?
84
421100
^1170
11690
11590
57184
15山哀
500234
1527W
122955
5145W
119A6D
11700
11420
2207明
x1=GDP乂2=居民消费水平;x3=固定资产投资;
x4=职工平均工资;x5瑚物周转量;乂6=居民消费价格;
x7=W品价格指数;x8=T业总产值。
1.【分析】一一【降维】一一【因子分析】,打开“因子分析”
窗口,将变量“x1-x8'选入【变量】框;
2.点【描述】,打开“描述统计”子窗口,勾选【统计量】下的
“单变量描述性”、“原始分析结果”,【相关矩阵】下的“系数”、“再
生”、“KMO和Bartlett的球形度检验”;点【继续】;
筮因子分标能统计入
统计量1
宅单变量描述性世,
,原始撕雄果(!
)
|布如辛I
会系数。
D遒模型但)
I□显著性水平园屋再竺(R)
n行列式⑭n反映家⑥
VKr.10和Bartlett的球形度检验(K)
[继司|取涓||帮毗
3.点【抽取】,打开“抽取”子窗口,【方法】选“主成份”,【分析】选“相关性矩阵”,【输出】勾选“未旋转因子解”、“碎石图”,
【抽取】选“基于特征值:
特征值大于’1'”;点【继续】;
注1:
提取公因子方法有
(1)主成份法(默认),假设变量是各因子的线性组合,从解释变量的变异除非,尽量是变量的方差能被主成分所解释,适合大多数情况;
(2)未加权的最小平方法:
使相关矩阵和再生相关矩阵之差的平方和达到最小;
(3)综合最小平方法:
同
(2),并用单值的倒数对相关系数加权;
(4)最大似然法:
要求数据服从多变量正态分布,此时生成的参数估计最接近观察到相关矩阵,适宜样本量较大情况;
(5)主轴因子分解法:
从原始变量的相关性出发,使变量间的相关程度尽可能地被公因子解释,但对变量方差的解释不太重视;
(6)姻子分解法:
将变量看出从潜在的变量空间中抽取出的样
本,计算时尽量使得变量的。
信度达到最大,适合不好的数据;
(7)映像因子分解法:
把一个变量看作是其它变量的多元回归,
提取公因子
注2:
计算特征值和特征向量时,可选择相关矩阵(不受量纲影响)或协方差矩阵(受量纲影响较大,需先进行变量标准化)计算主成分。
但SPSS故因子分析时,已经包含了变量标准化过程。
二者结果有差异,但在对因子解释和方差贡献率的解释上是一致的。
4.点【旋转】,打开“旋转”子窗口,【方法】选“最大方差法”,
【输出】勾选“旋转解”、“载荷图”;点【继续】;
注:
(1)最大方差法:
最常用,使各因子保持正交前提下的方差
差异(相对载荷平方和)达到最大,方便对公因子解释;
(2)最大四次方值法:
各因子方差差异化更强,并减少和每个
变量有关联的因子数,简化对原变量的解释;
(3)最大平衡值法:
介于方差最大正交旋转与4次方最大正交
旋转之间;
(4)直接Oblimin法:
斜交旋转方法,需先指定一个因子映像
的白相关范围;
(5)Promax:
最常用的斜交旋转法,在方差最大正交旋转的基础上再进行斜交旋转,旋转后允许因子间存在相关,适合有具体的结果倾向时选用。
5.用主成分法提取公因子,用回归法对因子进行估计。
点【得分】,打开“因子得分”子窗口,勾选“保存为变量”方法选“回归”、“显示因子得分系数矩阵”;点【继续】;
|导因子分析:
因-F得分I—■II—aniG^iLiii—amiiM4Lii&-aiiiG^iLi
J_方法1
回回归(5)©DartlcttfB)OArdersan-RjbinfA)
17显示因于馄分系敬貌阵Q)职凋j样也
另外,若在【选项】子窗口,将【系数显示格式】勾选“按大小排序”,将按载荷从大到小排列变量。
点【确定】得到(部分与主成份分析结果相同,略)
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin
度量。
.620
近似卡方
231.285
Bartlett的球形度检验
df
28
Sig.
.000
KMO检验变量间的偏相关是否较大,该值越大越适合做因子分析,0.7以上因子分析效果较好,0.5以下不适合做因子分析。
KMO值=0.620<0.7说明变量间的重叠可能不是特别高。
Bartlett球形度检验判断相关系数矩阵是否是单位阵,原假设H0:
各变量相互独立。
P直<0.001<0.05,故拒绝原假设,即变量间有较强的相关性。
公因子方差
初始
提取
GDP
1.000
.945
居民消费水平
1.000
.799
固定资产投资
1.000
.902
职工平均工资
1.000
.873
货物周转量
1.000
.857
居民消费价格指数
1.000
.957
商品价格指数
1.000
.928
工业总产值
1.000
.904
提取方法:
主成份分析。
公因子方差,表示各变量中所含原始信息能被提取的公因子所表示的程度。
基本都在0.80以上,表示提取的公因子对各变量有较强的解释能力。
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
3.754
46.924
46.924
3.754
46.924
46.924
3.207
40.092
40.092
2
2.203
27.532
74.456
2.203
27.532
74.456
2.217
27.708
67.800
3
1.208
15.096
89.551
1.208
15.096
89.551
1.740
21.752
89.551
4
.403
5.042
94.593
5
.214
2.673
97.266
6
.138
1.722
98.988
7
.066
.829
99.817
8
.015
.183
100.000
提取方法:
主成份分析。
【初始特征值】表示初步提取共同因素的结果:
“合计”列为每
一个主成分的特征值,其值越大表示该主成分在解释8个变量的变异时越重要;“方差的%”列为每个提取因素可以解释的变异百分比;
“累积%”列为解释的变异的累积百分比;8个变量(初始特征值=1)总特征值为8,第一个特征值=3.754,3.754/8=46.924%IP第一个“方差的%”值,累积百分比最终是100%.
【提取平方和载入】给出了旋转前的特征值、解释变异量、累积解释变异量;主成分法默认只提取A1的特征值,共3个即3个公因子(3个是否合适借助碎石图判断),它们共可解释89.551%的变异。
【旋转平方和载入】给出了旋转后的特征值、解释变异量、累积解释变异量;旋转后,共同因素的特征值会改变,但总的特征值之和不变(解释的变异的累积百分比相同);共同性也不会改变,但每个变量在其共同因素中的负荷系数会改变。
碎石图,可以帮助决定公因子的数目。
碎石图将每个公因子的特征值(重要程度)从高到低排序绘制成一条坡度线,横轴为公因子数目。
其判断标准是:
取坡度线急剧下降的部分,去掉坡度线平坦的部分,从图中看选取4个共同因素是合适的。
另外,也要参考选取的合理性:
选择的公因子包含的变量数不能太少。
正常情况下需要将【抽取〕的公因子数设为4重新做因子分析:
在原窗口点【抽取】,打开“抽取”子窗口,选择【抽取】下的
“因子的固定数量”,在【要提取的因子】框输入“4”;点【继续】;
但由于本例中变量数较少,故保持原来的3个公因子
成份矩阵a
成份
1
2
3
GDP
.884
.385
.120
居民消费水平
.606
-.596
.277
固定资产投资
.911
.163
.213
职工平均工资
.465
-.725
.362
货物周转量
.486
.737
-.279
居民消费价格指数
-.510
.257
.794
商品价格指数
-.621
.596
.433
工业总产值
.822
.429
.210
提取方法:
主成份。
a,已提取了3个成份。
旋转前(实际上是主成分分析的结果),8个变量在3个公因子上
的载荷矩阵,载荷值越大表示该变量与其共同因素的关联越大。
由该
矩阵可以计算每个变量的共同性、每个公因子的特征值、再生相关矩阵。
公因子结构表达式(因子模型,前3项为共同因素,与为特殊因子):
Zxi=0.884*F1+0.385*F2+0.120*F3+&
Zx8=0.822*F1+0.429*F2+0.210*F3+但
其中,Zxi为X的标准化变量,Fi的表达式同【第30篇:
主成份分析】中的表示。
共同性为每个变量在各公因子上载荷的平方和,如变量“固定资
产投资”的共同性为:
0.9112+0.1632+0.2132=0.902
公因子的特征值是该公因子上所有载荷的平方和,如公因子1的
特征值为(注意这些特征值是从大到小排列):
0.9112+0.8842+0.8222+…+(-0.510)2=3.754
再生相关性
GDP
居民消费水
平
固定资产投
资
职工平均工
资
货物周转
量
居民消费价格
指数
商品价格指
数
工业总产
值
GDP
.945'
.341
.894
.176
.680
-.257
-.268
.917
居民消费水平
.341
.799'
.515
.814
-.222
-.243
-.611
.301
固定资产投资
.894
.515
.902'
.383
.503
-.254
-.376
.864
职工平均工资
.176
.814
.383
.873'
-.409
-.136
-.563
.148
再生的相
货物周转量
.680
-.222
.503
-.409
.857'
-.280
.017
.657
关性
居民消费价格
-.257
-.243
-.254
-.136
-.280
.957'
.814
-.142
指数
商品价格指数
-.268
-.611
-.376
-.563
.017
.814
.928'
-.163
工业总产值
.917
.301
.864
.148
.657
-.142
-.163
.904'
GDP
-.074
.056
.011
-.062
-.015
.004
-.044
居民消费水平
-.074
-.089
-.098
.071
.008
.019
.062
固定资产投资
.056
-.089
.013
-.073
-.026
.017
-.072
职工平均工资
.011
-.098
.013
.053
-.009
.020
-.049
残差b货物周转量
-.062
.071
-.073
.053
.027
.005
.002
居民消费价格
-.015
.008
-.026
-.009
.027
-.051
.017
指数
商品价格指数
.004
.019
.017
.020
.005
-.051
-.029
工业总产值
-.044
.062
-.072
-.049
.002
.017
-.029
提取方法:
主成份分析。
a.重新生成的公因子方差
b.将计算观察到的相关性和重新生成的相关性之间的残差。
有11(39.0%)个绝对值大于
0.05的非冗余残差。
旋转成份矩阵a
成份
1
2
3
GDP
.955
.124
-.131
居民消费水平
.219
.841
-.209
固定资产投资
.872
.351
-.137
职工平均工资
.048
.925
-.121
货物周转量
.751
-.507
-.192
居民消费价格指数
-.135
-.013
.969
商品价格指数
-.104
-.496
.819
工业总产值
.944
.109
-.014
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在5次迭代后收敛。
采用方差最大正交旋转法旋转后的公因子载荷矩阵,旋转的目的
是为了让载荷大的越大、小的越小(载荷平方和不变),从而更容易区分各变量的归属。
由于是正交转轴,故表中系数可视为变量与共同因素的相关系数矩阵(因素结构或加权矩阵),等于旋转前的公因子载荷矩阵乘以成份转换矩阵。
标准定为选择载荷大于0.75的变量,可看出
公因子1包含变量:
GDP、工业总产值、固定资产投资、货物周
转量;从而,可命名为总量因子;
公因子2包含变量:
职工平均工资、居民消费水平;从而,名为消费因子;
公因子3包含变量:
居民消费价格指数、商品价格指数;从而,可命名为价格因子。
成份转换矩阵
成份
1
2
3
1
.817
.407
-.408
2
.548
-.769
.331
3
.179
.494
.851
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
貌蚀空间中的成分图
成份得分系数矩阵
成份
1
2
3
GDP
.306
.011
.047
居民消费水平
.025
.387
.040
固定资产投资
.270
.129
.075
职工平均工资
-.025
.451
.096
货物周转量
.248
-.319
-.139
居民消费价格指数
.070
.180
.653
商品价格指数
.077
-.098
.462
工业总产值
.317
.026
.123
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正文旋转法。
成分得分矩阵给出了各主成分在每个变量上的载荷,从而得到计
算公式:
F1=0.306Zxi+0.025Zx2+0.270Zx3-0.025Zx4+0.248Zx5
+0.070Zx6+0.077Zx7+0.317Zx8
F2=0.011Zxl+0.387Zx2+0.129Zx3+0.451Zx4-0.319Zx5
+0.180Zx6-0.098Zx7+0.026Zx8
F3=0.047Zx1+0.040Zx2+0.075Zx3+0.096Zx4-0.139Zx5
+0.653Zx6+0.462Zx7+0.123Zx8
注:
该计算公式本质上与利用“旋转成分矩阵”得到的主成分计
算公式是等价的,区别是前者的标准差是1.
成份得分协方差矩阵
成份
1
2
3
1
1.000
.000
.000
2
.000
1.000
.000
3
.000
.000
1.000
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
各公因子的得分保存为新变量(默认为):
FAC1_1~FAC3_1
FAC1_1
FAC2.1
FAC3_1|
39531
1.58499
I-.25742
-.884荷
.90056
-1G2490
[122173
-152098
-7907B
-.36737
-.66112
-14949
-480D7
-88119
.20597
95861
*42903
*61469
r二5彻6
-.39524
「94465
23471
-37340
-57783
F,61539
366227
84687
203444
27145
-17071
G525G
.75030
*32770
-.07274
-.79569
50897
这3个公因子分别从三个不同方面反映了各地经济发展状况,若
要用1个综合得分来综合评价各省市经济发展,可以按各公因子对应
的方差贡献率的比例为权重计算综合得分:
Score=40.092/89.551*FAC1_1+27.708/89.551*FAC2_1+21.752/89.551*FAC3_1
注:
上述数值来白前文“解释的总方差”表。
【计算变量】,
【排序个案】,
S ✓GDF[ki] ,=ne均营.寸平"夕国定贯产没资网#毗平却询网承舆牝廓E筐[向〃愕辟润餐护樨有皆W品忻唱¥戢-\^7]皆xjk^r巨阚]事REGRfactar^c痹RfcGRfac^irsc夕4EGF? factor,Score HH H£ 「IJn 得到 地区1 Score E百 1.61 江苏 95 山家 .95 .90 四川 .67 湖北 .45 .44 云南 一39 「北京 .25 辽= .15 •湖南 .0B 注意: 若有反向变量,需要先转化为正向
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 学习 系列 31 因子分析