第五部分因子分析.docx
- 文档编号:25843651
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:24
- 大小:104.91KB
第五部分因子分析.docx
《第五部分因子分析.docx》由会员分享,可在线阅读,更多相关《第五部分因子分析.docx(24页珍藏版)》请在冰豆网上搜索。
第五部分因子分析
第五部分因子分析
本部分内容:
一、主成分分析
二、因子分析
三、SPSS操作路径
一、主成分分析
(一)一个简化分析事例
1、坐标变换
假定小学某班级学生的语文成绩(X1)数学成绩(X2)的相关系数r12=0.6,且X1和X2都是标准化分数,其散点图如图1所示。
现通过旋转(X1,X2)变换出新坐标(Y1,Y2),使新坐标的Y1轴对准散点分布方差最大的方向。
下面给出由原坐标系(X1,X2)变换为新坐标系(Y1,Y2)的方法。
椭圆较长的直径的方差的65%,则可进行变量简化。
把变量标准化,λ即方差。
图1图2
记随机矢量X′=(X1,X2)的协方差矩阵为∑,则
∑=
设u是以λ为特征值的特征矢量矩阵,把上述结果代入特征值矩阵方程(∑-λI)u=0,得
,
。
得方程组(1-λ)u1+0.6u2=0,
0.6u1+(1-λ)u2=0。
要使该方程组有非零解,系数行列式必须为零,故
。
由此解得特征值的两个取值
λ1=1.6,
λ2=0.4。
代入原方程组,取特征矢量为单位矢量,即要求
求得对应的特征矢量
=(u11,u21)=(
),
=(u12,u22)=(
)。
最后求得新坐标系(Y1,Y2)与原坐标系(X1,X2)的关系为
,
。
结果显示,新坐标是通过原坐标逆时针旋转45°得到的。
如此求得的新坐标即可满足“Y1轴对准散点分布方差最大的方向”这一要求。
2、特征值λi与散点分布方差的关系
矢量Y1和Y2的方差的计算公式为
Var(Y1)=Var(
X)=
,
其中∑为协方差矩阵。
同理
Var(Y2)=Var(
X)=
。
上述结果表明,散点分布的最大变差方向由变换所得到的特征向量Y1给定,而相应的特征值λ1和λ2刻画了与各特征向量Y1和Y2对应的散点分布方差。
并且,散点分布在Y1方向上的方差占全部方向Y1和Y2上的方差的比例为
。
也就是说,散点分布变差特点的80%可以在Y1方向得到解释,而Y2方向只占20%。
Y1就是本例中的第一主成分。
(思考:
在原坐标系中,散点分布变差的特点在X1和X2方向上的情况如何?
)
(二)主成分的一般推导
1、主成分的三个特征
寻找主成分的目的,是为了根据原有统计指标体系(即原有坐标系),建立更加符合数据散点分布特征的新坐标系,在保证大部分统计信息得到反映的前提下,选择尽可能少的统计指标,简化统计描述,使统计数据中隐含的因果性因素更为清晰。
主成分分析就是要揭示统计数据的变差主要出现在哪些方向上,然后选择这些方向作为简化的新坐标,用以描述统计数据的多维分布特征。
因此,主成分应满足以下三个特征:
(1)在p个指标Xi(i=1,2,3,…,p)的统计描述体系X中,表征主成分的特征矢量Yi应为原坐标Xi的线性组合,若记Yi在Xi中的分量为
,则
这一要求的意思是,新坐标只能由原坐标轴产生,而不能撇开原坐标的统计内容不顾。
这是为了保证,新坐标表征的统计体系在内容上与原坐标表征的统计体系相同,改变仅限于描述方式的不同。
(2)
,即
,其中i=1,2,3,…,p(该要求在求解λi时自然满足),并且,相应的Yi的p个特征值λi中的少数几个已包含绝大部分可解释的方差。
这一要求的含义是,特征矢量为单位矢量,其中少数几个穿过数据散点分布方差较大的方向,用新坐标Yi描写数据的统计特征时,只需采用其中这些穿过数据散点分布方差较大方向的新坐标就足以描述绝大部分变差的情况,从而可以比原坐标Xi的描述简化。
能否实现这一要求,须由实际的推导决定。
(3)Yi和Yj(i≠j)相互无关(正交),即新坐标轴两两独立。
以数学方式表述为协方差Cov(Yi,Yj)=0,i≠j。
这一要求,在运用标准化数据的相关矩阵求解特征值λi和特征矢量Yi的过程中,将自然得到满足,无须特别处理。
2、主成分的导出步骤
综上所述,主成分可以通过以下步骤求解:
(1)把数据标准化,写出标准化数据矩阵X;
(2)写出相关系数矩阵
:
(3)通过矩阵方程(∑-λI)u=0求出特征值λi和特征矢量Yi。
特征值一般按以下规则命名:
。
此时,主成分已按从大到小排列的顺序求出。
(4)利用特征值从大到小累计,计算前m个特征值累计可解释的方差在总方差中所占的比例:
,
然后根据研究目的确定可选择哪些主成分而略去另外哪一些主成分,最后用于统计数据分析。
(三)主成分分析应用举例
(四)主成分分析小结
1、主成分分析适用于为简化数据结构提供方向性依据,方法是将原有的众多变量转化为几个综合变量,并保证原有的大部分统计信息(以累计方差衡量)在综合变量中同样得到反映。
2、主成分分析具有明确的几何意义,它通过把坐标轴旋转获得新坐标,并使新坐标轴的方向与数据分布变差最大的方向一致。
可以证明协方差矩阵(或相关矩阵)的单位特征向量的方向就是新坐标轴的方向。
3、主成分分析在各变量间的相关关系比较密切时才会有明显价值,此时,数学上表现为各特征值相差较大。
一般,特征值差异越大(表现为累计方差集中在少数几个统计指标上),主成分分析的效果越好。
一、因子分析
如果统计体系中的某些统计描述指标具有很强的相关性,在这些强相关的统计指标中,统计对象在某一个统计指标上的状况即可表明该对象在其他指标的大部分状况,从而,可以把这些强相关的统计指标合并在一起,更为清晰地反映统计对象的特征,使统计系统得以简化和基本变量结构更加明确。
(一)因子分析的基本思想
(二)因子分析的数学模型
(三)公共载荷的求解——主成分法
载荷矩阵A的意义:
(四)因子旋转
因子旋转的目的是要弄清公共因子在原变量系统中的概括含义。
公共因子在原变量体系中的不同负荷绝对值(投影长度)越大,公共因子与这些变量的联系就越密切。
所谓旋转,就是把某一公共因子中的变量旋转到某些原变量的最大投影方向。
如果无论怎样旋转,因子负荷在原变量中的投影始终相差不远,因子分析就没有多大意义了。
所以,在有意义的因子分析中,旋转后的因子负荷矩阵应满足以下要求:
1、每一列上多数因子负荷取值接近与零;
2、每一列上只有少数的因子负荷取较大值;
3、每两列中,因子负荷较大和较小的排列结构明显不同。
满足上述要求时,因子分析将可以得到明确而简明的解释。
最常用的因子旋转方法是“方差最大正交旋转”。
具体运算此处不作介绍。
二、因子分析应用举例
仍以30个省市自治区经济发展基本情况的统计数据为例。
计算步骤:
附录:
通过项目剔除获得高质量的因子分析结果
以某事业单位员工福利满意度调查为例,对样本数据运用主成分法进行探索性因素分析。
问卷内容如下:
下面的项目是对您单位福利状况的一些描述,请您仔细阅读每一个句子,然后根据自己的实际情况对每一项目做出评定,从1到5表示对您情况描述的同意程度,请您在相应的程度升划√。
答案无对错、优劣之分,请根据您的实际情况填写。
其中:
1=完全不同意,2=比较不同意,3=介于同意与不同意之间,4=比较同意,5=完全同意。
题
号
内 容
完全不同意
比较
不
同意
介于同意与不同意之间
比较同意
完全同意
1
单位所提供得福利基本上满足了我的需求和期望
1
2
3
4
5
2
单位提供的福利措施使我感到工作和生活上有了保障
1
2
3
4
5
3
我感觉我享受到的福利价值比较高
1
2
3
4
5
4
从这些福利中,能体会到了单位对我的关怀
1
2
3
4
5
5
我清楚自己享有的福利项目所花的费用是多少
1
2
3
4
5
6
我很满意单位为我提供福利所支付的金额
1
2
3
4
5
7
我认为福利占我的整体收入的比例很合理
1
2
3
4
5
8
本单位为员工提供了丰富的个性化福利项目
1
2
3
4
5
9
单位为我提供了丰富的经济性福利(如退休金、团体保险、伤病救助贷款、分红入股、休假给予的报酬等)
1
2
3
4
5
10
单位为我提供了丰富的娱乐性福利(如旅游、运动会、社团活动、晚会、书报杂志词阅、演讲和座谈、电影欣赏等)
1
2
3
4
5
11
单位为我提供了丰富的设施性福利(体育设施、休闲设施、员工宿舍和餐饮、医疗卫生设施、免费停车场等)
1
2
3
4
5
12
单位为我提供了丰富的员工服务福利(职业生涯规划、员工法律咨询、员工投资咨询、弹性工作时间、培训等)
1
2
3
4
5
13
本单位能把福利制度及相关措施清楚的告知员工
1
2
3
4
5
14
我很了解本单位各项的福利措施,并能很快的列举出
1
2
3
4
5
15
本单位经常请一些员工来参与讨论有关福利的各项问题
1
2
3
4
5
16
对单位福利有疑问或意见时,我有很多途径向上级反映
1
2
3
4
5
17
福利计划一旦有变动,单位会及时告诉我
1
2
3
4
5
第一次因子分析
为验证本实验数据是否适合进行因素分析,对数据进行了Bartlett球形检验和KMO取值。
表1.第一次因子分析的KMO值和Bartlett’s球形检验的χ2值(n=256)
Kaiser-Meyer-Olkin样本适当性度量
0.946
Bartlett球形检验
近似卡方分布
3239.091
自由度
136
显著性水平
0.000
如表4.2所示,样本的KMO值为0.946,Bartlett’s球形检验的χ2值为3232.091,伴随概率小于0.001,达到非常显著水平,表明数据适合进行因素分析。
在进行了因素分析的适合性分析之后,接下来就要进行因素分析的具体研究。
运用主成分法抽取共同因素,结合最大方差法进行正交旋转处理,提取特征值大于1的因子,结果发现特征值大于1的公共因子共有3个,这3个公共因子累计解释率达70.892%,所有题项共同度均大于0.5。
结果如表4.3和表4.4所示。
表1-1第一次因子分析的总体变异解释率(n=256)
因子
初始特征值
平方和负荷萃取
转轴平方和负荷量
总和
方差%
累计%
总和
方差%
累计%
总和
方差%
累计%
1
9.513
55.960
55.960
9.513
55.960
55.960
4.825
28.384
28.384
2
1.400
8.234
64.194
1.400
8.234
64.194
3.697
21.750
50.134
3
1.139
6.698
70.892
1.139
6.698
70.892
3.529
20.758
70.892
4
0.679
3.996
74.887
5
0.592
3.483
78.371
6
0.523
3.078
81.449
7
0.436
2.565
84.014
8
0.399
2.349
86.363
9
0.373
2.194
88.557
10
0.329
1.937
90.494
11
0.291
1.712
92.205
12
0.285
1.676
93.882
13
0.256
1.503
95.385
14
0.235
1.384
96.768
15
0.200
1.175
97.944
16
0.183
1.078
99.022
17
0.166
.978
100.00
表1-2第一次因子分析的转轴后因素矩阵及共同度(n=256)
因子
1
2
3
共同度
S2
0.836
0.780
S1
0.828
0.788
S3
0.784
0.773
S4
0.774
0.748
S6
0.733
0.776
S7
0.665
0.666
S17
0.803
0.707
S13
0.785
0.743
S14
0.700
0.641
S15
0.598
0.552
0.734
S5
0.408
0.589
0.514
S16
0.463
0.578
0.659
S10
0.825
0.755
S11
0.802
0.771
S12
0.470
0.656
0.720
S9
0.470
0.617
0.616
S8
0.484
0.554
0.662
注:
表中因子载荷值小于0.4者不被显示
由表4.4因素分析的结果显示,题项S15、S5、S16、S12、S9、S8具有多重负荷。
其中S15不仅具有多重负荷,且负荷值比较接近,所以删除S15题项,再进行因子分析。
第二次因子分析
表2.第二次因子分析的总体变异解释率(n=256)
因子
初始特征值
平方和负荷萃取
转轴平方和负荷量
总和
方差%
累计%
总和
方差%
累计%
总和
方差%
累计%
1
8.913
55.704
55.704
8.913
55.704
55.704
4.828
30.177
30.177
2
1.316
8.226
63.929
1.316
8.226
63.929
3.305
20.655
50.832
3
1.135
7.095
71.025
1.135
7.095
71.025
3.231
20.193
71.025
4
0.664
4.148
75.173
5
0.563
3.522
78.694
6
0.511
3.195
81.890
7
0.436
2.726
84.615
8
0.399
2.495
87.110
9
0.337
2.108
89.218
10
0.329
2.058
91.276
11
0.288
1.801
93.077
12
0.281
1.759
94.836
13
0.247
1.544
96.380
14
0.226
1.413
97.793
15
0.185
1.158
98.951
16
0.168
1.049
100.000
表2-1第二次因子分析的转轴后因素矩阵及共同度(n=256)
题项
因子
1
2
3
共同度
S2
0.833
0.773
S1
0.823
0.781
S3
0.783
0.771
S4
0.777
0.747
S6
0.743
0.777
S7
0.678
0.668
S17
0.808
0.719
S13
0.797
0.770
S14
0.713
0.661
S5
0.424
0.576
0.512
S16
0.481
0.563
0.652
S10
0.838
0.777
S11
0.808
0.781
S12
0.458
0.646
0.706
S9
0.469
0.620
0.651
S8
0.506
0.537
0.618
注:
表中因子载荷值小于0.4者不被显示
由第二次因子分析结果表4.5可看出,总体变异解释率达71.025%(即删除S15题项后略有上升),所以删去S15题项是可取的。
表4.6结果显示,题项S5、S16、S12、S9、S8仍然具有多重负荷。
其中S8负荷值比较接近,所以删除S8题项,再进行因子分析。
第三次因子分析
表3.第三次因子分析的总体变异解释率(n=256)
因子
初始特征值
平方和负荷率
转轴平方和负荷量
总和
方差%
累计%
总和
方差%
累计%
总和
方差%
累计%
1
8.314
55.428
55.428
8.314
55.428
55.428
4.633
30.888
30.888
2
1.316
8.774
64.202
1.316
8.774
64.202
3.243
21.617
52.504
3
1.119
7.457
71.660
1.119
7.457
71.660
2.873
19.155
71.660
4
0.651
4.342
76.002
5
0.554
3.693
79.694
6
0.472
3.146
82.841
7
0.434
2.893
85.734
8
0.349
2.324
88.058
9
0.337
2.245
90.303
10
0.329
2.194
92.497
11
0.282
1.879
94.376
12
0.247
1.647
96.023
13
0.226
1.509
97.532
14
0.193
1.284
98.816
15
0.178
1.184
100.000
表3-1第三次因子分析转轴后的因素矩阵及共同度(n=256)
题项
因子
1
2
3
共同度
S2
0.836
0.778
S1
0.826
0.783
S3
0.787
0.772
S4
0.783
0.755
S6
0.746
0.772
S7
0.681
0.665
S17
0.808
0.718
S13
0.800
0.770
S14
0.712
0.662
S5
0.423
0.582
0.519
S16
0.484
0.568
0.652
S10
0.844
0.794
S11
0.809
0.793
S12
0.467
0.631
0.699
S9
0.477
0.611
0.618
注:
表中因子载荷值小于0.4者不被显示
由第三次因子分析结果表4.7可看出,总体变异解释率达71.660%(删除S8题项后略有上升),所以删去S8题项是可取的。
表4.8结果显示,题项S5、S16、S12、S9仍然具有多重负荷。
其中S16负荷值比较接近,所以删除S16题项,再进行因子分析。
第四次因子分析
表4.第四次因子分析的总体变异解释率(n=256)
因子
初始特征值
平方和负荷萃取
转轴平方和负荷量
总和
方差%
累计%
总和
方差%
累计%
总和
方差%
累计%
1
7.725
55.178
55.178
7.725
55.178
55.178
4.457
31.834
31.834
2
1.305
9.320
64.499
1.305
9.320
64.499
2.878
20.556
52.390
3
1.107
7.904
72.403
1.107
7.904
72.403
2.802
20.013
72.403
4
0.651
4.652
77.055
5
0.521
3.723
80.778
6
0.471
3.363
84.141
7
0.391
2.795
86.936
8
0.346
2.468
89.404
9
0.332
2.373
91.777
10
0.288
2.058
93.835
11
0.260
1.856
95.692
12
0.231
1.650
97.341
13
0.194
1.387
98.729
14
0.178
1.271
100.000
表4-1第四次因子分析转轴后的因素矩阵及共同度(n=256)
题项
因子
1
2
3
共同度
S2
0.839
0.780
S1
0.829
0.787
S3
0.790
0.775
S4
0.785
0.757
S6
0.750
0.768
S7
0.684
0.658
S13
0.809
0.791
S17
0.804
0.718
S14
0.708
0.665
S5
0.432
0.584
0.527
S10
0.847
0.795
S11
0.811
0.794
S12
0.466
0.633
0.704
S9
0.478
0.610
0.616
注:
表中因子载荷值小于0.4者不被显示
由第四次因子分析结果表4.9可看出,总体变异解释率达72.403%(删除S16题项后略有上升),所以删去S16题项是合理的。
表4.10结果显示,题项S5、S12、S9仍然具有多重负荷。
其中S9负荷值比较接近,所以删除S9题项,再进行因子分析。
第五次因子分析
经过多次探索,最后剩下了13个项目。
对这13个项目进行因素分析,采用主成分分析中的方差最大正交旋转,所得的统计结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五部分 因子分析 第五 部分
![提示](https://static.bdocx.com/images/bang_tan.gif)