1因子分析法FactorAnalysis.docx
- 文档编号:8037393
- 上传时间:2023-01-28
- 格式:DOCX
- 页数:8
- 大小:31.55KB
1因子分析法FactorAnalysis.docx
《1因子分析法FactorAnalysis.docx》由会员分享,可在线阅读,更多相关《1因子分析法FactorAnalysis.docx(8页珍藏版)》请在冰豆网上搜索。
1因子分析法FactorAnalysis
1、因子分析法(FactorAnalysis)
、方法介绍
基本思路:
因子分析法是一种多元统计方法,它从研究相关矩阵内部的依赖关系出发,根据相关性大小把变量分组(使得同组内的变量之间相关性不高,而不同组内的变量之间相关性较低),这样,在尽量减少信息丢失的前提下,从众多指标中提取出少量的不相关指标,然后再根据方差贡献率确定权重,进而计算出综合得分的一种方法。
理论模型:
设m个可能存在相关关系的测试变量z1,z2,,zm含有P个独立的公共因
子F1,F2,……,Fp(m>p),测试变量zi含有独特因子Ui(i=1…m),诸Ui间互不相
关,且与Fj(j=1…p)也互不相关,每个zi可由P个公共因子和自身对应的独特因
子Ui线性表出:
1)
用矩阵表示:
Z1
F1c1U1
(aij)m
简记为
Z
(m1)
A*FCU
(mp)(p1)(mm)(m1)
(对角阵)
(2)
且满足:
(I)
P (II) COV(F.L)=0(即F与U是不相关的); (III) E(F)=0COV(F)=(JppIp。 即F1,・ ••…FP不相关,且方差皆为1,均值皆为0 (IV)E(U)=0 COV(U)=Im即U1,……,Um不相关, 且都是标准化的变量, 假定z1,•… …,zm 也是标准化的,但并不相互独立。 式中A称为因子负荷矩阵,其元素(即(7.2-1)中各方程的系数)aij表示第i个变量(zi)在第j个公共因子Fj上的负荷,简称因子负荷,如果把zi看成P维因子空间的一个向量,贝Uaij表示zi在坐标轴Fj上的投影。 因子分析的目的就是通过模型 (1)或 (2),以F代Z,由于一般有Pvm,从而达到简化变量维数的愿望。 二、使用软件和软件实现过程 采用Eviews5.1、SPSS12.QStata5.1、SASRelease8.02等计量软件均可完成 上述因子分子模型,建议采用SPSS12.0操作。 因子分析的基本步骤如下(事物可观测原始变量为X1,X2,……,Xp): (1)对原始变量标准化。 在因子分析求解时若采用主成分法,由于主成分分析在通过总体协方阵求主成分时,往往优先顾及方差较大的变量,受变量的计量单位影响较大,有时会造成不合理的结果,所以为了消除这种影响,需在分析之前,对原始变量标准化。 标准化最常规的方法是将原变量数列化为均值为0、 方差为1的数列,即令 xE(x) zx jD(x) (2)求出标淮化数据ZX1,ZX2,,zxp的协方差矩阵,或相关系数矩阵R(两 者等价); (3)求R的特征值及相应的一组正交单位特征向量; (4)计算累计贡献率,确定公共因子个数及因子载荷矩阵A; (5)对A作因子旋转(常为方差最大正交旋转),使得能对公共因子给出合理的解释; (6)计算因子得分,根据得分对研究问题作比较分析。 上述计算步骤及作图可利用SPSS11.0软件来完成: (1)选择菜单中“Analyze->descriptivestatistics->desctrptives...",对xi,X2,…, xp指标进行标准化处理,并将标准化后的变量保存在数据编辑窗口; (2)选择菜单中“Analyze->datareduction-factor",打开因子分析对话框,将标准化后的变量放人Variables中,进行主成分分析; (3)在主成分分析的基础上进行观察,发现提取几个公共因子较佳,在 “factor->extract->numbersoffacto"中输人公共因子的个数; ⑷在“factor-rotation”中选择varimax,对因子进行方差最大旋转; (5)在“factor-score"中选regression计算因子得分。 三、一个简单例证: 重庆城镇居民消费结构变动的因子分析 本文运用数理统计中的因子分析法,对重庆直辖后城镇居民消费结构的变动情况进行分析,认为居民消费主要受生存型消费和享受型消费两大因子的影响,分析表明这两型因子所占比重近几年来都稳定在8: 2的水平上,并未发生大的变化。 1、资料来源消费结构是人们在生活中消费的消费资料和接受的服务种类及其比例关系, 也就是指各类消费支出在总消费支出中的比重。 对居民消费支出按照人们实际支出的去向分类可分为食品、衣着、家庭设备及服务、医疗保健、交通通讯、文教娱乐及服务、居住、杂项商品及服务。 分别记为X1,X2,,X8。 根据重庆市统计年鉴1998〜2003年各卷,得重庆市城镇居民消费结构变化如表1所示。 由表1中资料可知,食品、衣着所占比重从1998年开始是下降的。 联合国提出的恩格尔系数(食品在总消费支出中的比重)判定生活发展阶段的一般标准: 60%以上为贫困,50%〜60%为温饱,40%〜50%为小康,40%以下为富裕,可见重庆城镇居民消费水平已从小康迈向了富裕。 家庭设备所占比重也是下降的,这说明居民对一般家庭设备的需求已经基本饱和,且由于总收入的增加,杂项支出所占比重也逐年下降。 另一方面,表1说明: 医疗保健、交通通讯、文教娱乐和住房消费所占比重在逐年上升。 这是因为随着社会的发展,居民的保健意识增强,更关注自身的身心健康,再加上医保制度的改革,所以医疗保健所占比重逐年上升;由于城镇居民家庭拥有小汽车的比例增加,移动通讯的普遍使用,网络通讯进入家庭,因而交通和通讯所占比重也是上升的;由于居民对自身进一步发展和子女教育的投入力度加大,并且在物资享受已经得到满足的情况下更加注重精神享受,所以文教和娱乐方面的支出增多;随着我国住房制度的改革,居民在居住上面的支出也出现了大幅增加。 为了进一步研究消费结构的变化情况,下面用因子分析法,对表1的数据进行统计分析。 表1重庆城镇居民消费结构变化(%) 年份 食品 衣着 家庭设 医疗保 父通通 文教娱 居住 杂项 (X1) (X2) 备(X3) 健(X4) 讯(X5) 乐(X6) (X7) (X8) 1988 45.52 12.17 9.8 3.39 6 12.92 6.09 4.11 1999 44.50 11.7 9.4 3.8 6.9 12.4 7.2 4.1 2000 40.40 10.1 8.7 5.4 7.4 14.4 9 4.6 2001 38.70 10.2 8.8 5.8 7.7 14.7 9.8 4.3 2002 38.00 9.8 7.1 6.8 9.7 16.7 9.3 2.6 2、消费结构的因子模型 由表1中资料得样本均值向量: X=(41.42,10.79,8.76,5.04,7.54, 14.22,8.27,3.94),且用软件SPSS计算变量的相关系数矩阵的特征值和贡 献率见表2。 由表2可以看出变量相关系数矩阵有两个大的特征根为6.6721和1.142,其累计贡献率达到98.292%,又根据图1,前两个公因子变化最大,说明前两个公因子提供了原始数据8个指标所能表达的足够的信息。 因子分析初始解对变量的描述提取共因子后对变量的描述 变量序列号 特征值 方差贡献率 累计方差 贡献率 特征值 方差贡献率 累计方差 贡献率 1 6.720 84.017 84.017 6.720 84.017 84.017 2 1.420 14.275 98.292 1.142 14.275 98.292 3 0.083 1.036 99.329 4 0.054 0.671 100.000 5 0.000 0.000 100.000 6 0.000 0.000 100.000 7 0.000 0.000 100.000 8 0.000 0.000 100.000 因此提取两个主因子,用主成份分析法和正交旋转法计算得旋转前后的因子载荷阵如表3所示。 表3因子载荷阵 原始因子载荷阵 旋转后因子载荷阵 变量 公因子 共同度 公因子 1 2 1 2 X1 -0.96 -0.26 0.989 -0.941 0.323 X2 -0.942 -0.318 0.987 -0.958 0.264 X3 -0.96 0.25 0.984 -0.655 0.745 X4 0.994 0.103 0.999 0.881 -0.472 X5 0.961 -0.235 0.979 0.664 -0.734 X6 0.969 -0.112 0.952 0.74 -0.036 X7 0.876 0.461 0.98 0.984 -0.109 X8 -0.611 0.787 0.993 -0.065 0.994 由表3可得消费结构的因子分析模型为 X1= =-0.941斤+0.323F X5 =0.664斤 -0.734F2 X2: =-0.958F+0.264F X6= =0.740斤- 0.036F2 X3: =-0.655斤+0.745怎 X7= : 0.984F- 0.109F2 X4= =0.881F-0.472F X8= -0.065斤 +0.994F2 选用回归法估算因子得分系数如表4所示 表4因子得分系数 变量 X1 X2X3 X4X5 X6 X7X8 公因子 1 -0.246 -0.2720.004 0.1730.003 0.664 0.3340.311 序号 2 -0.109 -1.520.261 -0.009-0.251 -0.162 0.2610.622 由此计算5 年的因子得分如表5所示。 表5 各年份因子得分 因子 1998 1999 2000 2001 2002 Fi-i -1.29601 -0.8392 0.71878 0.92768 0.48875 F2-1 0.12277 0.18081 0.77019 0.64263 -1.71641 3、结果分析 从表3可以看出,第一个主因子在Xi,X2,X4,X6,X75个方面有较大载荷,这几项指标主要反映居民为了生存必需要消费支出的变化情况,因 此命名为生存型消费因子;第二个主因子在X3,X5,X83方面有较大载荷,这几项指标主要反映居民为了改善生活,提高生活效率如购买小汽车,使用移动通讯等方面的消费支出变化情况,因此命名为享受型消费因子。 分类情况如表6 所示。 表6主因子分析 高载荷指标 因子命名 1 食品,衣着,医疗保健,文教娱乐,居住 生存型消费因子 2 家庭设备,交通通讯,杂项商品及服务 享受型消费因子 结合表1,根据分类将各年数据相加,得生存型消费因子与享受型消费因子在1998-2002年这5年中所占比重如表7所示。 表7各年份两型因子所占比重(%) 1998 1999 2000 2001 2002 生存型消费因子 80.19 79.6 79.3 79.2 80.6 享受型消费因子 19.91 20.4 20.7 20.8 19.4 由表7可知,这5年来,生存型消费因子所占比重基本为80%左右,享受型消费因子所占比重为20%左右,各自的变化幅度不大。 这说明虽然重庆市城镇居民的收入增加了,但是由于医疗、住房制度的改革和教育收费标准的提高,居 民生存型消费支出在增加,但另一方面用于享受型消费支出也出现相应的增加,这两型因子所占比重基本维持在8: 2的水平上,说明重庆市城镇居民消费结构保持相对稳定,变化不大。 四、评价及问题 方法评价: 因子分析法最大优势在于各综合因子的权重不是主观赋值而是根据各自的方差贡献率大小来确定的,方差越大的变量越重要,从而具有较大的权重;相反,方差越小的变量所对应的权重也就越小。 这就避免了人为确定权重的随意性,使得排行结果唯一,而且较为客观合理。 此外,因子分析的整个过程都可以运用计算机软件方便快捷地进行,可操作性强。 因此,与其他方法相比,因子分析法是一种科学、实用、简便的综合排行方法,适用于解决多指标的综合评价问题。 需注意问题: (1)在利用因子分析法的开始阶段,应当尽可能多地选取与研究对象有关的指标,以免遗漏重要的评估指标。 然后,就可以通过因子分析选择相对更为有效的指标,构建研究对象评估的指标体系,进而进行基于数据本身的相对客观的评估。 (2)设定好因子分析指标后,还要对因子分析法的可行性进行研究。 因子分析法应用的前提是原有变量之间应具有较强的相关关系,否则根本无法从中综合出能够反映某些变量共同特性的几个较少的公共因子变量。 (3)当然,因子分析法作为一种比较性的方法,也有其局限性。 主要的局限性在于它需要较多的数据,只有这样才能根据这些数据分析出研究对象与各指标有关的不可观测的因子,进而进行评估计算。 五、重要文献 [1]胡瑞平.因子分析在确立人才理想知识、能力结构中的应用[J].数理统计与管理,2002 (1): 28230. [2]于绣林,任雪松.多元统计分析[M].北京: 中国统计出版社,1999. [3]何晓群.现代统计方法与应用[M].北京: 中国人民大学出版社,1998. [4]余建英•何旭宏.数据统计分析与SPSS应用[M].北京: 人民邮电出版社,2003.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 因子分析 FactorAnalysis