主成分分析计算方法和步骤Word格式.docx
- 文档编号:13086667
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:5
- 大小:38.51KB
主成分分析计算方法和步骤Word格式.docx
《主成分分析计算方法和步骤Word格式.docx》由会员分享,可在线阅读,更多相关《主成分分析计算方法和步骤Word格式.docx(5页珍藏版)》请在冰豆网上搜索。
⑤合成主成分,得到综合评价值。
结合数据进行分析
本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。
如:
招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。
表5-6相关系数矩阵
本科院校数
招生人数
教育经费投入
相关性
师生比
0.279
0.329
0.252
重点高校数
0.345
0.204
0.310
教工人数
0.963
0.954
0.896
1.000
0.938
0.881
0.893
-0.218
0.208
0.433
教育经费投入(元)
表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:
第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;
第二,方差贡献率大于85%,如果这两个标准不能同时符合要求,则往往是因为选择的指标不合理或者样本容量太小,应继续调整。
表5-7还显示,只有前2个特征根大于1,因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了87.081%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。
表5-7方差贡献率以及累计贡献率
元件
起始特征值
提取平方和载入
合计
方差的贡献率%
累加贡献率%
1
3.983
66.390
2
1.241
20.691
87.081
3
0.571
9.508
96.589
.571
4
0.140
2.335
98.925
.140
5
0.052
0.869
99.794
.052
6
0.012
0.206
100.000
.012
表5-8为输出的主成分系数矩阵,可以说明各主成分在各变量上的载荷。
由表5-8
可以看出,标准化后的第一主成分(简称)对所有变量都有载荷,且载荷绝对值几乎都在0.7以上,因此可以说第一主成分是对人口结构的度量,代表了一个地区人口结构状况,可以称之为“综合因子”。
在综合因子中,平均每户人口,农业与非农业人口比例,人口的自然增长率比重即人口自然增长各指标具有较强的作用,人与经济等其他指标所起的作用次之,男女比例也起一定作用。
第二主成分(简称)对重点高校数和教工人数具有负载荷,其他变量具有正载荷,并且除师生比和重点高校数载荷绝对值均小于0.2,有的甚至接近于0.1。
因此,第二个主成分只是汇集了第一主成分遗漏的部分信息,我们称之为“辅助因子”。
表5-8主成分矩阵
成分
0.317
0.799
0.396
-0.759
0.984
-0.095
0.973
0.005
0.964
0.131
0.939
0.011
表5-9主成分评分系数矩阵
.079
.643
.099
-.612
.247
-.077
.244
.004
.242
.106
.236
.009
根据表5-9可以得到各主成分的表达式
把变量分别代入以上表达式,可以得出和两个主成分得分,但单独一个主成分不能很好地评价十个地区人口结构的情况,因此需要按照各主成分对应的方差贡献率为权数计算综合统计F,()
主成分分析法的优点:
1、可消除评价指标之间的相关影响因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标之间相关程度越高,主成分分析效果越好。
2、可减少指标选择的工作量对于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。
3、当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前后方差较大的几个主成分来代表原变量,从而减少了计算工作量。
4、在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。
5、这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件
主成分分析法的缺点:
1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 计算方法 步骤