主成分分析Word下载.docx
- 文档编号:18855803
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:15
- 大小:505.85KB
主成分分析Word下载.docx
《主成分分析Word下载.docx》由会员分享,可在线阅读,更多相关《主成分分析Word下载.docx(15页珍藏版)》请在冰豆网上搜索。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
1
2.477
49.541
2
1.052
21.046
70.587
3
1.003
20.070
90.656
4
.365
7.299
97.955
5
.102
2.045
100.000
实际上,主成分解释总方差的百分比也可以由公因子方差表计算得出,即
(.754+.896+.916+.999+.968)/5=90.66%,
成分矩阵给出了标准化原始变量用求得的主成分线性表示的近似表达式,以currentSalary一行为例,用prin1,prin2,prin3来表示个各主成分,得到:
标准化的Salary~0.940*prin1+0.104*prin2+(2.857E-02)*prin3.
成份矩阵a
.846
-.194
-.014
.940
.104
.029
.917
.264
-.077
.068
-.052
.996
-.178
.965
.069
提取方法:
主成份。
a.已提取了3个成份。
在上面的主成分分析中,SPSS默认是从相关矩阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数,我们可以自己确定,方法为:
选择“抽取——因子的固定数量”可以输入别的数值来改变SPSS软件保留特征根的大小。
另外,还可以直接确定主成分个数。
在实际进行主成分分析时可以先按照默认设置做一次主成分分析,
然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。
由成分矩阵中的结果可以得到:
第一主成分的方差。
又有
这恰好与公因子方差表中三个主成分提取Salary变量的信息相等,重做一遍主成分,此次将5个主成分全部保留,
得到
.496
.008
-.234
.222
-.183
-.225
-.013
-.026
.174
.038
a.已提取了5个成份。
对上表中结果有如下关系式:
还可得到标准化原始变量用各主成分线性表示的精确的表达式:
Salary=0.940*prin1+0.104*prin2+(2.857E-02)*prin3-0.234*prin4+0.222*prin5
由默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果及其他一些有用的结果,就需要对模块中的设置作调整。
方法如下:
得分——显示因子得分系数矩阵。
输出:
成份得分系数矩阵
.342
-.184
.380
.099
.028
.370
.250
.027
-.050
.992
-.072
上表给出了用原始变量表示主成分的系数信息,因为系统默认是从相关矩阵出发进行分析,所以,上面表格中的系数是将原始变量标准化后表示主成分的系数,也就是说,有下式成立:
标准化prin1=0.342*标准化educ+0.380*标准化Salary+0.370*标准化salbegin+0.027*标准化jobtime-0.072*标准化prevexp
应当注意,此处给出的用原始变量表示主成分的表达式得到的是标准化后的主成分,也就是说,这样求得的主成分方差是1.,而不是原始变量相关矩阵的各个特征根,如前所述,第一主成分的方差是2.477,而用上式求得的主成分方差为1,要得出为标准化的主成分与原始变量的表达式,只需将给出的系数前面乘以主成分方差的平方根即可,未标准化第一主成分与原始变量的关系式如下:
prin1=0.342
*标准化educ+0.380
*标准化Salary+0.370
*标准化salbegin+0.027
*标准化jobtime-0.072
*标准化prevexp。
类似可写出第二,第三主成分用标准化后的原始变量表示的表达式。
实验2:
在企业经济效益的的评价中,设计的指标往往很多为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。
在我国部分省市自治区独立核算的工业企业的经济效益评价中,涉及9项指标,原始数据为数据集中前十列,后十列为标准化后的数据。
第一步:
将数据标准化。
将变量全部选入变量窗口,选中“将标准化得分另存为变量”
第二步:
进行主成分分析(如图所示)
选择分析——降维——因子分析
将新产生的变量选入变量窗口(如图)
在描述框中选中相关矩阵中的系数
回到原对话框点击OK即可,输出得到如下:
图1:
为相关矩阵表格,可看出变量之间的相关系数。
相关矩阵
Zscore(VAR00001)
Zscore(VAR00002)
Zscore(VAR00003)
Zscore(VAR00004)
Zscore(VAR00005)
Zscore(VAR00006)
Zscore(VAR00007)
Zscore(VAR00008)
Zscore(VAR00009)
相关
.869
.770
-.053
.211
.920
.899
.795
.978
.387
.472
.886
.804
.814
.849
.523
.531
.797
.736
.740
.811
.323
.115
-.023
.125
.051
.175
.260
.371
.317
.877
.815
.768
.757
.818
.715
图2;
前两个主成分y1,y2,的方差和占全部方差的比例为84.7%,我们就选取y1为第一主成分,y2为第二主成分,这样基本上保留了原来指标的信息,由9个指标转化为2个新指标,起到了降维的目的。
6.150
68.332
1.473
16.365
84.698
.697
7.749
92.447
.318
3.531
95.978
.190
2.112
98.090
6
.116
1.289
99.379
7
.324
99.703
8
.024
.270
99.973
9
.002
图3:
主成分系数矩阵
.931
-.315
.976
.163
.322
.232
.863
.433
.596
.923
-.200
.897
-.274
.871
-.064
-.154
a.已提取了2个成份。
y1=0.931x1+0.976x2+0.931x3+0.232x4+0.433x5+0.923x6+0.897x7+0.871x8+0.899x9
y2=-0.315x1+0.163x2+0.322x3+0.863x4+0.596x5-0.2x6-0.274x7-0.064x8-0.154x9
线性组合中各变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。
本例中,我们得到的2个主成分有着明显的经济意义,第一主成分的线性组合中除下,x4,x5外,其余变量的系数相当,所以第一主成分可看成是x1,x2,x3,x6,x7,x8,x9的综合变量。
根据各变量的含义,可将第一主成分解释为反映工业生产中的投入的资金,劳动力所产生的效果,它是“投入”与“产出”之比,第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产所产生的经济效益更大些。
第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了“产出”对国家所做的贡献。
这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所做的贡献,抓住了这两个方面,经济效益就一定会提高。
第三步:
标准化后的原始数据带入主成分表达式
先选择“数据——选择个案——如果条件满足——将表达式输入计算窗口”
一次步骤计算第二主成分得分。
结果如下:
接下来是将第一主成分为横坐标,第二主成分为纵坐标画图。
选择“图形——旧对话框——三点、点状——简单分布”
将第一主成分得值选入x轴,第二主成分得值选入y轴
由主成分得分与图形可看出,分布在第一象限的是上海,北京,天津,广西四个省区,这四个省区的经济效益在全国来说属于比较好的,其中上海最好。
分布在第四象限的是江苏,浙江,安徽,福建,山东,湖北,广东7各省区,因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,所以7个省区的经济效益也算好,而分布在第二象限和第三象限的地区可属同一类,经济效益较差。
练习:
书中185页例5-4,数据见data3.sav
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析