书签分享收藏举报版权申诉 / 10

立即下载加入VIP,免费下载

当前位置：首页 > IT计算机 > 计算机软件及应用 > SPSS学习系列30主成份分析.docx

SPSS学习系列30主成份分析.docx

文档编号：1068328
上传时间：2022-10-16
格式：DOCX
页数：10
大小：273.10KB

《SPSS学习系列30主成份分析.docx》由会员分享，可在线阅读，更多相关《SPSS学习系列30主成份分析.docx（10页珍藏版）》请在冰豆网上搜索。

SPSS学习系列30主成份分析.docx

SPSS学习系列30主成份分析

30.主成份分析

一、基本原理

主成份分析，是数学上对数据降维的一种方法，是将多个变量转化为少数综合变量（集中了原始变量的大部分信息）的一种多元统计方法。

其主要目的是将变量减少，并使其改变为少数几个相互独立的线性组合形成的新变量（主成份，其方差最大），使得原始资料在这些成份上显示最大的个别差异来。

在所有的线性组合中所选取的F1应该是方差最大的，称为第一主成分。

如果第一主成分不足以代表原来所有指标的信息，再考虑选取第二个线性组合F2,称为第二主成分。

为了有效地反映原有信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov（F1，F2）＝0.依此类推可以构造出第三、第四、…、第p个主成分。

主成份分析，可以用来综合变量之间的关系，也可用来减少回归分析或聚类分析中的变量数目。

设有n个样品（多元观测值），每个样品观测p项指标（变量）：

X1，…，Xp，得到原始数据资料阵：

其中，Xi=（x1i，x2i，…，xni）T，i=1,…,p.

用数据矩阵X的p个列向量（即p个指标向量）X1，…，Xp作线性组合，得到综合指标向量：

简写成：

Fi=a1iX1+a2iX2+…+apiXpi=1,…,p

限制系数ai=（a1i，a2i，…，api）T为单位向量，即

且由下列原则决定：

（1）Fi与Fj互不相关，即COV（Fi,Fj）=aiT∑ai=0，其中∑为X的协方差矩阵；

（2）F1是X1，X2，…，Xp的所有满足上述要求的线性组合中方差最大的，即

F2是与F1不相关的X1，…，Xp所有线性组合中方差最大的，…，Fp是与F1，…，Fp-1都不相关的X1，…，Xp所有线性组合中方差最大的。

满足上述要求的综合指标向量F1，F2，…，Fp就是主成分，这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减，每一个主成分所提取的信息量用方差来度量，主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi，每一个主成分的组合系数

ai=（a1i，a2i，…，api）T

就是特征值λi所对应的单位特征向量。

方差的贡献率为

αi越大，说明相应的主成分反映综合信息的能力越强。

注：

主成分分析是将原始变量组成的坐标系进行平移变换，使得新的坐标原点和数据群点的重心重合。

新坐标第一轴与数据变化最大方向对应。

F1，F2，…，Fp可以理解为p维空间中互相垂直的p个坐标轴。

基本步骤：

（1）计算样品数据协方差矩阵Σ=（sij）p⨯p，其中

（2）求出Σ的特征值及相应的特征向量λ1>λ2>…>λp>0,及相应的正交化单位特征向量：

则X的第i个主成分为Fi=aiTX，i=1,…,p.

（3）选择主成分

在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。

一般用方差贡献率

解释主成分Fi所反映的信息量的大小，m的确定是用累计贡献率

达到足够大（一般在85%以上）为原则。

（4）计算n个样品在m个主成分得分

注：

标准化后变量的协方差矩阵Σ=（sij）p⨯p，与原变量的相关系数矩阵R=（rij）p⨯p相同，故主成分分析可以从原始变量数据的相关系数矩阵，也可以从标准化数据的协方差矩阵出发做分析。

二、主成分分析实例

例1对我国30个省市经济发展的8个指标做主成份分析。

数据文件如下：

x1=GDP；x2=居民消费水平；x3=固定资产投资；

x4=职工平均工资；x5=货物周转量；x6=居民消费价格；

x7=商品价格指数；x8=工业总产值。

1.【分析】——【降维】——【因子分析】，打开“因子分析”窗口，将变量“x1-x8”选入【变量】框；

2.点【描述】，打开“描述统计”子窗口，勾选【统计量】下的“单变量描述性”、“原始分析结果”，【相关矩阵】下的“系数”；点【继续】；

其它保持默认即可，【抽取】选项，抽取方法默认就是“主成份”，默认只选取特征值大于1的主成分。

注意：

SPSS进行因子（主成份）分析时，自动对原始变量进行标准化处理，输出结果中的变量通常都是指标准化后的变量。

点【确定】，得到

描述统计量

均值

标准差

分析N

GDP

1921.0927

1474.80603

30

居民消费水平

1745.9333

861.64193

30

固定资产投资

511.5083

402.88548

30

职工平均工资

5447.6333

1317.44330

30

货物周转量

666.1200

459.93526

30

居民消费价格指数

117.2867

2.02531

30

商品价格指数

114.9067

1.89808

30

工业总产值

862.9980

584.58726

30

描述各变量的基本信息：

均值、标准差、样本数。

相关

GDP

1.000

.267

.951

.187

.617

-.273

-.264

.874

居民消费水平

.267

1.000

.426

.716

-.151

-.235

-.593

.363

固定资产投资

.951

.426

1.000

.396

.431

-.280

-.359

.792

职工平均工资

.187

.716

.396

1.000

-.357

-.145

-.543

.099

货物周转量

.617

-.151

.431

-.357

1.000

-.253

.022

.659

居民消费价格指数

-.273

-.235

-.280

-.145

-.253

1.000

.763

-.125

商品价格指数

-.264

-.593

-.359

-.543

.022

.763

1.000

-.192

工业总产值

.874

.363

.792

.099

.659

-.125

-.192

1.000

相关系数矩阵，可以看出“固定资产投资”、“工业总产值”与“GDP”有较高的相关性；“消费价格指数”与“商品价格指数”有较高的相关性；……

相关性较强说明确实有变量在信息上重叠，从而可以做主成份或因子分析。

公因子方差

初始

提取

GDP

1.000

.945

居民消费水平

1.000

.799

固定资产投资

1.000

.902

职工平均工资

1.000

.873

货物周转量

1.000

.857

居民消费价格指数

1.000

.957

商品价格指数

1.000

.928

工业总产值

1.000

.904

提取方法：

主成份分析。

公因子方差，表示各变量中所含原始信息能被提取的主成份所表示的程度。

基本都在0.80以上，表示提取的主成份各变量有较强的解释能力。

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

1

3.754

46.924

3.754

46.924

2

2.203

27.532

74.456

2.203

27.532

74.456

3

1.208

15.096

89.551

1.208

15.096

89.551

4

.403

5.042

94.593

5

.214

2.673

97.266

6

.138

1.722

98.988

7

.066

.829

99.817

8

.015

.183

100.000

提取方法：

主成份分析。

主成份提取法，自动提取特征值大于1的主成分，共3个。

【初始特征值】的“合计”列为每一个主成分的特征值，其值越大表示该主成分在解释8个变量的变异时越重要；“方差的%”列为每个提取因素可以解释的变异百分比。

“累积%”列为解释的变异的累积百分比。

8个变量（初始特征值=1）总特征值为8，第一个特征值=3.754,3.754/8=46.924%，即主成份1能解释总方差的46.924%，前3个主成分共能解释89.551%（>85%）的总变异。

因此，用前三个主成分就可以很好地概括这组数据。

成份矩阵a

成份

1

2

3

GDP

.884

.385

.120

居民消费水平

.606

-.596

.277

固定资产投资

.911

.163

.213

职工平均工资

.465

-.725

.362

货物周转量

.486

.737

-.279

居民消费价格指数

-.510

.257

.794

商品价格指数

-.621

.596

.433

工业总产值

.822

.429

.210

提取方法:

主成份。

a.已提取了3个成份。

给出主成份系数矩阵，3列分别是3个主成份在各个变量上的载荷，从而可得到各主成份的表达式：

F1=0.884Zx1+0.606Zx2+0.911Zx3+0.465Zx4+0.486Zx5

-0.510Zx6-0.621Zx7+0.822Zx8

F2=0.385Zx1-0.596Zx2+0.163Zx3-0.725Zx4+0.737Zx5

+0.257Zx6+0.596Zx7+0.429Zx8

F3=0.120Zx1+0.277Zx2+0.213Zx3+0.362Zx4-0.279Zx5

+0.794Zx6+0.433Zx7+0.210Zx8

注意：

这里的各变量不是原始变量，而是标准化后的变量（从而各主成份的均值为0）。

可见，第一主成分中x3、x1、x8的系数最大；因此，可以把第一主成分看成是由固定资产投资（x3）、GDP（x1）、工业总产值（x8）所刻画的反映经济发展水平的综合指标。

第二主成分中x5、x7具有较大的正系数，x4、x2则具有较大的负系数；把第二主成分看成是由货物周转量（x5）、职工平均工资（x4）、居民消费水平（x2）、商品零售价格指数（x7）所刻画的与人民生活水平有关的综合指标。

第三主成分中x6的系数最大，远远超过其他指标的影响。

把第三主成分单独看成是居民消费价格指数（x6）的影响指标。

注1：

各主成份的涵义并不十分明确，若要主成份更容易解释，需要做旋转，即因子分析；

注2：

若要计算每个样本的各个主成分的得分，可在【因子分析】窗口，点【得分】，勾选“保存为变量”默认采用“回归”方法计算，点【继续】

得到

利用变量FAC1_1,FAC2_1,FAC3_1,可以计算每个样本的综合得分，具体见下篇【第31篇：

因子分析】。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: SPSS 学习系列 30 成份分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：SPSS学习系列30主成份分析.docx
链接地址：https://www.bdocx.com/doc/1068328.html

SPSS学习系列30主成份分析.docx

热门标签