应用多元统计分析习题解答主成分分析.docx
- 文档编号:3936941
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:14
- 大小:65.21KB
应用多元统计分析习题解答主成分分析.docx
《应用多元统计分析习题解答主成分分析.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析习题解答主成分分析.docx(14页珍藏版)》请在冰豆网上搜索。
应用多元统计分析习题解答主成分分析
主成分分析
6.1试述主成分分析的基本思想。
答:
我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,
人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。
当第一个组合不能提取
止。
这就是主成分分析的基本思想。
6.2主成分分析的作用体现在何处?
答:
一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。
以各
个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”
6.3简述主成分分析中累积贡献率的具体含义。
答:
主成分分析把P个原始变量X!
X2,L,Xp的总方差tr(习分解成了P个相互独立的变量p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。
这里我们
m/P
m(p)个主成分,则称mkk为主成分Y1,L,Ym的累计贡献率,累计贡献率
k1/k1
表明Y丄,Ym综合Xi,X2,L,Xp的能力。
通常取m,使得累计贡献率达到一个较高的百分
数(如85%以上)。
答:
这个说法是正确的。
即原变量方差之和等于新的变量的方差之和
6.5试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:
从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。
从协方差矩阵-出
发的,其结果受变量单位的影响。
主成分倾向于多归纳方差大的变量的信息,对于方差小的
变量就可能体现得不够,也存在“大数吃小数”的问题。
实际表明,这种差异有时很大。
我
计算得___'
«Ai=12,=8,入a=4
«D(YJ=J==^=B4D(Y3)==4
2扫
12
12
(—2
0
-2\
/I0
0
-11-
*0V3
\0
0
0/
\o0
18
30
&/3
-54褐
10V3-34
同理,计算得
為=8时,也=(一2,VI3)1
易知,相互正交
单位化向量得,J---—'
T,=罕=
综上所述,
第一主成分为
^=T^+;^+盜
D(VJ=12
第二主成分为
D(Vt)=8
第三主成分为
6.7设X=(轧禺)’的协方差阵(ply:
:
为
P・・・P
1…p
0
LP
证明:
一.一一.为最大特征根,其对应的主成分为
(p-l)p^+ff2—1pffS■-pG2(p-l^po3+a2-Xo3—1—pa
(p—l)pa2+cs2—kpa2
(p—l)p(Jz+a3-ipa3.“prr3
0uafl-p)-A-■per3
-0tr=Cl-p)-Xl
"0<1,
打汽”-辭口一P)
Ai—Aa=pp>0
_[.--;为最大特征根
当一[.一-;时,
P(l-p)P…opa-p)i
■"■'■
I;1
pp・•・
ffl=aAi/»y
6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
单位:
(亿元)
行业名称
资产
固定资产净
产品销
利润
总计
值平均余额
售收入
总额
丿甘*ltt:
壬壬口]作、||/
6917.2
3032.7
683.3
61.6
煤炭开采和选业
石油和天然气开采业
5675.9
3926.2
717.5
33877
黑色金属矿采选业
768.1
221.2
96.5
13.8
有色金属矿采选业
622.4
248
116.4
21.6
非金属矿采选业
699.9
291.5
84.9
6.2
其它采矿业
1.6
0.5
0.3
0
解:
令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,
用SPSS对这六个行业进行主成分分析的方法如下:
1.在SPSS窗口中选择Analyze宀DataReduction宀Factor菜单项,调出因子分
析主界面,并将变量X!
X5移入Variables框中,其他均保持系统默认选项,单
击0K按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参
见7.7)。
得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。
第一个因子就可以解释86.5%
表6.1特征根和方差贡献率表
駙釋的总方差
袖自特征值
肓差的码
累糕%
合计
1
3460
86.499
S6.499
3.46D
86499
88498
2
.537
13.434
99.933
3
.002
.060
99993
4
XOO
.007
100.000
表6.2因子载荷阵
应阱葩阵h
1
x1
.947
X2
.ggg
.906
X4
765
2.将表6.2中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为al。
点击菜单
项中的Transform〜Compute,调出Computevariable对话框,在对话框中输
入等式:
z仁al/SQRT(3.46),计算第一个特征向量。
点击0K按钮,即可在数据编辑窗
口中得到以z1为变量名的第一特征向量。
表6.3特征向量矩阵
z1
x1
0.509
x2
0.537
x3
0.530
x4
0.413
根据表6.3得主成分的表达式:
Y10.509X10.537X20.530X30.413X4
3.再次使用Compute命令,调出Computevariable对话框,在对话框中输入等式:
y10.509*x10.537*x20.53*x30.413*x4
根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开
采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。
6.9下表是我国2003年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对
各主要食品和地区进行分类。
地区
粮食
蔬菜
食油
猪牛羊肉
家禽
蛋类及其制品
水产品
食糠
酒
北京
134.0
5
92.78
9.15
14.6
2.17
10.1
3
4.25
2.92
14.42
天津
150.2
69.99
10
11.07
0.84
10.8
8.35
0.72
10.14
河北
216.7
2
55.97
6.59
7.1
0.54
6.36
2.25
0.65
7.29
山西
218.9
1
80.87
5.72
5.36
0.24
6.15
0.47
1.15
2.59
内蒙
207.3
70.77
2.79
21.18
1.41
3.82
1.45
1.34
10.77
辽宁
194.3
9
178.59
5.9
16.45
2.51
9.59
4.49
0.73
10.8
吉林
255.9
9
115.2
6.27
11.42
3.23
8.64
3.6
0.75
13.64
黑龙江
195.0
8
111.7
7.62
7.85
2.61
6.26
3.35
0.9
15.09
上海
189.4
4
76.6
8.59
16.37
7.4
7.51
16.11
2.12
16.77
江苏
251.9
8
109.12
8.27
12.05
4.5
6.72
9.09
1.3
8.82
浙江
208.4
6
83.91
5.81
16.42
6.03
5.33
14.64
2.13
24.15
安徽
228.3
5
80.97
6.87
9.07
4.27
5.04
5.43
1.42
10.61
福建
198.2
7
99.92
5.19
16.51
5.14
3.55
13.3
2.35
16.84
江西
264.8
144.22
8.77
13.24
3.31
3.5
5.19
1.13
7.31
山东
229.0
6
118.19
6.96
8.09
2.7
11.6
1
4.01
1
10.81
河南
236.9
7
100.11
4.22
6.48
1.23
8.01
1.35
1.13
4.23
湖南
227.3
9
159.76
9.4
19.86
2.74
3.86
8.1
0.92
7.29
湖北
247.2
1
149.44
8.35
17.51
3.89
3.28
6.89
1.13
4.02
广东
233.7
5
130.22
6.73
22.27
10.4
2.83
13.3
2.16
3.33
广西
205.6
5
108.94
4.92
14.44
7.33
1.12
3.57
1.18
6.14
海南
236.3
1
86.61
5.7
15.4
9.77
1.31
14.75
1.24
3.88
解:
令粮食为X1,蔬菜为x2,食油为x3,猪牛羊肉为x4,家禽为x5,蛋类及其制品为x6,水产品为x7,食糠为x8,酒为x9,用SPSS进行主成分分析的具体方法参见6.8,分析
结果如下:
表6.4特征根和方差贡献率表
驚稈的总启差
初始特祁值
桿取平打和載入
合计
合计
右弄的務
1
2.92Z
32521
32.521
2.927
32.521
32.521
2
2.220
24.671
57.1192
3220
24.671
571S2
3
1.344
14.936
72.1128
1.344
14.936
72128
4
.801
9.905
91033
5
654
7263
98.286
6
.396
4.399
92S94
T
3.727
96.422
0
.222
2472
98994
g
100
1105
100.000
表6.5因子载荷阵
咸帕拒阵
成
1
2
3
X1
002
-.920
-006
X2
.093
-.477
.715
X3
009
.276
.E09
X4
78Q
-113
194
x5
.872
*212
-.064
x5
J12
XT
£57
177
130
x3
.6S4
.496
・.151
x9
.241
735
-023
表6.6特征向量矩阵
z1
z2
z3
x1
0.001169
-0.55035
-0.00518
x2
0.054359
-0.32014
0.616746
x3
0.005261
0.185239
0.697829
x4
0.455914
-0.07584
0.167341
x5
0.509689
-0.14229
-0.05521
x6
-0.32908
0.408063
0.269126
x7
0.500921
0.118795
0.112136
x8
0.388112
0.332893
-0.13025
x9
0.140866
0.4933
-0.01984
根据表6.6得主成分的表达式:
Y10.001X10.054X20.005X30.456X40.51X50.329X60.501X70.388X80.141X9
Y20.55X10.32X20.185X30.076X40.142X50.408X60.119X70.333X80.493X9
Y30.005X10.617X20.698X30.167X40.055X50.269X60.112X70.130X80.02X9
分别计算出以上三项后,利用公式Y—」丫1—丄Y2-^Y3得到综合得分并排序
如下表:
地区
y1
y2
y3
y
北京
14.92
-90.42
67.81
-10.16
天津
11.80
-93.48
54.76
-15.31
上海
24.39
-115.46
57.85
-16.51
福建
24.55
-129.93
68.56
-19.17
浙江
25.14
-126.00
59.51
-19.43
辽宁
19.55
-154.56
118.72
-19.47
黑龙江
13.27
-131.90
76.07
-23.38
湖南
23.53
-169.91
108.84
-24.97
广东
29.80
-167.06
88.93
-25.29
广西
19.18
-144.89
72.06
-25.99
内蒙
15.93
-130.47
48.84
-27.33
海南
24.93
-154.57
60.04
-29.19
山东
11.81
-152.64
81.06
-30.09
湖北
21.71
-179.61
100.93
-30.74
安徽
14.06
-143.12
56.46
-30.92
江苏
18.07
-164.93
76.08
-32.51
河北
7.10
-129.83
40.94
-32.73
山西
6.20
-141.44
55.18
-34.15
吉林
14.54
-166.90
78.26
-34.32
江西
18.74
-185.62
97.04
-34.94
河南
8.32
-156.36
66.62
-35.93
最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结
果根据各人的主观意愿可以有多种答案。
6.10根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。
解:
用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:
表6.7特征根和方差贡献率表
初始特征值
提取平右和载入
舍计
方等的册
舍计
育萍的爲
累积确
1
5058
56.199
50.199
5058
56199
50.199
2
2300
26551
8Z750
2.^0
26.651
02.750
3
.814
9.041
91.780
4
341
3704
95.575
5
240
2.759
91333
6
100
1.108
99.441
7
027
.304
G1744
3
020
.219
99J64
9
003
036
100.000
表6.8因子载荷阵
咸的麓阵.
成借
1
2
X1
.655
in
a
.629
.736
.316
-444
丈4
.094
-.571
X5
.908
-.302
戍
.894
-.419
.607
.607
)ce
.383
.180
)cg
越2
-.370
表6.6特征向量矩阵
z1
z2
x1
0.29
0.47
x2
0.28
0.48
x3
0.14
-0.29
x4
0.31
-0.37
x5
0.40
-0.20
x6
0.40
-0.27
x7
0.31
0.39
x8
0.39
0.12
x9
0.39
-0.24
青岛
35237.27
14552.46
28597.44
大连
31830.56
17629.53
27272.03
济南
25149.73
16499.39
22372.97
福州
22734.16
16326.97
20677.45
乌鲁木齐
22284.54
15284.68
20037.59
沈阳
23184.99
12310.22
19694.19
武汉
23909.27
9770.56
19370.75
长春
21524.95
14179.21
19166.96
成都
33808.79
-17638.73
17294.14
太原
19445.42
9809.99
16352.45
郑州
18561.81
9822.90
15756.62
兰州
16568.97
13769.80
15670.44
海口
17666.70
11325.77
15631.26
昆明
18494.34
8579.72
15311.75
呼和浩特
16128.60
13359.10
15239.59
长沙
18845.23
6252.54
14802.98
石家庄
18229.33
7399.62
14752.99
西安
16764.15
4871.97
12946.76
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 习题 解答 成分 分析