多元统计分析Word文件下载.docx
- 文档编号:21783461
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:16
- 大小:114.92KB
多元统计分析Word文件下载.docx
《多元统计分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《多元统计分析Word文件下载.docx(16页珍藏版)》请在冰豆网上搜索。
.776
.317
.752
.151
.730
.928
.158
.930
.161
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
旋转后的因子载荷矩阵,是将由主成分法得到的因子载荷矩阵,通过空间旋转,使得两个因子各自的解释意义更强。
同样矩阵含义为用因子表示原始变量时的系数,如:
V1=0.011*F1+0.776*F2
成份得分系数矩阵
-.173
.508
.023
.421
-.076
.445
.541
-.112
.542
-.110
旋转法:
构成得分。
因子得分系数矩阵可以直观的观察出不相关的各因子与不同原始变量间的相关程度。
在本题中,F1在Merrill和MoganStanley上得分更大,说明F1主要反应“金融股的收益率”,F2在IBM,HP,Intel上得分更大,说明F2主要反映“信息产业股票收益率”
其中因子可以表示成原始变量的线性组合:
F1=-0.173V1+0.023*V2-0.076*V3+0.541*V4+0.542*V5
F2=0.508*V1+0.421*V2+0.445*V3-0.112*V4-0.110*V5
由SPSS得到的各因子得分如下:
FAC1_1
FAC2_1
-1.56955
0.60023
-0.19527
0.03725
-0.3881
0.31584
-0.26134
-0.50647
0.77816
1.32378
-0.26775
-0.48756
-0.67983
-1.0397
-0.99233
-2.56144
-1.46655
0.08296
-0.55811
-1.25278
0.57612
1.12249
0.30422
-0.00637
0.89275
1.68872
1.47871
0.48056
1.96775
-1.15108
0.34903
-0.61019
0.51428
0.58302
-0.81264
-1.60832
0.9095
0.04034
0.07533
-0.33701
0.8145
-0.98473
0.71645
-0.81214
-0.56998
-0.5843
1.82181
0.56087
-1.12461
0.97457
-0.29795
0.765
-0.14716
-0.61626
-1.55899
0.33787
0.04767
-0.70941
-0.3782
0.33665
0.43369
-0.09268
-0.64468
-1.73683
-0.31797
-0.20041
0.80235
-1.29743
0.579
0.68946
0.47645
-1.05199
0.19633
0.74765
-0.02993
0.52662
0.73356
-0.71268
-0.37397
-1.28882
0.43931
1.19602
0.55002
-0.90427
0.50223
-1.65879
1.04088
0.63764
0.19661
-0.73291
-0.84699
0.25048
-1.30297
0.77342
-0.76179
0.4664
0.75071
0.08698
-1.50032
0.14687
-0.93497
-0.38704
-0.48256
-0.40513
-0.21921
0.29019
-0.84083
-0.92556
0.26498
0.13125
0.87154
1.14857
-1.62709
-0.23484
0.65557
0.4713
-0.79042
-0.33131
-0.60867
0.19959
0.04228
-0.03718
0.825
0.92147
-0.193
0.68808
-0.07612
1.66205
0.43813
-0.09379
0.64875
0.75844
-0.04659
0.71172
0.36955
-0.75368
1.00629
-0.88016
-1.50526
1.21988
-0.13494
-1.29382
-0.82427
-0.66055
0.95571
0.41024
-0.46719
1.47209
0.82467
-1.40314
-0.42119
0.82197
0.05566
0.129
-0.04688
-1.07344
-0.80133
-0.09087
-0.40353
0.37549
0.12515
1.33878
0.01755
0.05836
0.96105
2.11042
-0.31385
-0.65645
-0.22394
1.00968
1.31396
-1.29655
-1.05731
-0.60405
0.35615
0.82311
0.6025
-0.10655
0.64102
-0.08945
1.2581
2.30558
-1.28687
-0.77179
1.32918
0.21831
-0.92697
-1.73654
0.32083
0.24165
0.6134
-0.97143
-0.98748
0.01934
1.22801
0.64465
0.90444
-1.28469
0.32199
1.11722
-0.13619
-1.46324
0.79672
-0.58366
-0.52229
0.81899
-3.92909
-1.61075
-3.87985
2.361
2.8244
0.63337
1.09661
0.99657
-0.98094
1.29196
1.44129
0.65506
0.33686
-2.10972
0.9906
-0.19147
-0.80826
1.54328
-0.4172
0.62726
-0.44087
1.06043
-1.70878
0.67729
-0.04586
0.41089
-0.4465
-1.37671
2.06646
-2.53667
0.3783
0.89733
0.75319
0.86128
由第2问中的“成分得分系数矩阵”可得第一个因子表达式:
F1在Merrill和MoganStanley上得分更大,且两者均是金融股,说明F1主要反应“金融股的收益率”,F2在IBM,HP,Intel上得分更大,且三者都是信息产业股,说明F2主要反映“信息产业股票收益率”
三、三个美国制造商生产的早餐方便粥的数据见“soup.sav”。
这三家厂商分别是:
通用牛奶(I)、克罗格(II)和夸克(III)。
将早餐方便粥的品牌按厂商分组,每个品牌测试的指标有:
卡路里(x1)、蛋白质(x2)、脂肪(x3)、钠(x4)、纤维(x5)、碳水化合物(x6)、糖(x7)和钾(x8)。
要求:
(1)给出未标准化的费希尔判别式;
(2)给出三个厂商的组重心值;
(3)将所有品牌的两个费希尔判别式得分画成散点图,用不同的符号表示不同的厂商。
未标准化的系数矩阵如下:
典型判别式函数系数
函数
卡路里
.022
-.045
蛋白质
.369
.332
脂肪
-.838
.386
钠
.000
.006
纤维
1.420
-1.040
碳水化合物
.202
.204
糖
.195
.235
钾
-.031
.027
(常量)
-6.576
-2.572
非标准化系数
费希尔判别式为:
F1=-6.576+0.002*X1+0.369*X2-0.838*X3+0*X4+1.420*X5+0.202*X6+0.195*X7-0.031*X8
F2=-2.572-0.045*X1+0.332*X2+0.386*X3+0.006*X4-1.040*X5+0.204*X6+0.235*X7+0.027*X8
组质心处的函数
g
-.662
.720
1.194
-.267
3
-2.102
-1.150
在组均值处评估的非标准化典型判别式函数
厂商1组质心(-0.662,0.720)
厂商2组质心(1.194,-0.267)
厂商3组质心(-2.102,-1.150)
三厂商费希尔判别式得分散点图
四、16种饮料品牌的热量(卡路里)、咖啡因、钠含量和价格变量数据见“DRINK.sav”。
假定这16种饮料品牌需分成三类,请利用上述四个变量进行K均值聚类。
(1)请给出“初始类中心值”和“最终类中心值”;
(2)请给出每种饮料品牌的类别归属;
(3)请在结果中输出四个变量的方差分析表,指出哪些(个)变量是在聚类分析中的效能较好。
初始聚类中心
聚类
207.20
.00
107.00
咖啡因
3.30
4.20
15.50
13.10
8.30
价格
2.80
2.20
初始类中心为:
第一类(202.20,3.30,15.50,2.80)
第二类(0.00,4.20,13.10,2.20)
第三类(107.00,0.00,8.30,4.20)
最终聚类中心
203.10
33.71
107.34
1.65
4.16
3.49
13.05
10.06
8.76
3.15
2.69
2.94
最终类中心为:
第一类(203.10,1.65,13.05,3.15)
第二类(33.71,4.16,10.06,2.69)
第三类(107.34,3.49,8.76,2.94)
聚类结果如下:
聚类成员
案例号
品牌名称
距离
可口可乐
5.065
芬达
4.585
醒目
35.358
4
露露
4.995
5
统一
14.388
6
红牛
18.311
7
娃哈哈
39.393
8
百事可乐
24.233
9
乐百氏
12.077
10
王老吉
11
高乐高
16.990
12
农夫
17.570
13
汇源
5.398
14
三得利
33.855
15
脉动
11.684
16
雀巢
3.749
方差分析表
ANOVA
误差
F
Sig.
均方
df
24865.327
455.311
54.612
4.915
6.410
.767
.484
14.569
6.312
2.308
.139
.214
1.038
.207
.816
F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。
观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
由方差分析表可知:
只有“卡路里”的P值小于0.05,通过显著性检验,即拒绝“各组方差相等”的原假设。
因此“卡路里”在分析中效能较好。
五、使用第四题数据“DRINK.sav”,利用上述四个变量对这16种饮料品牌进行系统聚类。
(1)分别给出分成2、3、4、5类时的分类方案;
(2)给出树形图或冰柱图(两图选一即可),并作简要解释;
(3)说出你进行系统聚类时,分别使用的是哪种“样品间距离测度方法”和“类间距离测度方法”。
(1)分别给出分成2、3、4、5类时的分类方案;
用SPSS进行聚类给出分类结果如下:
两类时:
(可口可乐、王老吉)、(芬达、露露、百事可乐、高乐高、农夫、汇源、三得利、醒目、红牛、乐百氏、统一、哇哈哈、脉动、雀巢)
三类时:
(可口可乐、王老吉)、(芬达、露露、百事可乐、高乐高、农夫、汇源、三得利)、(醒目、红牛、乐百氏、统一、哇哈哈、脉动、雀巢)
四类时:
(可口可乐、王老吉)、(芬达、露露、百事可乐、高乐高、汇源、农夫、三得利)、(醒目、红牛、乐百氏)、(统一、哇哈哈、脉动、雀巢)
五类时:
(可口可乐、王老吉)、(芬达、露露、百事可乐、高乐高、汇源)、(醒目、红牛、乐百氏)、(统一、哇哈哈、脉动、雀巢)、(农夫、三得利)
冰柱图如下:
冰柱相当于档板:
分成两类时,最高的挡板两侧分成两类,即(王老吉、可口可乐)为一类,挡板左边为一类。
其他数量的分类以此类推,以挡板为界分成给定类数。
答:
样品间距离测度方法:
平方欧几里得距离;
类间距离测度方法:
组间连接法
提示:
如果不能从SPSS结果中直接拷贝图形或表格,可以使用“Ctrl”+“PrintScreenSysRq”组合键,将显示结果拷贝成图片粘帖至Word试卷中。
简答题(任选1道回答):
六、试述费希尔(Fisher)判别分析法的基本原理。
七、简述主成分分析与因子分析的区别。
1.原理不同。
因子分析是把各变量看做一些公共因子(对每一个变量都有作用的因子)和特殊因子(仅对某一个变量有作用的因子)线性组合而成,目的是要从数据中探查出对变量起解释作用的公共因子及其组合系数;
主成分分析是对原始变量进行空间旋转得到能反映变量大部分信息的新变量。
2.表达形式不同。
因子分析是把变量表示成几个公因子的线性组合;
而主成分分析则是把主成分表示成各变量的线性组合。
3.假设不同。
主成分分析无须假设。
因子假设各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。
4.方法不同。
因子分析抽取公共因子方法很多,包括:
主成分法,极大似然法,主轴因子法等,方法不同得到的结果也不同;
主成分只能用主成分法抽取。
5.唯一性不同。
若数据集的协方差矩阵或者相关矩阵的特征值唯一,主成分一般是固定的;
而因子分析可以旋转得到不同的多个因子。
6.数量确定机制不同。
因子分析中,因子个数需要事先指定,指定的因子数量不同结果也可能不同;
在主成分分析中,成分的数量一般和变量个数相等。
7.功能不同。
因子分析可以使用旋转技术增强因子表达的含义,在解释方面更加有优势;
因子分析能把现有的变量变成少数几个新的综合性的变量,使得分析简化。
不过,因子分析也可以实现该目的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析