数据分析试题.docx
- 文档编号:12112956
- 上传时间:2023-04-17
- 格式:DOCX
- 页数:26
- 大小:45.02KB
数据分析试题.docx
《数据分析试题.docx》由会员分享,可在线阅读,更多相关《数据分析试题.docx(26页珍藏版)》请在冰豆网上搜索。
数据分析试题
上海第二工业大学
(试卷编号:
)
姓名:
2011〜2012学年第二学期数据分析期末考试卷
题号
-一一
-二二
得分
王赞学号:
094860117
班级:
09计算A1
一、某医院管理工作者希望了解病人对医院工作的满意程度Y和病人的年龄X1、病情的严重程度X2和忧虑程度X3之间的关系,他们随机选取了23位病人,得到下表所列数据:
(本题40分,每小题5分)
i
1
2
3
4
5
6
7
8
9
10
11
12
X1
50
36
40
41
28
49
42
45
52
29
29
43
为2
51
46
48
44
43
54
50
48
62
50
48
53
Xi3
2.3
2.3
2.2
1.8
1.8
2.9
2.2
2.4
2.9
2.1
2.4
2.4
y
48
57
66
89
89
36
46
54
26
77
89
67
i
13
14
15
16
17
18
19
20
21
22
23
X1
38
34
53
36
33
29
33
55
29
44
43
Xi2
55
51
54
49
56
46
49
51
52
58
50
Xi3
2.2
2.3
2.2
2.0
2.5
1.9
2.1
2.4
2.3
2.9
2.3
Yi
47
51
57
66
79
88
60
49
77
52
60
⑴拟合丫关于X「X2,X3的线性回归模型,写出回归方程;根据所得的回归模型
中回归系数给出初步的分析结果;
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
4472.725
3
1490.908
12.072
.000a
残差
2346.579
19
123.504
总计
6819.304
22
a.预测变量:
(常量),Xi3,Xi1,XI2
b.因变量:
Yi
系数
模型
非标准化系数
标准系数
t
Sig.
B
标准
误差
试用版
1
(常量)
177.445
27.839
6.374
.000
Xi1
-1.069
.326
-.514
-3.284
.004
XI2
-.839
.887
-.212
-.947
.356
Xi3
-13.193
13.221
-.228
-.998
.331
a.因变量:
Yi
表二
由方差分析看出:
F统计量的值为12.072,根据p值检验法知F检验的p值显然小于0.0001,因此拒绝原假设,接受对立假设,即因变量与3个自变量之间具有高度显著的线性回归关系。
由表二可以看出,如果显著水平〉为0.05,而t检验的3个p值分别为0.0040356、0.331显然小于显著水平,因此拒绝原假设,接受对立假设,则说明因变量和XI1存在着高度显著的线性回归关系,与
XI2、XI3没有显著的线性关系。
并且得到回归方程为:
Yi=177.455-1.069Xi1。
其意义是在Xi1每增加一个单位,则Y减少1.069个单位。
(2)、设误差项勺=(i=1,2,…,16)独立同分布于N(0®2),在a=0.01水平上检
验回归关系的显著性;(写出原假设、对立假设和检验统计量)
解:
由表1可以看出SSR为4472.725,SSE为2346.579,SST为6619.304;设y与X1,X2,X3的观测值之间满足关系%「必1•;i(i=1,2……18)其中q(i=1,2……18)相互独立,均服从正态分布N(0,2),利用SPSS可得到下列分析结果。
2/\2
由此表可知,匚的估计值匚=MSE=123.504,MSR=1490.908检验假设:
MSR
H0:
:
1=:
2二:
3=0…H1:
:
1,:
2,至少有一个非零的,统计量F==12.072
MSE
检验值P从表看几乎接近于零V〉=0.01,则拒绝Hb,此结果表明丫与X1,X2,X3之间存在高度显著的线性回归关系。
(3)、在。
=0.05时,检验各自变量对Y的影响的显著性;(写出原假设、对立假设和检验统计量);
解:
假设检验为:
出:
"=0「鼻=0,检验统计量tk-
s偲)
t检验的3个p值分别为0.004、0.356、0.331,显然XI1小于显著水平0.05,因此拒绝原假设,接受对立假设,则说明因变量只和XI1之间都存在着高度显著的线性回归关系。
(4)、根据⑵(3)的结果解释由⑴所得到的模型是否合理?
为什么?
合理,有表一的结果可知,三个变量总体和丫具有高度的线性关系,但是有表二可知对每一个变量分析时只有XI1和丫具有高度现象关系。
(5)用逐步回归法来选择最优回归方程,取让二小=0.05;
系数
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
121.994
12.618
9.668
.000
95.753
148.235
Xi1
-1.510
.312
-.726
-4.843
.000
-2.159
-.862
2
(常量)
157.527
18.182
8.664
.000
119.599
195.454
Xi1
-1.111
.322
-.534
-3.453
.003
-1.782
-.440
Xi3
-22.368
8.970
-.386
-2.493
.022
-41.080
-3.656
a.因变量:
Yi
表三
已排除的变量
模型
BetaIn
t
Sig.
偏相关
共线性统计量
容差
1
XI2
-.375a
-2.467
.023
-.483
.782
Xi3
-.386a
-2.493
.022
-.487
.752
2
XI2
-.212b
-.947
.356
-.212
.362
a.模型中的预测变量:
(常量),Xi1。
b.模型中的预测变量:
(常量),Xi1,Xi3
c.因变量:
Yi
表四
解:
根据表三和表四结果知道最终的选取的结果是只有XI1保留,也就是变量
XI2和XI3被删除。
根据t检验的p值可以看出,最终模型只有变量XI1与因变量之间具有高度显著的线性相关关系。
(6)写出残差向量,通过残差分析来分析模型的合理性;
RES_1为:
-2.82240
-12.99019
.64668
16.08086
1.34021
-5.45738
-15.53577
-3.36804
-5.53378
.24370
14.52278
11.69058
-14.61579
-16.93157
10.58460
-5.42982
16.83504
5.24722
-13.31846
4.84355
4.56127
8.55382
.85289
残差关于拟合值的残差图如图1:
图1
前IKEA
igoaiacr
2CSKKKID-
UnstandardizedPredictedValue
从图1看出,该残差图中各点分布近似长条矩形,因此认为该线性回归模型比较合理。
残差关于XI1的残差图如图2:
ID3S404550Ed
从图2看出,该残差图中各点分布近似长条矩形,因此说明该模型中不需要添加该自变量的高阶项和交叉项。
残差关于XI2的残差图如图3:
-V3CXXMM-
(7)计算数据的标准化残差,并利用残差正态性的频率检验法来检验误差「的
正态性假设是否合理?
解:
数据标准化残差以变量名为ZRE_1存储在数据中:
-.25397
-1.16889
.05819
1.44700
.12060
-.49107
-1.39795
-.30307
-.49794
.02193
1.30680
1.05195
-1.31517
-1.52355
.95243
-.48859
1.51486
.47216
-1.19843
.43584
.41044
.76970
.07674
落在(-1,1)区间的概率为14/23=0.61与0.68很接近
落在(-1.5,1.5)区间的概率为21/23=0.91与0.87很接近
落在(-2,2)区间的概率为23/23=1.0与0.95很接近认为正态性假设是合理的。
(8)对自变量一组新的观测值(48,50,2.2)t,给出Y的预报值的99%的置信区间;
解:
置信区间为:
(43.72601,66.25573)。
二、各地区居民消费水平(2006年)数据见附录中数据文件xfsp.sav中,设对应于全体居民、农村居民、城镇居民的数据变量分别记为X1,X2,X3,(本大题共40分,每小题5分)
(1)从样本协方差矩阵出发,求出样本x,,x2,x3的第一和第二主成分,计算各样
本主成分的贡献率;将第一样本主成分y1从小到大排序,并分析排序的实际含义。
解释的总方差
成份
初始特征值a
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
原始
1
30588315.942
98.549
98.549
30588315.942
98.549
98.549
2
335962.375
1.082
99.631
335962.375
1.082
99.631
3
114484.513
.369
100.000
114484.513
.369
100.000
重新标度1
30588315.942
98.549
98.549
2.939
97.964
97.964
2
335962.375
1.082
99.631
.032
1.070
99.034
3
114484.513
.369
100.000
.029
.966
100.000
提取方法:
主成份分析。
a.分析协方差矩阵时,
初始特征值在整个原始解和重标刻度解中均相同。
成份矩阵
原始
重新标度
成份
成份
1
2
3
1
2
3
qtjm
3927.371
319.851
-147.964
.996
.081
-.038
ncjm
1798.050
170.375
304.126
.982
.093
.166
czjm
3454.141
-452.360
9.923
.992
-.130
.003
提取方法:
主成份。
a.已提取了3个成份。
表二
解:
表一的第二列表示相关系数矩阵的特征值,第三列表示样本主成分的贡献率,第四列表示样本的累积贡献率。
可见到第一个主成分,累积贡献率已经
超过98沖上。
根据表二的数据可以很快算出样本的主成分,每一列分别对应除以I得出对应的特征向量。
第一主成分的系数向量为:
(3927.371,1798.050,3454.141)/•.3058831594=
(0.71,0.33,0.62)所以第一主成分为:
丫仁0.71*x1+0.33*x2+0.62*x3
从而计算数据在第一主成分上的得分为:
西藏
7206.00
贵州
8296.53
青海
8343.05
甘肃
8404.29
新疆
8528.76
广西
8787.97
江西
8819.13
安徽
8884.00
云南
8920.08
海南
9050.48
黑龙江
9086.47
陕西
9146.91
四川
9193.57
山西
9253.16
河南
9682.78
宁夏
9834.55
河北
9995.16
吉林
10096.79
重庆
10218.44
湖北
10468.41
内家古
10653.94
湖南
10794.94
辽宁
11862.07
山东
13094.62
福建
14232.36
江苏
14664.97
天津
16858.35
广东
18322.30
浙江
19847.38
北京
25907.81
上海
32037.40
从得分的结果来看,作为发达城市的上海,北京,浙江,广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多,这个是符合实际情况的。
(2)从样本的相关系数矩阵出发,求出样本x1,x2,x3的第一和第二主成分,计
算各样本主成分的贡献率,将第一样本主成分yi从小到大排序,并分析排序的实际含义。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
2.945
98.175
98.175
2.945
98.175
98.175
2
.038
1.276
99.450
.038
1.276
99.450
3
.016
.550
100.000
.016
.550
100.000
提取方法:
主成份分析
成份
1
2
3
qtjm
.994
-.009
-.104
ncjm
.989
-.133
.058
czjm
.989
.143
.047
提取方法:
主成份。
a.已提取了3个成份。
表二
解:
表一的第二列表示相关系数矩阵的特征值,第三列表示样本主成分的贡献率,第四列表示样本的累积贡献率。
可见到第一个主成分,累积贡献率已经
超过98沖上。
根据表二的数据可以很快算出样本的主成分,每一列分别对应除以[得出对应的特征向量。
第一主成分的系数向量为:
(0.994,0.989,0.989)/,2.945=
(0.579,0.576,0.576)所以第一主成分为:
Y1=0.579*x1+0.576*x2+0.576*x3
从而计算数据在第一主成分上的得分为:
西藏
6951.85
贵州
7864.83
青海
7983.37
甘肃
8008.04
新疆
8123.27
广西
8484.22
云南
8536.45
安徽
8554.25
江西
8613.93
黑龙江
8714.75
陕西
8770.57
海南
8778.62
山西
8865.35
四川
8871.23
河南
9340.49
宁夏
9381.10
河北
9621.36
重庆
9687.29
吉林
9719.85
湖北
10042.46
内家古
10188.98
湖南
10413.29
辽宁
11393.33
山东
12551.96
福建
13747.25
江苏
14279.18
天津
16095.76
广东
17281.96
浙江
19236.75
北京
24779.72
上海
30806.26
从得分的结果来看,作为发达城市的上海,北京,浙江,广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多,这个是符合实际情况的
(3)比较两种结果有何差异,试说明哪种结果更好?
并说明你的理由。
两种结果差异不大,使用哪种方法都可以,因为原始数据的量纲相差不大,几乎都在同一数量级,所以使用协方差和使用相关系数都差不多。
(4)本题数据是否适合进行因子分析?
理由是什么?
KMO和Bartlett
的检验
取样足够度的Kaiser-Meyer-Olkin
度量。
.765
Bartlett的球形度检近似卡方
177.109
验df
3
Sig.
.000
相关矩阵
qtjm
ncjm
czjm
相关
qtjm
1.000
.979
.977
ncjm
.979
1.000
.962
czjm
.977
.962
1.000
Sig.(单侧)
qtjm
.000
.000
ncjm
.000
.000
czjm
.000
.000
a.行列式=.002
解:
由KMO佥验值0.756(>0.6)和从变量的相关系数矩阵可以看出,各变量间的相关性很高,因此变量间所表示的信息量有交叉部分,因此可以进行因子分析。
(5)取公共因子数为1时,对n,X2,X3进行因子分析,并进行解释;对公共因子h得分从小到大进行排序,并进行分析解释。
初始
提取
qtjm
1.000
.989
ncjm
1.000
.979
czjm
1.000
.977
提取方法:
主成份分析。
选取一个因子,从上表可以看出因子可以解释qtim,ncjm,czjm,因此本因子的提
取效果是理想的
(6)取公共因子数为2时,采用方差最大正交旋转进行因子分析,对公共因子Fi得分从小到大进行排序。
再对公共因子Fi,F2进行解释。
旋转成份矩阵
成份
1
2
qtjm
.715
.692
ncjm
.798
.600
czjm
.604
.796
提取方法:
主成份。
旋转法:
具有Kaiser标准化的
正交旋转法。
a.旋转在3次迭代后收敛。
因子一只要解释qtjm,ncjm,因子二主要解释czjm
(7)根据第(5)(6)小题的结果分析哪种取法更加合理?
为什么?
解:
(5)的方法更合理,因为一个因子就可以解释所有变量了。
(8)简单说明因子分析中采用正交旋转的目的是什么?
解:
为了使一部分变量仅与第一个因子相关,另一部分变量与第二个因子相关。
、各地区历年电力消费量见附件中数据文件dlxf.sav(单位:
亿千瓦小时);变
量X"-X6分别代表2000年、2002年、2003年、2004年、2005年、2006年的电
力消费:
(本大题共20分,每小题4分)
(1)选择三种不同的谱系聚类法聚类,并给出这三种方法分3类的结果;
1、米用最长距离:
案例
3群集
1:
北京
1
2:
天津
1
3:
河北
2
4:
山西
1
5:
内蒙古
1
6:
辽宁
2
7:
吉林
1
8:
黑龙江
1
9:
上海
1
10:
江苏
3
11:
浙江
2
12:
安徽
1
13:
福建
1
14:
江西
1
15:
山东
3
16:
河南
2
17:
湖北
1
18:
湖南
1
19:
广东
3
20:
广西
1
21:
海南
1
22:
重庆
1
23:
四川
1
24:
贵州
1
25:
云南
1
26:
陕西
1
27:
甘肃
1
28:
青海
1
29:
宁夏
1
30:
新疆
1
分类结果:
第1类:
1、2、4、5、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、
28、29、30.
第2类:
3、6、11、16。
第3类:
10、15、19、
2、最短距离:
群集成员
案例
3群集
1:
北京
1
2:
天津
1
3:
河北
1
4:
山西
1
5:
内蒙古
1
6:
辽宁
1
7:
吉林
1
8:
黑龙江
1
9:
上海
1
10:
江苏
2
11:
浙江
1
12:
安徽
1
13:
福建
1
14:
江西
1
15:
山东
2
16:
河南
1
17:
湖北
1
18:
湖南
1
19:
广东
3
20:
广西
1
21:
海南
1
22:
重庆
1
23:
四川
1
24:
贵州
1
25:
云南
1
26:
陕西
1
27:
甘肃
1
28:
青海
1
29:
宁夏
1
30:
新疆
1
分类结果:
第1类:
1,2,、3、4、5、6、7、8、9、11、12、13、14、16、17、18、20、21、22、23、
24、25、26、27、28、29、30.
第2类:
10、15。
第3类:
19。
3、质新法:
群集成员
案例
3群集
1:
北京
1
2:
天津
1
3:
河北
2
4:
山西
1
5:
内蒙古
1
6:
辽宁
1
7:
吉林
1
8:
黑龙江
1
9:
上海
1
10:
江苏
2
11:
浙江
2
12:
安徽
1
13:
福建
1
14:
江西
1
15:
山东
2
16:
河南
2
17:
湖北
1
18:
湖南
1
19:
广东
3
20:
广西
1
21:
海南
1
22:
重庆
1
23:
四川
1
24:
贵州
1
25:
云南
1
26:
陕西
1
27:
甘肃
1
28:
青海
1
29:
宁夏
1
30:
新疆
1
分类结果:
第1类:
1、2、4、5、6、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、
27、28、第2类:
29、30.
3、10、11、15、16。
第3类:
19。
(2)用快速聚类法进行聚类,分别写出分3类和4类的结果;分为3类为:
聚类成员
案例号
地区
聚类
距离
1
北京
2
227.373
2
天津
2
197.649
3
河北
1
600.121
4
山西
1
532.452
5
内蒙古
2
404.109
6
辽宁
1
192.567
7
吉林
2
180.935
8
黑龙江
2
278.295
9
上海
1
585.090
10
江苏
3
284.503
11
浙江
1
859.277
12
安徽
2
209.794
13
福建
2
568.947
14
江西
2
209.294
15
山东
3
654.848
16
河南
1
307.871
17
湖北
2
669.441
18
湖南
2
436.859
19
广东
3
897.880
20
广西
2
81.107
21
海南
2
852.741
22
重庆
2
264.783
23
四
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 试题