书签分享收藏举报版权申诉 / 26

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 企业管理 > 数据分析试题.docx

数据分析试题.docx

文档编号：12112956
上传时间：2023-04-17
格式：DOCX
页数：26
大小：45.02KB

数据分析试题.docx

《数据分析试题.docx》由会员分享，可在线阅读，更多相关《数据分析试题.docx（26页珍藏版）》请在冰豆网上搜索。

数据分析试题.docx

数据分析试题

上海第二工业大学

（试卷编号：

）

姓名:

2011〜2012学年第二学期数据分析期末考试卷

题号

-一一

-二二

得分

王赞学号：

094860117

班级：

09计算A1

一、某医院管理工作者希望了解病人对医院工作的满意程度Y和病人的年龄X1、病情的严重程度X2和忧虑程度X3之间的关系，他们随机选取了23位病人，得到下表所列数据：

（本题40分，每小题5分）

i

1

2

3

4

5

6

7

8

9

10

11

12

X1

50

36

40

41

28

49

42

45

52

29

43

为2

51

46

48

44

43

54

50

48

62

50

48

53

Xi3

2.3

2.2

1.8

2.9

2.2

2.4

2.9

2.1

2.4

y

48

57

66

89

36

46

54

26

77

89

67

i

13

14

15

16

17

18

19

20

21

22

23

X1

38

34

53

36

33

29

33

55

29

44

43

Xi2

55

51

54

49

56

46

49

51

52

58

50

Xi3

2.2

2.3

2.2

2.0

2.5

1.9

2.1

2.4

2.3

2.9

2.3

Yi

47

51

57

66

79

88

60

49

77

52

60

⑴拟合丫关于X「X2,X3的线性回归模型，写出回归方程；根据所得的回归模型

中回归系数给出初步的分析结果；

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

4472.725

3

1490.908

12.072

.000a

残差

2346.579

19

123.504

总计

6819.304

22

a.预测变量:

（常量）,Xi3,Xi1,XI2

b.因变量：

Yi

系数

模型

非标准化系数

标准系数

t

Sig.

B

标准

误差

试用版

1

（常量）

177.445

27.839

6.374

.000

Xi1

-1.069

.326

-.514

-3.284

.004

XI2

-.839

.887

-.212

-.947

.356

Xi3

-13.193

13.221

-.228

-.998

.331

a.因变量：

Yi

表二

由方差分析看出：

F统计量的值为12.072，根据p值检验法知F检验的p值显然小于0.0001，因此拒绝原假设，接受对立假设，即因变量与3个自变量之间具有高度显著的线性回归关系。

由表二可以看出，如果显著水平〉为0.05,而t检验的3个p值分别为0.0040356、0.331显然小于显著水平，因此拒绝原假设，接受对立假设，则说明因变量和XI1存在着高度显著的线性回归关系，与

XI2、XI3没有显著的线性关系。

并且得到回归方程为：

Yi=177.455-1.069Xi1。

其意义是在Xi1每增加一个单位，则Y减少1.069个单位。

（2）、设误差项勺=（i=1,2,…，16）独立同分布于N（0®2），在a=0.01水平上检

验回归关系的显著性；（写出原假设、对立假设和检验统计量）

解：

由表1可以看出SSR为4472.725，SSE为2346.579，SST为6619.304;设y与X1,X2,X3的观测值之间满足关系％「必1•；i（i=1,2……18）其中q（i=1,2……18）相互独立，均服从正态分布N（0,2），利用SPSS可得到下列分析结果。

2/\2

由此表可知，匚的估计值匚=MSE=123.504,MSR=1490.908检验假设：

MSR

H0：

：

1=：

2二：

3=0…H1：

：

1,：

2,至少有一个非零的，统计量F==12.072

MSE

检验值P从表看几乎接近于零V〉=0.01,则拒绝Hb，此结果表明丫与X1,X2,X3之间存在高度显著的线性回归关系。

（3）、在。

=0.05时，检验各自变量对Y的影响的显著性；（写出原假设、对立假设和检验统计量）；

解：

假设检验为：

出：

"=0「鼻=0，检验统计量tk-

s偲）

t检验的3个p值分别为0.004、0.356、0.331，显然XI1小于显著水平0.05,因此拒绝原假设，接受对立假设，则说明因变量只和XI1之间都存在着高度显著的线性回归关系。

（4）、根据⑵（3）的结果解释由⑴所得到的模型是否合理？

为什么？

合理，有表一的结果可知，三个变量总体和丫具有高度的线性关系，但是有表二可知对每一个变量分析时只有XI1和丫具有高度现象关系。

（5）用逐步回归法来选择最优回归方程，取让二小=0.05；

系数

模型

非标准化系数

标准系数

t

Sig.

B的95.0%置信区间

B

标准误差

试用版

下限

上限

1

（常量）

121.994

12.618

9.668

.000

95.753

148.235

Xi1

-1.510

.312

-.726

-4.843

.000

-2.159

-.862

2

（常量）

157.527

18.182

8.664

.000

119.599

195.454

Xi1

-1.111

.322

-.534

-3.453

.003

-1.782

-.440

Xi3

-22.368

8.970

-.386

-2.493

.022

-41.080

-3.656

a.因变量：

Yi

表三

已排除的变量

模型

BetaIn

t

Sig.

偏相关

共线性统计量

容差

1

XI2

-.375a

-2.467

.023

-.483

.782

Xi3

-.386a

-2.493

.022

-.487

.752

2

XI2

-.212b

-.947

.356

-.212

.362

a.模型中的预测变量：

（常量）,Xi1。

b.模型中的预测变量：

（常量）,Xi1,Xi3

c.因变量：

Yi

表四

解：

根据表三和表四结果知道最终的选取的结果是只有XI1保留，也就是变量

XI2和XI3被删除。

根据t检验的p值可以看出，最终模型只有变量XI1与因变量之间具有高度显著的线性相关关系。

（6）写出残差向量，通过残差分析来分析模型的合理性；

RES_1为：

-2.82240

-12.99019

.64668

16.08086

1.34021

-5.45738

-15.53577

-3.36804

-5.53378

.24370

14.52278

11.69058

-14.61579

-16.93157

10.58460

-5.42982

16.83504

5.24722

-13.31846

4.84355

4.56127

8.55382

.85289

残差关于拟合值的残差图如图1:

图1

前IKEA

igoaiacr

2CSKKKID-

UnstandardizedPredictedValue

从图1看出，该残差图中各点分布近似长条矩形，因此认为该线性回归模型比较合理。

残差关于XI1的残差图如图2：

ID3S404550Ed

从图2看出，该残差图中各点分布近似长条矩形，因此说明该模型中不需要添加该自变量的高阶项和交叉项。

残差关于XI2的残差图如图3：

-V3CXXMM-

（7）计算数据的标准化残差，并利用残差正态性的频率检验法来检验误差「的

正态性假设是否合理？

解：

数据标准化残差以变量名为ZRE_1存储在数据中：

-.25397

-1.16889

.05819

1.44700

.12060

-.49107

-1.39795

-.30307

-.49794

.02193

1.30680

1.05195

-1.31517

-1.52355

.95243

-.48859

1.51486

.47216

-1.19843

.43584

.41044

.76970

.07674

落在（-1,1）区间的概率为14/23=0.61与0.68很接近

落在（-1.5,1.5）区间的概率为21/23=0.91与0.87很接近

落在（-2,2）区间的概率为23/23=1.0与0.95很接近认为正态性假设是合理的。

（8）对自变量一组新的观测值（48,50,2.2）t,给出Y的预报值的99%的置信区间；

解：

置信区间为：

（43.72601，66.25573）。

二、各地区居民消费水平（2006年）数据见附录中数据文件xfsp.sav中，设对应于全体居民、农村居民、城镇居民的数据变量分别记为X1,X2,X3，（本大题共40分,每小题5分）

（1）从样本协方差矩阵出发，求出样本x,,x2,x3的第一和第二主成分，计算各样

本主成分的贡献率；将第一样本主成分y1从小到大排序，并分析排序的实际含义。

解释的总方差

成份

初始特征值a

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

原始

1

30588315.942

98.549

30588315.942

98.549

2

335962.375

1.082

99.631

335962.375

1.082

99.631

3

114484.513

.369

100.000

114484.513

.369

100.000

重新标度1

30588315.942

98.549

2.939

97.964

2

335962.375

1.082

99.631

.032

1.070

99.034

3

114484.513

.369

100.000

.029

.966

100.000

提取方法：

主成份分析。

a.分析协方差矩阵时，

初始特征值在整个原始解和重标刻度解中均相同。

成份矩阵

原始

重新标度

成份

1

2

3

1

2

3

qtjm

3927.371

319.851

-147.964

.996

.081

-.038

ncjm

1798.050

170.375

304.126

.982

.093

.166

czjm

3454.141

-452.360

9.923

.992

-.130

.003

提取方法：

主成份。

a.已提取了3个成份。

表二

解：

表一的第二列表示相关系数矩阵的特征值，第三列表示样本主成分的贡献率，第四列表示样本的累积贡献率。

可见到第一个主成分，累积贡献率已经

超过98沖上。

根据表二的数据可以很快算出样本的主成分，每一列分别对应除以I得出对应的特征向量。

第一主成分的系数向量为：

（3927.371,1798.050,3454.141）/•.3058831594=

（0.71,0.33,0.62）所以第一主成分为：

丫仁0.71*x1+0.33*x2+0.62*x3

从而计算数据在第一主成分上的得分为：

西藏

7206.00

贵州

8296.53

青海

8343.05

甘肃

8404.29

新疆

8528.76

广西

8787.97

江西

8819.13

安徽

8884.00

云南

8920.08

海南

9050.48

黑龙江

9086.47

陕西

9146.91

四川

9193.57

山西

9253.16

河南

9682.78

宁夏

9834.55

河北

9995.16

吉林

10096.79

重庆

10218.44

湖北

10468.41

内家古

10653.94

湖南

10794.94

辽宁

11862.07

山东

13094.62

福建

14232.36

江苏

14664.97

天津

16858.35

广东

18322.30

浙江

19847.38

北京

25907.81

上海

32037.40

从得分的结果来看，作为发达城市的上海，北京，浙江，广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多，这个是符合实际情况的。

（2）从样本的相关系数矩阵出发，求出样本x1,x2,x3的第一和第二主成分，计

算各样本主成分的贡献率，将第一样本主成分yi从小到大排序，并分析排序的实际含义。

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

1

2.945

98.175

2.945

98.175

2

.038

1.276

99.450

.038

1.276

99.450

3

.016

.550

100.000

.016

.550

100.000

提取方法：

主成份分析

成份

1

2

3

qtjm

.994

-.009

-.104

ncjm

.989

-.133

.058

czjm

.989

.143

.047

提取方法：

主成份。

a.已提取了3个成份。

表二

解：

表一的第二列表示相关系数矩阵的特征值，第三列表示样本主成分的贡献率，第四列表示样本的累积贡献率。

可见到第一个主成分，累积贡献率已经

超过98沖上。

根据表二的数据可以很快算出样本的主成分，每一列分别对应除以［得出对应的特征向量。

第一主成分的系数向量为：

（0.994,0.989,0.989）/,2.945=

（0.579,0.576,0.576）所以第一主成分为：

Y1=0.579*x1+0.576*x2+0.576*x3

从而计算数据在第一主成分上的得分为：

西藏

6951.85

贵州

7864.83

青海

7983.37

甘肃

8008.04

新疆

8123.27

广西

8484.22

云南

8536.45

安徽

8554.25

江西

8613.93

黑龙江

8714.75

陕西

8770.57

海南

8778.62

山西

8865.35

四川

8871.23

河南

9340.49

宁夏

9381.10

河北

9621.36

重庆

9687.29

吉林

9719.85

湖北

10042.46

内家古

10188.98

湖南

10413.29

辽宁

11393.33

山东

12551.96

福建

13747.25

江苏

14279.18

天津

16095.76

广东

17281.96

浙江

19236.75

北京

24779.72

上海

30806.26

从得分的结果来看，作为发达城市的上海，北京，浙江，广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多，这个是符合实际情况的

（3）比较两种结果有何差异，试说明哪种结果更好？

并说明你的理由。

两种结果差异不大，使用哪种方法都可以，因为原始数据的量纲相差不大，几乎都在同一数量级，所以使用协方差和使用相关系数都差不多。

（4）本题数据是否适合进行因子分析？

理由是什么？

KMO和Bartlett

的检验

取样足够度的Kaiser-Meyer-Olkin

度量。

.765

Bartlett的球形度检近似卡方

177.109

验df

3

Sig.

.000

相关

qtjm

1.000

.979

.977

ncjm

.979

1.000

.962

czjm

.977

.962

1.000

Sig.（单侧）

qtjm

.000

ncjm

.000

czjm

.000

a.行列式=.002

解：

由KMO佥验值0.756（>0.6）和从变量的相关系数矩阵可以看出，各变量间的相关性很高，因此变量间所表示的信息量有交叉部分，因此可以进行因子分析。

（5）取公共因子数为1时，对n，X2，X3进行因子分析，并进行解释；对公共因子h得分从小到大进行排序，并进行分析解释。

初始

提取

qtjm

1.000

.989

ncjm

1.000

.979

czjm

1.000

.977

提取方法：

主成份分析。

选取一个因子，从上表可以看出因子可以解释qtim,ncjm,czjm，因此本因子的提

取效果是理想的

（6）取公共因子数为2时，采用方差最大正交旋转进行因子分析，对公共因子Fi得分从小到大进行排序。

再对公共因子Fi,F2进行解释。

旋转成份矩阵

成份

1

2

qtjm

.715

.692

ncjm

.798

.600

czjm

.604

.796

提取方法：

主成份。

旋转法：

具有Kaiser标准化的

正交旋转法。

a.旋转在3次迭代后收敛。

因子一只要解释qtjm,ncjm，因子二主要解释czjm

（7）根据第（5）（6）小题的结果分析哪种取法更加合理？

为什么？

解：

（5）的方法更合理，因为一个因子就可以解释所有变量了。

（8）简单说明因子分析中采用正交旋转的目的是什么？

解：

为了使一部分变量仅与第一个因子相关，另一部分变量与第二个因子相关。

、各地区历年电力消费量见附件中数据文件dlxf.sav（单位：

亿千瓦小时）；变

量X"-X6分别代表2000年、2002年、2003年、2004年、2005年、2006年的电

力消费：

（本大题共20分，每小题4分）

（1）选择三种不同的谱系聚类法聚类，并给出这三种方法分3类的结果;

1、米用最长距离：

案例

3群集

1:

北京

1

2:

天津

1

3:

河北

2

4:

山西

1

5:

内蒙古

1

6:

辽宁

2

7:

吉林

1

8:

黑龙江

1

9:

上海

1

10:

江苏

3

11:

浙江

2

12:

安徽

1

13:

福建

1

14:

江西

1

15:

山东

3

16:

河南

2

17:

湖北

1

18:

湖南

1

19:

广东

3

20:

广西

1

21:

海南

1

22:

重庆

1

23:

四川

1

24:

贵州

1

25:

云南

1

26:

陕西

1

27:

甘肃

1

28:

青海

1

29:

宁夏

1

30:

新疆

1

分类结果：

第1类：

1、2、4、5、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、

28、29、30.

第2类：

3、6、11、16。

第3类：

10、15、19、

2、最短距离:

群集成员

案例

3群集

1:

北京

1

2:

天津

1

3:

河北

1

4:

山西

1

5:

内蒙古

1

6:

辽宁

1

7:

吉林

1

8:

黑龙江

1

9:

上海

1

10:

江苏

2

11:

浙江

1

12:

安徽

1

13:

福建

1

14:

江西

1

15:

山东

2

16:

河南

1

17:

湖北

1

18:

湖南

1

19:

广东

3

20:

广西

1

21:

海南

1

22:

重庆

1

23:

四川

1

24:

贵州

1

25:

云南

1

26:

陕西

1

27:

甘肃

1

28:

青海

1

29:

宁夏

1

30:

新疆

1

分类结果：

第1类：

1,2,、3、4、5、6、7、8、9、11、12、13、14、16、17、18、20、21、22、23、

24、25、26、27、28、29、30.

第2类：

10、15。

第3类：

19。

3、质新法:

群集成员

案例

3群集

1:

北京

1

2:

天津

1

3:

河北

2

4:

山西

1

5:

内蒙古

1

6:

辽宁

1

7:

吉林

1

8:

黑龙江

1

9:

上海

1

10:

江苏

2

11:

浙江

2

12:

安徽

1

13:

福建

1

14:

江西

1

15:

山东

2

16:

河南

2

17:

湖北

1

18:

湖南

1

19:

广东

3

20:

广西

1

21:

海南

1

22:

重庆

1

23:

四川

1

24:

贵州

1

25:

云南

1

26:

陕西

1

27:

甘肃

1

28:

青海

1

29:

宁夏

1

30:

新疆

1

分类结果:

第1类：

1、2、4、5、6、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、

27、28、第2类：

29、30.

3、10、11、15、16。

第3类：

19。

（2）用快速聚类法进行聚类，分别写出分3类和4类的结果;分为3类为：

聚类成员

案例号

地区

聚类

距离

1

北京

2

227.373

2

天津

2

197.649

3

河北

1

600.121

4

山西

1

532.452

5

内蒙古

2

404.109

6

辽宁

1

192.567

7

吉林

2

180.935

8

黑龙江

2

278.295

9

上海

1

585.090

10

江苏

3

284.503

11

浙江

1

859.277

12

安徽

2

209.794

13

福建

2

568.947

14

江西

2

209.294

15

山东

3

654.848

16

河南

1

307.871

17

湖北

2

669.441

18

湖南

2

436.859

19

广东

3

897.880

20

广西

2

81.107

21

海南

2

852.741

22

重庆

2

264.783

23

四

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据分析试题

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据分析试题.docx
链接地址：https://www.bdocx.com/doc/12112956.html

数据分析试题.docx

热门标签