书签分享收藏举报版权申诉 / 51

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 生产经营管理 > 数据回归分析.docx

数据回归分析.docx

文档编号：10171883
上传时间：2023-02-09
格式：DOCX
页数：51
大小：264.93KB

数据回归分析.docx

《数据回归分析.docx》由会员分享，可在线阅读，更多相关《数据回归分析.docx（51页珍藏版）》请在冰豆网上搜索。

数据回归分析.docx

数据回归分析

楚雄师范学院数学建模培训

题目:

数据回归分析

队员

姓名

系别

专业

班级

1

阮秀婷

数学系

数学与应用数学

1班

2

陈志明

数学系

数学与应用数学

2班

3

施明杰

数学系

信息与计算科学

3班

2013年8月23日

数据回归分析

摘要：

本模型是为解决给定一组数据进行相关线性分析，而对应变量与自变量之间的函数关系问题而建立的针对本文给出的多组数据多个变量样本，我们对它建立回归模型，并且利用spss，eviews，以及matlab等数学软件对已知数据进行处理。

首先用箱图进行分析，进而检测出了强影响点，得出杠杆值。

其次，从回归残差的直方图与附于图上的正态分布曲线相比较，来验证正态分布。

最后，从相关系数观察变量之间是否线性相关，来检验自变量是否多重共线性。

最后建立出一个合理化的模型。

关键词：

强影响点杠杆值回归分析相关性自相关残差异常点正态性

一、问题重述

y

x1

x2

x3

x4

x5

x6

443

49

79

76

8

15

205

290

27

70

31

6

129

676

115

92

130

0

9

339

536

92

62

92

5

8

247

481

67

42

94

16

3

202

296

31

54

34

14

11

119

453

105

60

47

5

10

212

617

114

85

84

17

20

285

514

98

72

71

12

-1

242

400

15

59

99

15

11

174

473

62

81

9

1

207

157

25

11

7

9

45

440

45

65

84

19

13

195

480

92

75

63

9

20

232

136

27

26

82

4

17

134

530

111

52

93

11

13

256

610

78

102

84

5

7

266

617

106

87

82

18

7

276

600

97

98

71

12

8

266

480

67

65

62

13

12

196

279

38

26

44

10

8

110

446

56

32

99

16

8

188

450

54

100

50

11

15

205

335

53

55

60

8

0

170

459

61

53

79

6

5

193

630

60

108

104

17

8

273

483

83

78

71

11

8

233

617

74

125

66

16

4

265

605

89

121

71

8

283

388

64

30

81

10

176

351

34

44

65

7

9

143

366

71

34

56

8

9

162

493

88

30

87

13

0

207

648

112

105

123

5

12

34

449

57

69

72

5

4

200

340

61

35

55

13

0

152

292

29

45

47

13

123

688

82

105

81

20

9

268

408

80

55

61

11

1

197

461

82

88

54

14

7

225

上表给定了一些关于自变量

与因变量

的一些数据，请按所给的要求对给定的数据进行分析：

要求：

1.检测强影响点,并求出杠杆值.

2.正态性检验.

3.相关性检验.

4.自变量的多重共线性检测,若有多重共线性,试消除,再建模.

5.残差的自相关性分析,模型的合理性分析.

6.预测

时

的预测值.

二、问题分析

本文是要对给定的一组数据做合理化的线性分析。

先后要求对数据做异常值（强影响点）的检验和剔除，各变量的正态性检验，再从相关性的角度对各变量做相关性检验，得出数据是否适合做多元线性规划模型。

为了使建立的模型具有很好的拟合效果和实际意义，又要求对各变量做相关性检验的同时进而做多重共线性的诊断，从中发现自变量之间是否存在着多重共线性。

在有多重共线性的情况下，为了消除多重共线性的影响，我们又要做剔除不合理的变量再做回归模型。

当然在做好的模型中，我们又要剔除不能通过t检验的变量，最后建立没有强多重共线性，没有异常点且通过了F检验，t检验的合理化模型，再对给定的数据做出评价和预测。

三.模型假设

各变量的数据与所给的表格中的信息一致。

并且所有数据均不是时间系列数据。

四、符号说明

Cook：

库克距离

：

杠杆值

：

马氏距离

五.模型的建立与求解

5.1强影响点的检测,杠杆值的求解。

5.1.1强影响点的检测

利用spss数学软件对数据进行强影响点的检验。

图表1spss箱图

从所给数据绘制的箱图来看数据存在着强影响点，初步可以看出强影响点分别在

的3号位和12号位，

的34号位。

为了进一步的检测出强影响点的位置和数据，减小强影响点对整体数据的影响，我们进一步对强影响点进行分析。

序号

杠杆值

库克距离

MaHar距离

1

0.08927

0.00124

3.48134

2

0.17334

0.00118

6.76013

3

0.36372

0.00081

14.18495

4

0.08123

0.0093

3.1681

5

0.12384

0.00097

4.82977

6

0.10753

0

4.19383

7

0.18045

0.0028

7.0377

8

0.27241

0.00036

10.62387

9

0.11972

0.03478

4.66919

10

0.24533

0.00002

9.56781

11

0.0705

0.00155

2.74957

12

0.253

0.09157

9.86694

13

0.13616

0.0088

5.31018

14

0.18471

0

7.20365

15

0.24417

0.80856

9.52252

16

0.1516

0.00399

5.91237

17

0.1152

0.04509

4.49265

18

0.11576

0.00635

4.51472

19

0.05475

0.00031

2.13536

20

0.02535

0.01049

0.98876

21

0.07332

0.00919

2.85948

22

0.14925

0.00797

5.82088

23

0.13162

0.00125

5.13328

24

0.08912

0.04237

3.47549

25

0.05099

0.01923

1.98853

26

0.17886

0.00032

6.97558

27

0.01226

0.00485

0.47806

28

0.18812

0.00398

7.33676

29

0.13499

0.00278

5.26468

30

0.06522

0.00128

2.54373

31

0.06165

0.01858

2.40454

32

0.06281

0.00372

2.44946

33

0.17065

0.01903

6.65523

34

0.97471

822.23619

38.01355

35

0.0783

0.00568

3.05365

36

0.11216

0.01539

4.37417

37

0.08678

0.00037

3.38432

38

0.13479

0.0791

5.2569

39

0.07252

0.02569

2.82814

40

0.06385

0.04144

2.49016

图表2杠杆值、库克距离、马氏距离

从上表中我们可以看到，34行库克距离（cook）等于

远远大于1，判断为强影响点。

取34行强影响点附近的平均值在对数据进行库克距离的分析，最后发现15行库克距离（cook）等于1.40907大于1，所以也是强影响点。

为了使模型的数据不存在异常点，我们取它附近数据的平均值代替异常值，重新组合数据。

（原始数据中没有小数，为了保持一致性和合理性，我们对所求平均值按四舍五入法取数）。

序号

y

x1

x2

x3

x4

x5

x6

1

443

49

79

76

8

15

205

2

290

27

70

31

6

129

3

676

115

92

130

0

9

339

4

536

92

62

92

5

8

247

5

481

67

42

94

16

3

202

6

296

31

54

34

14

11

119

7

453

105

60

47

5

10

212

8

617

114

85

84

17

20

285

9

514

98

72

71

12

-1

242

10

400

15

59

99

15

11

174

11

473

62

81

9

1

207

12

157

25

11

7

9

45

13

440

45

65

84

19

13

195

14

480

92

75

63

9

20

232

15

505

102

64

78

10

17

244

16

530

111

52

93

11

13

256

17

610

78

102

84

5

7

266

18

617

106

87

82

18

7

276

19

600

97

98

71

12

8

266

20

480

67

65

62

13

12

196

21

279

38

26

44

10

8

110

22

446

56

32

99

16

8

188

23

450

54

100

50

11

15

205

24

335

53

55

60

8

0

170

25

459

61

53

79

6

5

193

26

630

60

108

104

17

8

273

27

483

83

78

71

11

8

233

28

617

74

125

66

16

4

265

29

605

89

121

71

8

283

30

388

64

30

81

10

176

31

351

34

44

65

7

9

143

32

366

71

34

56

8

9

162

33

493

88

30

87

13

0

207

34

471

73

50

80

9

2

204

35

449

57

69

72

5

4

200

36

340

61

35

55

13

0

152

37

292

29

45

47

13

123

38

688

82

105

81

20

9

268

39

408

80

55

61

11

1

197

40

461

82

88

54

14

7

225

图表3修正数据表

5.1.2杠杆值的求解

由中心化的帽子矩阵主对角线元素可得：

因此，

，中心化杠杆值

的平均值是

故：

1）、第15号位的中心化杠杆值为

，平均杠杆值为

；

2）、第34号位的中心化杠杆值为

，平均杠杆值为

；

5.2正态性检验

把修改好的数据重新导入数学软件，对其正态性进行检验。

图表4标准化残差

通过直方图我们可以看到，图形是以钟型分布，符合正态性曲线的基本分布规律，可以初步判定数据呈现正态分布。

图表5Y数据P—P图

图表6Y数据Q—Q图

从数据的P-P图和Q-Q图来看，

观测的积累概率与期望的积累概率都在线性直线的附近，而且满足正态分布的要求，因此可以判定数据呈现正态分布。

5.3相关性检验

对数据进行画散点图，对其相关性进行图形检验。

图表7数据散点图

从各变量和因变量y的散点图来看，

和因变量y都有明显的正相关性，

与因变量y的相关不太显著。

因而进一步做数据的相关阵分析。

CovarianceAnalysis:

Ordinary

Date:

08/21/13Time:

17:

23

Sample:

140

Includedobservations:

40

Covariance

Correlation

Y

X6

X5

X4

X3

X2

X1

Y

13856.57

1.000000

X6

6519.659

3269.478

0.968630

1.000000

X5

41.61063

28.62625

26.69438

0.068417

0.096898

1.000000

X4

85.98063

12.49625

2.029375

19.47438

0.165516

0.049523

0.089006

1.000000

X3

1853.741

903.6225

-1.451250

7.728750

489.4775

0.711795

0.714301

-0.012696

0.079161

1.000000

X2

2382.556

1148.521

21.82938

13.27438

160.1538

716.8244

0.755977

0.750228

0.157807

0.112351

0.270374

1.000000

X1

2294.498

1220.401

8.181875

-7.608125

255.2988

272.3669

694.3194

0.739742

0.809998

0.060098

-0.065428

0.437928

0.386072

1.000000

图表8数据的相关阵

从表中可以看出

的值都在0.7以上，都与因变量y有较强的正相关性，

的值分别为0.165516,0.068417，从而可以判定

与因变量y有较弱的正相关性，这与散点图的判断结果基本保持一致。

另外，从表中的数据还可以看出，

的相关系数为0.809998，

的相关系数为0.750228，

的相关系数为0.714301，它们的自变量之间也存在显著的相关性。

5.4.1自变量的多重共线性检测

把数据导入eviews中，对自变量进行相关系数检验。

X1

X2

X3

X4

X5

X6

X1

1.000000

0.386072

0.437928

-0.065428

0.060098

0.809998

X2

0.386072

1.000000

0.270374

0.112351

0.157807

0.750228

X3

0.437928

0.270374

1.000000

0.079161

-0.012696

0.714301

X4

-0.065428

0.112351

0.079161

1.000000

0.089006

0.049523

X5

0.060098

0.157807

-0.012696

0.089006

1.000000

0.096898

X6

0.809998

0.750228

0.714301

0.049523

0.096898

1.000000

图表9相关系数检验表

相关系数矩阵可以看出，各解释变量相互之间的相关系数较高，特别是x1和x6、x2和x6、x3和x6，之间高度相关，证实解释变量之间存在多重共线性。

根据综合判别法与简单相关系数检验法分析的结果可以知道，回归变量间确实存在多重共线性。

下面我们将采用逐步回归法来减少共线性的严重程度而不是彻底地消除它。

5.4.2多重共线性的消除

一般多重共线性的消除，采用逐步回归法来减少共线性的严重程度而不是彻底地消除它。

但是从相关系数矩阵的相关性可以看出，x6分别和x1、x2、x3之间高度相关，我们可以直接删除x6变量再来看变量之间的相关系数矩阵。

X1

X2

X3

X4

X5

X1

1.000000

0.386072

0.437928

-0.065428

0.060098

X2

0.386072

1.000000

0.270374

0.112351

0.157807

X3

0.437928

0.270374

1.000000

0.079161

-0.012696

X4

-0.065428

0.112351

0.079161

1.000000

0.089006

X5

0.060098

0.157807

-0.012696

0.089006

1.000000

图表10相关系数矩阵

删除x6变量以后，也可以说明

各自变量之间还存在着较弱的多重共线性，但是对模型不会造成很大的影响，考虑到模型的全局性便不再对自变量做处理。

5.4.3模型的建立

对于因变量

与多个自变量

有关的问题。

我们可以采用多元线性回归进行问题的分析。

多元线性回归模型的基本形式：

设随机变量

与一般变量

的理论线性回归模型为：

其中，

是

个未知参数，

称为回归常数，

称为回归系数。

称为被解释变量（因变量），而

是

个可以精确测量并可控制的一般变量，称为解释变量（自变量）。

是随机误差，与一元线性回归一样，对随机误差项我们常假定

称

为理论回归方程。

为了计算的方便，把数据导入eviews中进行求解，用eviews软件做多元线性回归分析如下:

DependentVariable:

Y

Method:

LeastSquares

Date:

08/21/13Time:

19:

56

Sample:

140

Includedobservations:

40

Variable

Coefficient

Std.Error

t-Statistic

Prob.

X1

1.708021

0.187623

9.103486

0.0000

X2

2.169796

0.173763

12.48713

0.0000

X3

2.139022

0.213278

10.02925

0.0000

X4

2.841844

0.967685

2.936746

0.0059

X5

-0.838843

0.822974

-1.019282

0.3153

C

26.54320

19.29828

1.375418

0.1780

R-squared

0.957188

Meandependentvar

465.2250

AdjustedR-squared

0.950892

S.D.dependentvar

119.2136

S.E.ofregression

26.41815

Akaikeinfocriterion

9.523461

Sumsquaredresid

23729.23

Schwarzcriterion

9.776793

Loglikelihood

-184.4692

Hannan-Quinncriter.

9.615057

F-statistic

152.0331

Durbin-Watsonstat

1.975097

Prob（F-statistic）

0.000000

图表11多元线性回归数据

从系数表中可以得到

对5个自变量的线性回归方程为：

从上表可以看出，从上回归结果可以看出，拟合优度很高，整体效果的F检验通过。

但有重要变量X5的t检验不显著。

、

可决系数很高，说明模型对样本的拟合很好；F=152.0331检验值很大，相应的P=0.000000，说明回归方程显著。

给定显著性水平

，但变量x5系数的t统计量为-1.019282，相应的P值分别为0.3153，说明X5对因变量影响不显著，因此我们再做剔除不合理变量

做回归分析。

DependentVariable:

Y

Method:

LeastSquares

Date:

08/21/13Time:

20:

19

Sample:

140

Includedobservations:

40

Variable

Coe

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据回归分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据回归分析.docx
链接地址：https://www.bdocx.com/doc/10171883.html

数据回归分析.docx

热门标签