数据回归分析.docx
- 文档编号:10171883
- 上传时间:2023-02-09
- 格式:DOCX
- 页数:51
- 大小:264.93KB
数据回归分析.docx
《数据回归分析.docx》由会员分享,可在线阅读,更多相关《数据回归分析.docx(51页珍藏版)》请在冰豆网上搜索。
数据回归分析
楚雄师范学院数学建模培训
题目:
数据回归分析
队员
姓名
系别
专业
班级
1
阮秀婷
数学系
数学与应用数学
1班
2
陈志明
数学系
数学与应用数学
2班
3
施明杰
数学系
信息与计算科学
3班
2013年8月23日
数据回归分析
摘要:
本模型是为解决给定一组数据进行相关线性分析,而对应变量与自变量之间的函数关系问题而建立的针对本文给出的多组数据多个变量样本,我们对它建立回归模型,并且利用spss,eviews,以及matlab等数学软件对已知数据进行处理。
首先用箱图进行分析,进而检测出了强影响点,得出杠杆值。
其次,从回归残差的直方图与附于图上的正态分布曲线相比较,来验证正态分布。
最后,从相关系数观察变量之间是否线性相关,来检验自变量是否多重共线性。
最后建立出一个合理化的模型。
关键词:
强影响点杠杆值回归分析相关性自相关残差异常点正态性
一、问题重述
y
x1
x2
x3
x4
x5
x6
443
49
79
76
8
15
205
290
27
70
31
6
6
129
676
115
92
130
0
9
339
536
92
62
92
5
8
247
481
67
42
94
16
3
202
296
31
54
34
14
11
119
453
105
60
47
5
10
212
617
114
85
84
17
20
285
514
98
72
71
12
-1
242
400
15
59
99
15
11
174
473
62
62
81
9
1
207
157
25
11
7
9
9
45
440
45
65
84
19
13
195
480
92
75
63
9
20
232
136
27
26
82
4
17
134
530
111
52
93
11
13
256
610
78
102
84
5
7
266
617
106
87
82
18
7
276
600
97
98
71
12
8
266
480
67
65
62
13
12
196
279
38
26
44
10
8
110
446
56
32
99
16
8
188
450
54
100
50
11
15
205
335
53
55
60
8
0
170
459
61
53
79
6
5
193
630
60
108
104
17
8
273
483
83
78
71
11
8
233
617
74
125
66
16
4
265
605
89
121
71
8
8
283
388
64
30
81
10
10
176
351
34
44
65
7
9
143
366
71
34
56
8
9
162
493
88
30
87
13
0
207
648
112
105
123
5
12
34
449
57
69
72
5
4
200
340
61
35
55
13
0
152
292
29
45
47
13
13
123
688
82
105
81
20
9
268
408
80
55
61
11
1
197
461
82
88
54
14
7
225
上表给定了一些关于自变量
与因变量
的一些数据,请按所给的要求对给定的数据进行分析:
要求:
1.检测强影响点,并求出杠杆值.
2.正态性检验.
3.相关性检验.
4.自变量的多重共线性检测,若有多重共线性,试消除,再建模.
5.残差的自相关性分析,模型的合理性分析.
6.预测
时
的预测值.
二、问题分析
本文是要对给定的一组数据做合理化的线性分析。
先后要求对数据做异常值(强影响点)的检验和剔除,各变量的正态性检验,再从相关性的角度对各变量做相关性检验,得出数据是否适合做多元线性规划模型。
为了使建立的模型具有很好的拟合效果和实际意义,又要求对各变量做相关性检验的同时进而做多重共线性的诊断,从中发现自变量之间是否存在着多重共线性。
在有多重共线性的情况下,为了消除多重共线性的影响,我们又要做剔除不合理的变量再做回归模型。
当然在做好的模型中,我们又要剔除不能通过t检验的变量,最后建立没有强多重共线性,没有异常点且通过了F检验,t检验的合理化模型,再对给定的数据做出评价和预测。
三.模型假设
各变量的数据与所给的表格中的信息一致。
并且所有数据均不是时间系列数据。
四、符号说明
Cook:
库克距离
:
杠杆值
:
马氏距离
五.模型的建立与求解
5.1强影响点的检测,杠杆值的求解。
5.1.1强影响点的检测
利用spss数学软件对数据进行强影响点的检验。
图表1spss箱图
从所给数据绘制的箱图来看数据存在着强影响点,初步可以看出强影响点分别在
的3号位和12号位,
的34号位。
为了进一步的检测出强影响点的位置和数据,减小强影响点对整体数据的影响,我们进一步对强影响点进行分析。
序号
杠杆值
库克距离
MaHar距离
1
0.08927
0.00124
3.48134
2
0.17334
0.00118
6.76013
3
0.36372
0.00081
14.18495
4
0.08123
0.0093
3.1681
5
0.12384
0.00097
4.82977
6
0.10753
0
4.19383
7
0.18045
0.0028
7.0377
8
0.27241
0.00036
10.62387
9
0.11972
0.03478
4.66919
10
0.24533
0.00002
9.56781
11
0.0705
0.00155
2.74957
12
0.253
0.09157
9.86694
13
0.13616
0.0088
5.31018
14
0.18471
0
7.20365
15
0.24417
0.80856
9.52252
16
0.1516
0.00399
5.91237
17
0.1152
0.04509
4.49265
18
0.11576
0.00635
4.51472
19
0.05475
0.00031
2.13536
20
0.02535
0.01049
0.98876
21
0.07332
0.00919
2.85948
22
0.14925
0.00797
5.82088
23
0.13162
0.00125
5.13328
24
0.08912
0.04237
3.47549
25
0.05099
0.01923
1.98853
26
0.17886
0.00032
6.97558
27
0.01226
0.00485
0.47806
28
0.18812
0.00398
7.33676
29
0.13499
0.00278
5.26468
30
0.06522
0.00128
2.54373
31
0.06165
0.01858
2.40454
32
0.06281
0.00372
2.44946
33
0.17065
0.01903
6.65523
34
0.97471
822.23619
38.01355
35
0.0783
0.00568
3.05365
36
0.11216
0.01539
4.37417
37
0.08678
0.00037
3.38432
38
0.13479
0.0791
5.2569
39
0.07252
0.02569
2.82814
40
0.06385
0.04144
2.49016
图表2杠杆值、库克距离、马氏距离
从上表中我们可以看到,34行库克距离(cook)等于
远远大于1,判断为强影响点。
取34行强影响点附近的平均值在对数据进行库克距离的分析,最后发现15行库克距离(cook)等于1.40907大于1,所以也是强影响点。
为了使模型的数据不存在异常点,我们取它附近数据的平均值代替异常值,重新组合数据。
(原始数据中没有小数,为了保持一致性和合理性,我们对所求平均值按四舍五入法取数)。
序号
y
x1
x2
x3
x4
x5
x6
1
443
49
79
76
8
15
205
2
290
27
70
31
6
6
129
3
676
115
92
130
0
9
339
4
536
92
62
92
5
8
247
5
481
67
42
94
16
3
202
6
296
31
54
34
14
11
119
7
453
105
60
47
5
10
212
8
617
114
85
84
17
20
285
9
514
98
72
71
12
-1
242
10
400
15
59
99
15
11
174
11
473
62
62
81
9
1
207
12
157
25
11
7
9
9
45
13
440
45
65
84
19
13
195
14
480
92
75
63
9
20
232
15
505
102
64
78
10
17
244
16
530
111
52
93
11
13
256
17
610
78
102
84
5
7
266
18
617
106
87
82
18
7
276
19
600
97
98
71
12
8
266
20
480
67
65
62
13
12
196
21
279
38
26
44
10
8
110
22
446
56
32
99
16
8
188
23
450
54
100
50
11
15
205
24
335
53
55
60
8
0
170
25
459
61
53
79
6
5
193
26
630
60
108
104
17
8
273
27
483
83
78
71
11
8
233
28
617
74
125
66
16
4
265
29
605
89
121
71
8
8
283
30
388
64
30
81
10
10
176
31
351
34
44
65
7
9
143
32
366
71
34
56
8
9
162
33
493
88
30
87
13
0
207
34
471
73
50
80
9
2
204
35
449
57
69
72
5
4
200
36
340
61
35
55
13
0
152
37
292
29
45
47
13
13
123
38
688
82
105
81
20
9
268
39
408
80
55
61
11
1
197
40
461
82
88
54
14
7
225
图表3修正数据表
5.1.2杠杆值的求解
由中心化的帽子矩阵主对角线元素可得:
因此,
,中心化杠杆值
的平均值是
故:
1)、第15号位的中心化杠杆值为
,平均杠杆值为
;
2)、第34号位的中心化杠杆值为
,平均杠杆值为
;
5.2正态性检验
把修改好的数据重新导入数学软件,对其正态性进行检验。
图表4标准化残差
通过直方图我们可以看到,图形是以钟型分布,符合正态性曲线的基本分布规律,可以初步判定数据呈现正态分布。
图表5Y数据P—P图
图表6Y数据Q—Q图
从数据的P-P图和Q-Q图来看,
观测的积累概率与期望的积累概率都在线性直线的附近,而且满足正态分布的要求,因此可以判定数据呈现正态分布。
5.3相关性检验
对数据进行画散点图,对其相关性进行图形检验。
图表7数据散点图
从各变量和因变量y的散点图来看,
和因变量y都有明显的正相关性,
与因变量y的相关不太显著。
因而进一步做数据的相关阵分析。
CovarianceAnalysis:
Ordinary
Date:
08/21/13Time:
17:
23
Sample:
140
Includedobservations:
40
Covariance
Correlation
Y
X6
X5
X4
X3
X2
X1
Y
13856.57
1.000000
X6
6519.659
3269.478
0.968630
1.000000
X5
41.61063
28.62625
26.69438
0.068417
0.096898
1.000000
X4
85.98063
12.49625
2.029375
19.47438
0.165516
0.049523
0.089006
1.000000
X3
1853.741
903.6225
-1.451250
7.728750
489.4775
0.711795
0.714301
-0.012696
0.079161
1.000000
X2
2382.556
1148.521
21.82938
13.27438
160.1538
716.8244
0.755977
0.750228
0.157807
0.112351
0.270374
1.000000
X1
2294.498
1220.401
8.181875
-7.608125
255.2988
272.3669
694.3194
0.739742
0.809998
0.060098
-0.065428
0.437928
0.386072
1.000000
图表8数据的相关阵
从表中可以看出
的值都在0.7以上,都与因变量y有较强的正相关性,
的值分别为0.165516,0.068417,从而可以判定
与因变量y有较弱的正相关性,这与散点图的判断结果基本保持一致。
另外,从表中的数据还可以看出,
的相关系数为0.809998,
的相关系数为0.750228,
的相关系数为0.714301,它们的自变量之间也存在显著的相关性。
5.4.1自变量的多重共线性检测
把数据导入eviews中,对自变量进行相关系数检验。
X1
X2
X3
X4
X5
X6
X1
1.000000
0.386072
0.437928
-0.065428
0.060098
0.809998
X2
0.386072
1.000000
0.270374
0.112351
0.157807
0.750228
X3
0.437928
0.270374
1.000000
0.079161
-0.012696
0.714301
X4
-0.065428
0.112351
0.079161
1.000000
0.089006
0.049523
X5
0.060098
0.157807
-0.012696
0.089006
1.000000
0.096898
X6
0.809998
0.750228
0.714301
0.049523
0.096898
1.000000
图表9相关系数检验表
相关系数矩阵可以看出,各解释变量相互之间的相关系数较高,特别是x1和x6、x2和x6、x3和x6,之间高度相关,证实解释变量之间存在多重共线性。
根据综合判别法与简单相关系数检验法分析的结果可以知道,回归变量间确实存在多重共线性。
下面我们将采用逐步回归法来减少共线性的严重程度而不是彻底地消除它。
5.4.2多重共线性的消除
一般多重共线性的消除,采用逐步回归法来减少共线性的严重程度而不是彻底地消除它。
但是从相关系数矩阵的相关性可以看出,x6分别和x1、x2、x3之间高度相关,我们可以直接删除x6变量再来看变量之间的相关系数矩阵。
X1
X2
X3
X4
X5
X1
1.000000
0.386072
0.437928
-0.065428
0.060098
X2
0.386072
1.000000
0.270374
0.112351
0.157807
X3
0.437928
0.270374
1.000000
0.079161
-0.012696
X4
-0.065428
0.112351
0.079161
1.000000
0.089006
X5
0.060098
0.157807
-0.012696
0.089006
1.000000
图表10相关系数矩阵
删除x6变量以后,也可以说明
各自变量之间还存在着较弱的多重共线性,但是对模型不会造成很大的影响,考虑到模型的全局性便不再对自变量做处理。
5.4.3模型的建立
对于因变量
与多个自变量
有关的问题。
我们可以采用多元线性回归进行问题的分析。
多元线性回归模型的基本形式:
设随机变量
与一般变量
的理论线性回归模型为:
其中,
是
个未知参数,
称为回归常数,
称为回归系数。
称为被解释变量(因变量),而
是
个可以精确测量并可控制的一般变量,称为解释变量(自变量)。
是随机误差,与一元线性回归一样,对随机误差项我们常假定
称
为理论回归方程。
为了计算的方便,把数据导入eviews中进行求解,用eviews软件做多元线性回归分析如下:
DependentVariable:
Y
Method:
LeastSquares
Date:
08/21/13Time:
19:
56
Sample:
140
Includedobservations:
40
Variable
Coefficient
Std.Error
t-Statistic
Prob.
X1
1.708021
0.187623
9.103486
0.0000
X2
2.169796
0.173763
12.48713
0.0000
X3
2.139022
0.213278
10.02925
0.0000
X4
2.841844
0.967685
2.936746
0.0059
X5
-0.838843
0.822974
-1.019282
0.3153
C
26.54320
19.29828
1.375418
0.1780
R-squared
0.957188
Meandependentvar
465.2250
AdjustedR-squared
0.950892
S.D.dependentvar
119.2136
S.E.ofregression
26.41815
Akaikeinfocriterion
9.523461
Sumsquaredresid
23729.23
Schwarzcriterion
9.776793
Loglikelihood
-184.4692
Hannan-Quinncriter.
9.615057
F-statistic
152.0331
Durbin-Watsonstat
1.975097
Prob(F-statistic)
0.000000
图表11多元线性回归数据
从系数表中可以得到
对5个自变量的线性回归方程为:
从上表可以看出,从上回归结果可以看出,拟合优度很高,整体效果的F检验通过。
但有重要变量X5的t检验不显著。
、
可决系数很高,说明模型对样本的拟合很好;F=152.0331检验值很大,相应的P=0.000000,说明回归方程显著。
给定显著性水平
,但变量x5系数的t统计量为-1.019282,相应的P值分别为0.3153,说明X5对因变量影响不显著,因此我们再做剔除不合理变量
做回归分析。
DependentVariable:
Y
Method:
LeastSquares
Date:
08/21/13Time:
20:
19
Sample:
140
Includedobservations:
40
Variable
Coe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 回归 分析