交大应用回归实验报告.docx
- 文档编号:29231152
- 上传时间:2023-07-21
- 格式:DOCX
- 页数:41
- 大小:392.37KB
交大应用回归实验报告.docx
《交大应用回归实验报告.docx》由会员分享,可在线阅读,更多相关《交大应用回归实验报告.docx(41页珍藏版)》请在冰豆网上搜索。
交大应用回归实验报告
学生实验报告
实验课程名称应用回归分析
开课实验室数学实验室
学院学院级11级专业班
学生姓名学号
开课时间2013至2014学年第2学期
评分细则
评分
报告表述的清晰程度和完整性(30分)
程序设计的正确性(40分)
实验结果的分析和体会(30分)
总成绩
实验指导教师
实验2.15
一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。
经过10周时间,收集了每周加班工作时间的数据和签发的心保单数目,x为每周签发的新保单数目,y为每周加班工作时间(小时)。
见表2.7.
表2.7
周序号
1
2
3
4
5
6
7
8
9
10
X
825
215
1070
550
480
920
1350
325
670
1215
Y
3.5
1.0
4.0
2.0
1.0
3.0
4.5
1.5
3.0
5.0
(1)画出散点图:
(1)X与y之间是否大致呈线性关系;
答:
由
(1)的散点图可以看出x与y之间大致呈线性关系。
(2)用最小二乘估计求出回归方程;
答:
由SPSS得:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
.118
.355
.333
.748
x
.004
.000
.949
8.509
.000
a.因变量:
y
由该系数表得出最小二乘估计的回归方程为:
(3)求回归标准误差;
答:
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.949a
.900
.888
.48002
a.预测变量:
(常量),x。
由上表得回归标准误差为:
=0.48002
(4)给出
与
的置信度为95%的区间估计;
答:
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
.118
.355
.333
.748
-.701
.937
x
.004
.000
.949
8.509
.000
.003
.005
a.因变量:
y
由上表得:
得置信区间为:
(-0.701,0.0937);
得置信区间为:
(0.003,0.005);
(5)计算x与y的决定系数;
答:
由(4)得模型汇总表得:
=0.900,从相对水平上来看,回归方程能够减少因变量y得99.0%得方差波动。
(6)对回归方程做方差分析;
答:
由SPSS得方差表:
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
16.682
1
16.682
72.396
.000a
残差
1.843
8
.230
总计
18.525
9
a.预测变量:
(常量),x。
b.因变量:
y
由方差分析表中看到,F=72.396,Sig=0.000,说明y对x得线性回归高度显著。
(7)做回归系数β1显著性的检验;
答:
从(5)中得系数表中可得:
回归系数β1检验的t值=8.509,显著性Sig=0.000,与F检验的检验结果一致。
(8)做相关系数的显著性检验;
答:
从(4)的模型汇总表可得:
r=0.949,说明y与x有显著的线性关系,与F检验和回归系数检验的结果一致。
也说明对于一元线性回归三种检验的结果是完全一致的;
(9)对回归方程作残差图并作相应的分析;
答:
残差图:
从残差图上看出,残差是围绕e=0随机扰动,从而模型的基本假定是满足的。
(10)该公司预计下一周签发新保单
=1000张,需要的加班时间是多少?
答:
由SPSS得下表:
x
y
PRE
LICI
UICI
LMCI
UMCI
825
3.5
3.07586
1.91329
4.23844
2.72051
3.43122
215
1
0.88893
-0.38791
2.16577
0.25253
1.52534
1070
4
3.95422
2.75531
5.15314
3.49369
4.41475
550
2
2.08995
0.91086
3.26905
1.6838
2.49611
480
1
1.83899
0.64613
3.03185
1.39446
2.28353
920
3
3.41645
2.24538
4.58752
3.03422
3.79868
1350
4.5
4.95806
3.66413
6.25199
4.28802
5.62809
325
1.5
1.2833
0.04712
2.51947
0.733
1.83359
670
3
2.52017
1.35577
3.68457
2.15889
2.88145
1215
5
4.47406
3.23246
5.71567
3.91169
5.03644
1000
3.70326
2.51949
4.88703
3.28373
4.12279
从表中得出加班时间:
(11)给出
的置信水平为95%的精确预测区间和近似预测区间。
答:
从(10)表可以得出
置信水平为95%的精确预测区间为(3.28373,4.12279),近似预测区间为
即(2.74332,3.70326)。
(12)给出E(
)置信水平为95%的区间估计。
答:
从(11)表中得E(
)置信水平为95%的区间估计为:
(2.51949,4.88703)。
实验2.16
表2.8是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元)。
(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
(2)建立y对x的线性回归;
(3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。
(4)通过p-p图或q-q,若有异常点剔出后再分析。
表2.8
序号
y
x
序号
y
x
序号
y
x
1
19583
3346
18
20816
3059
35
19538
2642
2
20263
3114
19
18095
2967
36
20460
3124
3
20325
3554
20
20939
3285
37
21419
2752
4
26800
4542
21
22644
3914
38
25106
3429
5
29470
4669
22
24624
4517
39
22482
3947
6
26610
4888
23
27186
4349
40
20969
2509
7
30678
5710
24
33990
5020
41
27224
5440
8
27170
5536
25
23382
3594
42
25892
4042
9
25853
4168
26
20627
2821
43
22644
3402
10
24500
3547
27
22795
3366
44
24640
2829
11
24274
3159
28
21570
2920
45
22341
2297
12
27140
3621
29
22080
2980
46
25610
2932
13
30168
3782
30
22250
3731
47
26015
3705
14
26525
4247
31
20940
2853
48
25788
4123
15
27360
3982
32
21800
2533
49
29132
3608
16
21690
3568
33
22934
2729
50
41480
8349
17
21974
3155
34
18443
2305
51
25845
3766
解:
由图知其大致呈线性关系
描述性统计量
均值
标准偏差
N
y
24354.57
4178.824
51
x
3694.65
1053.060
51
相关性
y
x
Pearson相关性
y
1.000
.835
x
.835
1.000
Sig.(单侧)
y
.
.000
x
.000
.
N
y
51
51
x
51
51
输入/移去的变量b
模型
输入的变量
移去的变量
方法
1
xa
.
输入
a.已输入所有请求的变量。
b.因变量:
y
模型汇总b
模型
R
R方
调整R方
标准估计的误差
更改统计量
R方更改
F更改
df1
df2
Sig.F更改
1
.835a
.698
.691
2321.667
.698
112.986
1
49
.000
a.预测变量:
(常量),x。
b.因变量:
y
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
6.090E8
1
6.090E8
112.986
.000a
残差
2.641E8
49
5390136.691
总计
8.731E8
50
a.预测变量:
(常量),x。
b.因变量:
y
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
12109.879
1196.948
10.117
.000
x
3.314
.312
.835
10.630
.000
a.因变量:
y
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
19722.53
39779.89
24354.57
3490.019
51
标准预测值
-1.327
4.420
.000
1.000
51
预测值的标准误差
325.114
1487.149
425.285
176.411
51
调整的预测值
19570.60
38596.95
24336.12
3406.183
51
残差
-3848.022
5523.929
.000
2298.333
51
标准残差
-1.657
2.379
.000
.990
51
Student化残差
-1.682
2.403
.003
1.010
51
已删除的残差
-3963.589
5635.198
18.453
2397.556
51
Student化已删除的残差
-1.715
2.532
.009
1.030
51
Mahal。
距离
.000
19.535
.980
2.769
51
Cook的距离
.000
.316
.023
.050
51
居中杠杆值
.000
.391
.020
.055
51
a.因变量:
y
标准残差的直方图和正概率图
2、回归方程为:
3、从图上可看出,检验误差项服从正态分布。
实验3.11
描述性统计量
均值
标准偏差
N
货运总量y(万吨)
231.50
43.401
10
工业总产值x1亿元
70.30
4.448
10
农业总产值x1亿元
40.40
3.273
10
居民非商品之处x3(亿元)
2.330
.9661
10
相关性
货运总量y(万吨)
工业总产值x1亿元
农业总产值x1亿元
居民非商品之处x3(亿元)
Pearson相关性
货运总量y(万吨)
1.000
.556
.731
.724
工业总产值x1亿元
.556
1.000
.113
.398
农业总产值x1亿元
.731
.113
1.000
.547
居民非商品之处x3(亿元)
.724
.398
.547
1.000
Sig.(单侧)
货运总量y(万吨)
.
.048
.008
.009
工业总产值x1亿元
.048
.
.378
.127
农业总产值x1亿元
.008
.378
.
.051
居民非商品之处x3(亿元)
.009
.127
.051
.
N
货运总量y(万吨)
10
10
10
10
工业总产值x1亿元
10
10
10
10
农业总产值x1亿元
10
10
10
10
居民非商品之处x3(亿元)
10
10
10
10
输入/移去的变量b
模型
输入的变量
移去的变量
方法
1
居民非商品之处x3(亿元),工业总产值x1亿元,农业总产值x1亿元a
.
输入
a.已输入所有请求的变量。
b.因变量:
货运总量y(万吨)
模型汇总b
模型
R
R方
调整R方
标准估计的误差
更改统计量
R方更改
F更改
df1
df2
Sig.F更改
1
.898a
.806
.708
23.442
.806
8.283
3
6
.015
a.预测变量:
(常量),居民非商品之处x3(亿元),工业总产值x1亿元,农业总产值x1亿元。
b.因变量:
货运总量y(万吨)
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
13655.370
3
4551.790
8.283
.015a
残差
3297.130
6
549.522
总计
16952.500
9
a.预测变量:
(常量),居民非商品之处x3(亿元),工业总产值x1亿元,农业总产值x1亿元。
b.因变量:
货运总量y(万吨)
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
-348.280
176.459
-1.974
.096
工业总产值x1亿元
3.754
1.933
.385
1.942
.100
农业总产值x1亿元
7.101
2.880
.535
2.465
.049
居民非商品之处x3(亿元)
12.447
10.569
.277
1.178
.284
a.因变量:
货运总量y(万吨)
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
175.47
292.55
231.50
38.952
10
标准预测值
-1.438
1.567
.000
1.000
10
预测值的标准误差
10.466
20.191
14.526
3.127
10
调整的预测值
188.35
318.11
240.18
49.839
10
残差
-25.198
33.225
.000
19.140
10
标准残差
-1.075
1.417
.000
.816
10
Student化残差
-2.116
1.754
-.123
1.188
10
已删除的残差
-97.615
50.883
-8.683
43.432
10
Student化已删除的残差
-3.832
2.294
-.255
1.658
10
Mahal。
距离
.894
5.777
2.700
1.555
10
Cook的距离
.000
3.216
.486
.976
10
居中杠杆值
.099
.642
.300
.173
10
a.因变量:
货运总量y(万吨)
相关系数矩阵:
相关性
货运总量y(万吨)
工业总产值x1亿元
农业总产值x1亿元
居民非商品之处x3(亿元)
货运总量y(万吨)
Pearson相关性
1
.556
.731*
.724*
显著性(双侧)
.095
.016
.018
N
10
10
10
10
工业总产值x1亿元
Pearson相关性
.556
1
.113
.398
显著性(双侧)
.095
.756
.254
N
10
10
10
10
农业总产值x1亿元
Pearson相关性
.731*
.113
1
.547
显著性(双侧)
.016
.756
.101
N
10
10
10
10
居民非商品之处x3(亿元)
Pearson相关性
.724*
.398
.547
1
显著性(双侧)
.018
.254
.101
N
10
10
10
10
*.在0.05水平(双侧)上显著相关。
1、用SPSS算出y,x1,x2,x3相关系数矩阵如上图
=
2、
3、由于决定系数R方=0.999R=1.0000较大所以认为拟合度较高
4、因为F=8.283P=0.015<0.05所以认为回归方程在整体上拟合的好
5、可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。
去除x3后作F检验,得:
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
12893.199
2
6446.600
11.117
.007a
残差
4059.301
7
579.900
总计
16952.500
9
a.预测变量:
(常量),x2,x1。
b.因变量:
y
由表知通过F检验
继续做回归系数检验
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
相关性
共线性统计量
B
标准误差
试用版
下限
上限
零阶
偏
部分
容差
VIF
1
(常量)
-459.624
153.058
-3.003
.020
-821.547
-97.700
x1
4.676
1.816
.479
2.575
.037
.381
8.970
.556
.697
.476
.987
1.013
x2
8.971
2.468
.676
3.634
.008
3.134
14.808
.731
.808
.672
.987
1.013
a.因变量:
y
此时,我们发现x1,x2的显著性大大提高。
6、x1:
(-0.997,8.485)x2:
(0.053,14.149)x3:
(-13.415,38.310)
7、
8、
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
175.4748
292.5545
231.5000
38.95206
10
标准预测值
-1.438
1.567
.000
1.000
10
预测值的标准误差
10.466
20.191
14.526
3.127
10
调整的预测值
188.3515
318.1067
240.1835
49.83914
10
残差
-25.19759
33.22549
.00000
19.14022
10
标准残差
-1.075
1.417
.000
.816
10
Student化残差
-2.116
1.754
-.123
1.188
10
已删除的残差
-97.61523
50.88274
-8.68348
43.43220
10
Student化已删除的残差
-3.832
2.294
-.255
1.658
10
Mahal。
距离
.894
5.777
2.700
1.555
10
Cook的距离
.000
3.216
.486
.976
10
居中杠杆值
.099
.642
.300
.173
10
a.因变量:
y
所以置信区间为(175.4748,292.5545)
9、由于x3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好
实验3.12
描述性统计量
均值
标准偏差
N
GDP
7.03771266666667E4
3.596620616470544E4
15
第一产业增加值x1
12358.080
4785.1136
15
第二产业增加值x2
35077.813
19370.0235
15
相关性
GDP
第一产业增加值x1
第二产业增加值x2
Pearson相关性
GDP
1.000
.978
.999
第一产业增加值x1
.978
1.000
.975
第二产业增加值x2
.999
.975
1.000
Sig.(单侧)
GDP
.
.000
.000
第一产业增加值x1
.000
.
.000
第二产业增加值x2
.000
.000
.
N
GDP
15
15
15
第一产业增加值x1
15
15
15
第二产业增加值x2
15
15
15
输入/移去的变量b
模型
输入的变量
移去的变量
方法
1
第二产业增加值x2,第一产业增加值x1a
.
输入
a.已输入所有请求的变量。
b.因变量:
GDP
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
1.000a
.999
.999
1.187620634109046E3
a.预测变量:
(常量),第二产业增加值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 交大 应用 回归 实验 报告
![提示](https://static.bdocx.com/images/bang_tan.gif)