回归分析课程设计.docx
- 文档编号:24875654
- 上传时间:2023-06-02
- 格式:DOCX
- 页数:17
- 大小:24.55KB
回归分析课程设计.docx
《回归分析课程设计.docx》由会员分享,可在线阅读,更多相关《回归分析课程设计.docx(17页珍藏版)》请在冰豆网上搜索。
回归分析课程设计
应用回归分析
课程设计指导书
一、课程设计的目的
(1)巩固应用回归分析的理论知识,掌握其思想精髓;
(2)运用回归分析研究方法,加强解决实际问题的能力;
(3)熟练使用spss软件对数据进行回归分析。
二、设计名称:
研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系
三、设计要求
(1)正确运用spss软件对数据进行处理
(2)正确分析数据,尝试选择不同的模型拟合数据
(3)课程设计中,遇到问题要翻阅课本去努力解决问题
(4)要有耐心,对于模型的显著性和回归系数都要进行检验
(5)认真并独立完成
四、设计过程
(1)思考课程设计的目的,寻找来源真实的数据
(2)上网搜集并整理数据资料
(3)根据数据确定研究对象
(4)应用统计软件来处理数据信息
(5)选择通过各种检验的线性模型
(6)写出相应的实验报告,并对结果进行分析
五、设计细则
(1)搜集数据阶段,数据不能过于繁杂,也不能太少;
(2)做课程设计前,认真看书和笔记,及平时的实验报告,掌握丰富的理论;
(3)有耐心,不紧不慢;要细心,一丝不苟;
(4)写报告书时,语言简洁易懂又不失完整,尤其操作过程要正确完整,要
清楚明了。
分析结果要正确与实际问题背景相符。
六、说明
(1)书写报告时,有些特殊的数学符号需要利用Mathtype(公式编辑器)这款小软件进行编辑;
(2)有些spss输出表格不整齐,需要导出在Excel中,然后在复制到word文
档里;
(3)认真仔细的完成课程设计
课程设计任务书
姓名
XXX学号
00000000
班级09统计
课程名称
应用回归分析
课程性质
统计学
设计时间
2011年11月1日——2011年11月15日
设计名称
研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系
设计要求
(1)正确运用spss软件对数据进行处理
(2)正确分析数据,尝试选择不同的模型拟合数
(3)课程设计中,遇到问题要翻阅课本去努力解决问题
(4)要有耐心,对模型的显著性和回归系数要进行检验
(5)认真并独立完成
设计思路
与
设计过程
思路:
(1)建立一个回归方程后,要检验方程显著性和回归系数的显著性
(2)将理论应用到实际问题中去
过程:
(1)思考课程设计的目的,寻找来源真实的数据
(2)上网搜集并整理数据资料
(3)根据数据确定研究对象
(4)应用统计软件来处理数据信息
(5)选择通过各种检验的线性模型
(6)写出相应的实验报告,并对结果进行分析
计划与进度
(1)11月1日-11月3日,思考准备研究课题。
(2)11月4日-11月7日,确立课题,搜集数据。
(3)11月8日-11月13日,分析处理数据,编写课程设计报告书。
(4)11月13日-11月15日,检查报告是否完整正确并装订成册
任课教师
意见
说明
(1)对Word文档进行编辑的时候,有些特殊的数学符号需要利用Mathtype
(公式编辑器)这款小软件进行编辑。
(2)有些spss输出表格不整齐,需要要到处在Excel中,然后在复制到word文档里
设计名称:
研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值
x2(亿元)、居民非商品支出x3(亿元)的关系
日期:
2011年11月13日
(1)设计内容:
研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值
x2(亿元)、居民非商品支出x3(亿元)的关系。
数据见表如下:
编
号
货运总量y(万
吨)
工业总产值x1(亿
元)
农业总产值x2(亿元)
居民非商品支出x3(亿元)
1
160.00
70.00
35.00
1.00
2
260.00
75.00
40.00
2.40
3
210.00
65.00
40.00
2.00
4
265.00
74.00
42.00
3.00
5
240.00
72.00
38.00
1.20
6
220.00
68.00
45.00
1.50
7
275.00
78.00
42.00
4.00
8
160.00
66.00
36.00
2.00
9
275.00
70.00
44.00
3.20
10
250.00
65.00
42.00
3.00
(1)计算出y,x1,x2,x3的相关系数矩阵;
2)求y关于x1,x2,x3的三元线性回归方程;
(3)对所求的得方程做拟合优度检验;
(4)对回归方程做显著性检验;
(5)对每一个回归系数做显著性检验;
(6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验;
(7)求出每一个回归系数的置信水平为95%的置信区间;
8)求标准化方程;
设计目的与要求:
目的:
(1)巩固课本上学到的知识,提高处理实际问题的能力;
(2)掌握对多元线性回归问题的模型选择;
(3)对软件输出的结果要学会分析
要求:
(1)熟练使用SPSS软件对回归数据进行模型拟合;
(2)认真独立完成
设计环境或器材、原理与说明:
设计环境和器材:
计算机,Minitab软件,课本,笔记
设计原理与说明:
(1)多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验
(2)t检验:
原假设:
H0:
j0,j1,2,...,p
A
统计量:
tj———
A(1n;1nA
其中e2j(yiyj2为回归标准差
\npiiYnp1ii
当原假设Hoj:
j0成立时,构造的tj统计量服从自由度为n-p-1的t分布。
给定显著性水平,查出双侧检验的临界值t2。
当t』t2时拒绝原假设Hoj:
j0,认为j显著不为零。
自变量Xj是对y的线性效果是显著的;当tjt;时接受原假设Hoj:
j0,认为j显著为零。
自变量Xj是对y的线性效果不显著的
(3)F检验
对线性回归方程显著性的另一种检验是F检验,F检验是根据平方和分解式,直接从回归效果检验方程的显著性。
平方和分解式是
n
(Yi
i1
y)2
nAn
(yiy)2(yi
i1i1
A
yi)2
其中,
n
(yi
i1
y)2称为总平方和,
简记为sst或Lyy,SST表示SumofSquares
forTotal。
na
(yiy)2称为回归平方和,简记为SSR或S回,R表示Regression
i1
na
(yiyi)2称为残差平方和,简记为SSE或S残,E表示Errori1
因此平方和分解式可以简记为SST=SSR+SSE
原假设:
H0:
12...p0
统计量:
F—
SSE/(np1)
当原假设H。
成立时,构造的F统计量服从自由度为(p,n-p-1)的F分
布。
给定显著性水平。
当F值大于临界值F(p,np1)时,拒绝原假
设Ho,认为回归方程显著。
方差分析表
方差来源
自由度
平方和
均方
F值
P值
回归
p
SSR
SSRp
SSRp
P(FF值)P值
残差
np1
SSE
sse/
/(np1)
SSE
/(np1)
总和
n1
SST
(4)拟合优度拟合优度用于检验回归方程对样本观测值的拟合优度。
在多元线性回归中,
决定系数为R2-SSR1-SSE
SSTSST
样本决定系数R2的取值在0,1区间内,R2越近1,表明回归拟合的效果越
好;R2越接近0,表明回归拟合的效果越差。
与F检验相比,R2可以清楚直观的反应回归拟合的效果,但是并不能作为严格的显著性检验。
5)复相关系数
称RVR7
\SST
为y关于x1,x2,...,xp的样本复相关系数。
。
在两个变量的简单相关系数中,相关系数没有正负之分,而复相关系数表示的是因变量y对全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号来确定,因而复相关系数
都取正号。
6)多重共线性
多元线性回归方程模型中有一个基本假设,就是要求设计矩阵X的秩rank
(X)=p+1,即要求X中的列向量之间线性无关,如果存在不全为0的P+1个数
C0,c1,…,Cp,使得c0c1xi1c2xi2■■-CpXjp0,i1,2,…,n
则自变量x1,x2,...,xp之间存在着多重共线性。
多重共线性的诊断:
(方差扩大因子法)
对自变量做中心标准化,则XX(rij)为自变量的相关阵。
记
C(q)(X*X*)1称其主对角线元素VIFj5为自变量Xj的方差扩大因子
(varianeeinflationfactor,VIF)。
当VIFj10.就说明自变量百与其他自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘估计值。
设计过程(步骤)或程序代码:
(1)打开SPSS软件,导出数据
(2)分析一相关一双变量相关一变量:
y,x1,x2,x3—确定
(3)分析一回归一线性回归(因变量:
y;自变量:
x1,x2,x3)—确定
(4)分析一相关一双变量相关一变量:
y,x1,x2—确定
(5)分析一回归一线性回归(因变量:
y;自变量:
x1,x2)—确定
⑹分析---回归---线性回归(因变量:
y;自变量:
x1,x2,x3;统计量:
选中共线性诊断;继续)----确定
⑺分析---回归---线性回归(因变量:
y;自变量:
x1,x2,x3;保存:
预测值:
未标准化;残差:
未标准化;预测区间:
均值,置信水平为95%继续)----确定
设计结果与分析(可以加页):
(2)
相关性
y
x1
x2
x3
y
Pearson相关性
1
.556
.731*
.724*
显著性(双侧)
.095
.016
.018
N
10
10
10
10
X1
Pearson相关性
.556
1
.113
.398
显著性(双侧)
.095
.756
.254
N
10
10
10
10
x2
Pearson相关性
.731*
.113
1
.547
显著性(双侧)
.016
.756
.101
N
10
10
10
10
x3
Pearson相关性
.724*
.398
.547
1
显著性(双侧)
.018
.254
.101
N
10
10
10
10
(3)
输入/移去的变量
模型
输入的变量
移去的变量
方法
1
x3,x1,x2a
输入
a.已输入所有请求的变量。
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.898a
.806
.708
23.44188
a.预测变量:
(常量),x3,x1,x2
复相关系数R=0.898,决定系数R2=0.806,由决定系数看回归方程高度显著。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
13655.370
3
4551.790
8.283
.015a
残差
3297.130
6
549.522
总计
16952.500
9
a.预测变量:
(常量),x3,x1,x2
b.因变量:
y
由方差分析表可以知道,F=8.283,P值=0.015,表明回归方程高度显著,说明x1,x2,x3整体上对y有显著的线性影响。
系数
模型
非标准化系数
标准系数
t
Sig.
B
标准
误差
试用版
1
(常量)
-348.280
176.459
-1.974
.096
x1
3.754
1.933
.385
1.942
.100
x2
7.101
2.880
.535
2.465
.049
x3
12.447
10.569
.277
1.178
.284
a.因变量:
y
1.回归方程为:
y348.2803.754为7.101x212.447x3
2.回归系数的显著性检验:
自变量x2对y有影响,其中x3的P值=0.284。
因此,这个模型通过了显著性检验但没有通过回归系数的检验,自变量x3对因变量y不显
著,所以下一步要剔除不显著的回归系数x3,重新建立回归模型.
(4)
相关性
y
x1
x2
y
Pearson相关性
1
.556
.731*
显著性(双侧)
.095
.016
N
10
10
10
x1
Pearson相关性
.556
1
.113
显著性(双侧)
.095
.756
N
10
10
10
x2
Pearson相关性
.731*
.113
1
显著性(双侧)
.016
.756
N
10
10
10
*.在0.05水平(双侧)上显著相关。
(5)
输入/移去的变量
模型
输入的变量
移去的变量
方法
1
x2,x1a
输入
a.已输入所有请求的变量。
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.872a
.761
.692
24.08112
a.预测变量:
(常量),x2,x1
Anovab
模型
平方和
df
均方
F
Sig.
1回归
12893.199
2
6446.600
11.117
a
.007
残差
4059.301
7
579.900
总计
16952.500
9
a.预测变量:
(常量),x2,x1
b.因变量:
y
系数
模型
非标准化系数
标准系数
t
Sig.
B
标准
误差
试用版
1
(常量)
-459.624
153.058
-3.003
.020
x1
4.676
1.816
.479
2.575
.037
x2
8.971
2.468
.676
3.634
.008
a.因变量:
y
实验分析:
1.复相关系数R=0.872,决定系数R2=0.761,由决定系数看回归方程高度显著。
2.由方差分析表可以知道,F=11.117,P值=0.007,表明回归方程高度显著,说明x1,x2整体上对y有显著的线性影响。
3.回归系数的显著性检验,自变量x1,x2对y有影响,其中x1的P值=0.037最大。
4.标准化回归方程为:
y459.6244.676x18.971x2
综上所诉,这个回归模型即通过了方程显著性检验,也通过了回归系数显著行检
验,所以次模型是有效的
(6)
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
-348.280
176.459
-1.974
.096
x1
3.754
1.933
.385
1.942
.100
.825
1.211
x2
7.101
2.880
.535
2.465
.049
.687
1.455
x3
12.447
10.569
1^77
1.178
.284
.5861
1.708I
a.因变量:
y
从上图可知,次模型中,自变量自变量x1,x2,x3的多重共线性的VIF统计量的值都很小,小于10,说明建立的回归模型不存在多重共线性问题。
残差统计量
极小值
极大值
均值
标准偏差
N
预测值
175.4748
292.5545
231.5000
38.95206
10
标准预测值
-1.438
1.567
.000
1.000
10
预测值的标准误差
10.466
20.191
14.526
3.127
10
调整的预测值
188.3515
318.1067
240.1835
49.83914
10
残差
-25.19759
33.22549
.00000
19.14022
10
标准残差
-1.075
1.417
.000
.816
10
Student化残差
-2.116
1.754
-.123
1.188
10
已删除的残差
-97.61523
50.88274
-8.68348
43.43220
10
Student化已删除的残差
-3.832
2.294
-.255
1.658
10
Mahal。
距离
.894
5.777
2.700
1.555
10
Cook的距离
.000
3.216
.486
.976
10
居中杠杆值
.099
.642
.300
.173
10
a.因变量:
y
由上表可知,标准化和学生化的残差绝对值都下于3,证明此模型中不存在异常值
HlKiIIII1
X0CI**1®
•K凹HPD
A
匕换ng
■智
「也
TB洌下限
预河上IP
1
16BIXI
7D.D0
35OD
1.0D
T75.J374B1
-15.474A1
135.6131?
214.13152
2
^£IL£I
?
^.ao
ZJD
W.I75C1
12.E24J&9
275.29Q24
3
ZTOiXI
E5DO
4DOD
?
.0D
辺4首旺旨
5.34434
175.3^325
233.94FD5
4
266.00
7-4.00
42X0
3XJD
忑丸戎旧
23丽品
29D.7D121
&
72IQQ
39GO
1.2Q
30凤77即
3372549
172,叭Q
24D.fiSJ|42
&
230CO
G&QO
阪他
1.5D
2^15.15759
^25.19759
195.79222
2S4.6J295
1
27600
?
8.Q0
1(1Q
妙2石
17
2AB.3213
■3SE71E37
16000
6B.ao
3&.Q0
Z0D
160.00664
-2D.CD6E4
21B.8K1D
3
巧00
7000
aOfi
3i?
D
7B565
■i呼百
237J122Q
3E.31911
ID
25DOO
ESJQU
4200
30Q
331.30«-5
I069&S5
133.301
269.30219
上表是列出了模型的残差,预测值和预测的置信区间
设计体会与建议:
通过课程设计,使我深深体会到,干任何事都必须耐心,细致•课程设计过程中,许多计算有时不免令我感到有些心烦意乱:
有几次因为不完全理解,只
能重来.说实话,课程设计真的有点累.然而,当我一着手清理自己的设计成果,漫漫回味这两周的心路历程,一种少有的成功喜悦即刻使倦意顿消。
短短两周的课程设计,使我发现了自己所掌握的知识是真正如此的缺乏,自己综合应用所学的专业知识能力是如此的不足,几年来的学习了那么多的课程,今天才知道自己并不会用•经过这次的回归分析的课程设计,我个人也得到
了不少的收获,一方面加深了我对课本理论的知识,另一方面也提高了实验操作能力。
做实验,必须要弄懂实验的原理,在这里,我深深的体会到哲学上理论对时间的指导作用,而且体会到了实验的操作能力靠自己亲自动手,亲自动脑,亲
自去请教别人才能提高的。
教师签名:
设计成绩:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 课程设计