回归分析大作业Word格式.docx
- 文档编号:20864981
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:12
- 大小:39.13KB
回归分析大作业Word格式.docx
《回归分析大作业Word格式.docx》由会员分享,可在线阅读,更多相关《回归分析大作业Word格式.docx(12页珍藏版)》请在冰豆网上搜索。
第一产业
第二产业
金融业
总户数
(亿元)
工业
建筑业
(万户)
2000
6141.03
630.98
3273.93
2945.70
328.23
1440.40
2001
6898.34
659.78
3572.88
3181.93
390.94
1447.67
2002
8003.67
685.20
4090.48
3640.84
449.64
1466.19
2003
9705.02
717.85
5096.38
4462.97
633.42
1485.72
2004
11648.70
814.10
6250.38
5491.33
759.05
1509.29
2005
13417.68
892.83
7164.75
6344.71
820.03
1534.16
2006
15718.47
925.10
8511.51
7585.47
926.04
1556.53
2007
18753.73
986.02
10154.25
9090.74
1063.51
1578.85
2008
21462.69
1095.96
11567.42
10328.72
1238.70
1595.70
2009
22990.35
1163.08
11908.49
10518.21
1390.28
1653.45
1604.17
2010
27722.31
1360.56
14297.93
12657.78
1640.15
1899.33
1607.86
2013
32318.85
1583.04
16555.58
14683.03
1872.55
2326.58
1618.04
2012
34665.33
1667.88
17316.32
15338.02
1978.30
2730.29
1616.25
37568.49
1784.62
18446.65
16368.43
2078.22
2762.24
1622.44
2.3绘制散点图
画出各个自变量与因变量之间的散点图,初步分析它们之间的线性关系,把没有线性关系的自变量在逐步回归分析之前去掉,散点图如下:
图1地区总产值与影响因素的关系
从以上散点图中可以看出,地区总产值与第一产业、第二产业、工业、建筑业这些因素有较好的线性关系,而地区生产总值与户籍人口、金融业线性关系较差。
2.4自变量相关系数的计算
以国民总收入为因变量,第一产业、第二产业、工业、建筑业、金融业、户籍人口为自变量,使用SPSS软件进行逐步回归法线性回归分析。
若人为规定相关系数:
r≤0.5时线性相关不明显,r≥0.6时线性相关,r≥0.10时线性相关显著。
由最初数据可以看出,第二产业是由工业与建筑业组成。
【第二产业是对初级产品进行再加工的部门。
在我国包括工业(采掘业、制造业、电力、煤气及水的生产和供应业)和建筑业】又由散点图可以看出,所以认为工业与建筑业线性相关比较显著,所以认为应该把变量第二产业剔除。
2.4.1判断自变量线性相关
表2输入/移去的变量
输入的变量
移去的变量
方法
.
步进(准则:
F-to-enter的概率<
=.050。
F-to-remove的概率>
=.100)。
户籍人口
利用表2中的数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。
表2中可以看出第一产业、工业和建筑业这三个自变量经过逐步回归过程被选择进入了回归方程。
选择的判据是变量进入回归方程的F的概率<
=0.05,剔除的判据是变量进入回归方程的F的概率大于0.10。
2.4.2回归方程的显著性检验
表3各影响因素与指标变量的相关系数
x1
x3
x4
x5
x6
y
Pearson相关性
.985
.988
.305
352
显著性(双侧)
.000
.251
.263
N
6
由表3可以得到地区总产值与第一产业、工业、建筑业这些因素有明显的显著性,而地区生产总值与户籍人口、金融业显著性较差,因此将其去除。
2.5建立模型
由之前可以判断,需要建立三个模型,三个模型移除的变量如表6。
表4已排除的变量
已排除的变量d
模型
BetaIn
t
Sig.
偏相关
共线性统计量
容差
1
.291a
4.866
.001
.851
.019
工业
-3.120a
-1.907
.089
-.536
6.619E-5
.474a
1.907
.536
.003
.142a
1.855
.097
.526
.031
.112a
4.333
.002
.822
.120
2
-1.488b
-1.436
.189
-.453
5.708E-5
.226b
1.436
.453
.077b
1.700
.128
.515
.028
.071b
4.646
.854
.088
3
.321c
.401
.700
.150
3.634E-5
-.049c
-.402
-.150
-.003c
-.075
.943
-.028
.017
a.预测变量:
(常量),第一产业。
b.预测变量:
(常量),第一产业,工业。
c.预测变量:
(常量),第一产业,工业,建筑业。
建立模型的过程是,最先引入了变量
,建立了模型1;
接着引入变量
,没有变量被剔除,建立了模型2(含有
、
);
最后引入变量
,没有变量被剔除,建立了模型3,故最终的模型中含有变量
。
2.5.1模型汇总
表5模型汇总
模型汇总
R
R方
调整R方
标准估计的误差
.999a
.998
258.45568
1.000b
.999
142.97131
1.000c
1.000
78.85170
(常量),第一产业,工业。
表5给出了要建立模型的概要情况。
其中,复相关系数(R)代表自变量或自变量的线性组合能多大程度上解释因变量,上表中3个模型的这个值分别为0.999、1.000、1.000,比较令人满意。
复相关系数平方值(R方)说明回归模型自变量的变异在因变量中所占比率,接近1最好,表中这个值分别为0.998、0.999、1.000是很理想的。
第四列为修正的复相关系数平方值(调整R方),由于第二列给人的一个印象是引入的变量越多,复相关系数越大,为了消除这种影响,给出修正的复相关系数平方值。
估计的标准差说明因变量还有好多不能被回归方程所解释。
它也是只有相对意义,没有绝对意义。
2.6模型的显著性检验
用方差分析法对三个模型进行显著性检验,结果如下:
表6方差分析表
Anovad
平方和
df
均方
F
回归
2.975E8
4454.297
.000a
残差
667993.406
10
66799.341
总计
2.982E8
11
2.980E8
1.490E8
7290.033
.000b
183967.167
9
20440.796
9.939E7
15984.882
.000c
49740.729
8
6217.591
该方差分析表给出了每个回归方程的回归平方和、残差平方和、总偏差平方和及相应的自由度,并给出了每个方程的自由度和显著性系数。
2.7回归系数的确定
表7三个模型的回归系数
系数a
非标准化系数
标准系数
B
标准误差
试用版
(常量)
1053.393
137.835
7.642
1.931
.029
66.741
112.845
207.779
.543
.600
1.373
.116
.710
11.858
2.416
.497
.291
-25716.013
5560.188
-4.625
1.420
.065
.734
21.961
1.653
.319
.199
5.178
4.406
.948
.071
a.因变量:
生产
在整个回归效果显著时,对于多元回归而言,假设H0i:
bi=0,H1i:
bi≠0,i=1,2,……m.当H0i成立时,ti=bi/(cii1/2S)~t(n-m-1),i=1,2,…,m。
所以可以用t分布函数来检验回归系数[5]。
各步引入对回归方程影响最大的变量时,观察有关偏回归系数的变化及t检验,如表6所示。
列出了非标准化和标准化的回归系数、偏回归系数为0的假设检验的t值、偏回归系数为0的假设检验的显著性水平值、B的95%置信区间。
可见在模型中偏回归系数的sig.值小于0.05,可以认为其回归效果高度显著。
关于未引入回归方程的两个因素,本人认为它们与浙江省地区总产值也可能有一定相关性,只是在该回归模型中,没有呈现出强烈的线性相关的关系,或者与其他因素的引入导致其影响显著性下降有关。
3、结果与讨论
通过以上分析,我们得到了三个回归模型:
(1)浙江省地区总产值与第一产业的回归模型。
回归方程为:
Y=1053.393+1.931X1
(2)浙江省地区总产值与第一产业、工业的回归模型。
Y=112.845+2.416X1+1.373X2
(3)浙江省地区总产值与第一产业、工业和建筑业的回归模型。
Y=-25716.013+1.653X1+1.420X2+4.406X4
由以上分析可知,建立的最优回归方程模型为模型三:
Y=-25716.013+1.653X1+1.420X2+4.406X4
从所给的六个自变量中我们经过逐步回归得到三个对浙江省地区总产值影响较显著的自变量X1、X2和X4。
即第一产业、工业和建筑业对地区总产值影响显著,同时剔除了其它影响因素,得到了最优的经验回归方程。
容易看出,2000年到2013年这十四年中浙江省地区生产总值的增长是明显的,这说明这一阶段我国的宏观经济政策是成功的。
在本文讨论的六个影响因素中,第一产业、工业、建筑业起了主要作用,并且可以在一定程度上代替其他因素的影响,而户籍人口、金融业的影响相对较弱。
总之,浙江省的宏观经济状况是相对乐观的,随着生产总值的增长,浙江省的经济将继续保持增长。
4、参考文献
[1]薛薇.基于SPSS的数据分析[M].北京:
中国人民大学出版社,2011
[2]孙海燕,周梦,李卫国,冯伟.应用数理统计.北京:
北京航空航天大学出版社,2014
[3]浙江省统计局.浙江统计年鉴[M].北京:
中国统计出版社,2014
[4]阮桂海.SPSS实用教程.北京:
电子工业出版社,2009
[5]现代数据分析技术.沈学桢.立信会计出版社
5、实验分配:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 作业