第四章多元线性回归模型1121231208.docx
- 文档编号:24014711
- 上传时间:2023-05-23
- 格式:DOCX
- 页数:15
- 大小:110.90KB
第四章多元线性回归模型1121231208.docx
《第四章多元线性回归模型1121231208.docx》由会员分享,可在线阅读,更多相关《第四章多元线性回归模型1121231208.docx(15页珍藏版)》请在冰豆网上搜索。
第四章多元线性回归模型1121231208
第四章多元线性回归模型
在一元线性回归模型中,解释变量只有一个。
但在实际问题中,影响因变量的变量可能不止一个,比如根据经济学理论,人们对某种商品的需求不仅受该商品市场价格的影响,而且受其它商品价格以及人们可支配收入水平的制约;影响
劳动力劳动供给意愿(用劳动参与率度量)的因素不仅包括经济形势(用失业率度量),而且包括劳动实际工资;根据凯恩斯的流动性偏好理论,影响人们货币需求的因素不仅包括人们的收入水平,而且包括利率水平等。
当解释变量的个数
由一个扩展到两个或两个以上时,一元线性回归模型就扩展为多元线性回归模型。
本章在理论分析中以二元线性回归模型为例进行。
一、预备知识
(一)相关概念
对于一个三变量总体,若由基础理论,变量x1,x2和变量y之间存在因果关
系,或xi,x2的变异可用来解释y的变异。
为检验变量xi,x2和变量y之间因果关系是否存在、度量变量洛公2对变量y影响的强弱与显著性、以及利用解释变量x「X2去预测因变量y,引入多元回归分析这一工具。
将给定xii,X2条件下y的均值
E(yi区凶)J?
。
「Xi「2X2:
(4.1)
定义为总体回归函数(PopulationRegressionFunction,PRF)。
定义%-E(yi|XiiXi)为误差项(errorterm),记为叫,即叫二yi-E(%|冷,X2J,这样yi=E(%|心凶)*,或
yi=-0■-1X1i■-2X2i川=(4.2)
(4.2)式称为总体回归模型或者随机总体回归函数。
其中,X1,X2称为解释变量(explanatoryvariable)或自变量(independentvariable);y称为被解释变量(explainedvariable)或因变量(dependentvariable);误差项」解释了因变量的变动中不能完全被自变量所解释的部分。
在总体回归模型(4.2)中参数r「1「2是未知的,7是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。
给定一组随机样本(yi,X1i,x2i),i=1,2,…,n,对(4.1)式进行估计,若E(yi|x1i,x2i),■0,■1,'2的估
AAAA
计量分别记为yi「o「1「2,则定义(4.3)式为样本回归函数
AAAA
yi八0:
1X1i:
2X2i(i=1,2/,n)(4.3)
AAA
注意,样本回归函数随着样本的不同而不同,也就是说r「1「2是随机变量,
它们的随机性是由于yi的随机性(同一组(X1i,X2i)可能对应不同的yj、X1,X2各
自的变异、以及Xi,X2之间的相关性共同引起的。
定义%-y为残差项(residual
AA
term),记为e,即e=yi-yi,这样yi=yi+e,或
AA
yi二5」Xiy(i=1,2,,n)(4.4)
(4.4)式称为样本回归模型或者随机样本回归函数。
样本回归模型中残差项ei可视为总体回归模型中误差项叫的估计量。
(二)多元线性回归模型的矩阵表示
多元线性回归模型的参数估计比一元线性回归模型要复杂得多,为了便于计算和分析,便于将结果由三变量总体推广到一般的多变量总体,引入矩阵这一工具简化计算和分析。
设(yi,Xii,X2i),i=1,2,…,n是取自总体的一组随机样本。
在该组样本下,总体回归模型(4.2)式可以写成方程组的形式
yi=-0■-1X11■-2X21川'丄1
y2-一0一1X12一2X22川’丄2
利用矩阵运算,可表示为
则在该组样本下,总体回归模型的矩阵表示为
(4.6)
则样本回归模型的矩阵表示为
A
y=X1e(4.7)
(三)模型假定
假定1回归模型是参数线性的,并且是设定正确的。
假定2随机误差项与解释变量不相关。
即
cov(Xji,叫)=0,j=1,2。
如果解释变量是非随机的,则该假设自动满足。
假定3零均值假定。
即
E(叫)=0,i=1,2,,n
假定4同方差假定。
即
2
var(叫)-;「,i=1,2,,n
假定5无自相关假定。
即两个误差项之间不相关
COV(叫,・ij)=0i=j,i=1,2,,n,j=1,2,…,n
假定6解释变量X1与X2之间不存在完全共线性,即两个解释变量之间无确切的的线性关系。
假定7正态性假定。
即
2
叫〜N(0,匚),i=1,2,,n
(四)参数估计与估计量的分布系数向量:
的OLS估计为
A
一(XTX)」XTy(4.8)
其中,XT为X的转置矩阵。
在随机误差项服从正态分布的假定下,系数向量的估计量也服从正态分布,即
A
'■〜N(点2(XTX)‘)(4.9)
记C=(XTX)°的第j个主对角元素为Cjj,则
A
■j〜N(j;「2Cjj)(4.10)
有了系数估计量的分布,就可以对总体参数做假设检验。
与双变量总体相同,
A
总体误差叫是不可观察的,因而其方差二2是未知的。
若用二2的无偏估计量二2代替二2,则OLS估计量服从自由度为n-3的t分布,而不是正态分布,即
打一j
jAj〜t(n-3)se(:
j)
(4.11)
其中,se(:
j)二2Cjj
A丁2
2■—ei
,匚o0
n-3
(五)预测原理
回归分析的目的之-
「是利用回归模型预测因变量。
假设三变量总体的回归模
型为(4.2),即
y—Mi「2X2i(4.2)
在一组随机样本(yi,Xii,X2i),i=1,2,,n下,利用OLS求得样本回归函数为(4.3)
AAAA
yi:
iX!
i「2iX2i(i=1,2,…,n)(4.3)
(4.12)
给定样本外一点Xf=(1,Xif,X2f)T,贝U因变量y的点预测为
yf='o'■1X1■2X2f
A
点预测yf的标准误为
因变量yf的置信度为1-:
的区间预测为
AAAA
[yf-t.2(n-3)se(yf),yft:
.2(n-3)se(yf)](4.14)
二、案例
[案例1]Woody餐馆的选址分析
Woody餐馆是一家价位适中、24小时营业的家庭连锁店,公司邀请你决策下一家连锁店的选址问题。
你决定建立一个回归模型来解释每一家连锁餐馆的毛销售额Y(thegrosssalesvolume),通过文献的阅读,你认为以下变量对毛销售额的影响较大,
N=竞争变量:
餐馆位置半径2里以内市场直接竞争者的数量;
P=人口:
餐馆位置半径3里以内人口的数量;
匸收入:
餐馆位置半径3里以内家庭平均收入。
并且通过调研,你获得了33家Woody餐馆连锁店的数据。
[案例2]经济形势和实际工资对人们工作意愿的影响
在第三章,我们根据劳动经济学理论,分析了经济形势对人们工作意愿的影响存在两种效应:
受挫工人效应和增加工人效应;并且利用1980-2002年的数据实证了受挫工人效应占主导地位。
但根据劳动经济学理论,影响人们工作意愿的因素,除了经济形势以外,还有实际的工资水平。
从理论上说,实际工资增加对劳动供给具有两种效应:
替代
效应与收入效应。
替代效应趋于使劳动供给增加,而收入效应则趋于使劳动供给降低,两种效应的相对影响取决于家庭的偏好(参考文献[4],p49)。
本案例考察实际工资对人们工作意愿是否有影响,以及在有影响的情况下,那种效应占优。
数据见表3.1。
三、实验目的
[案例1]Woody餐馆的选址分析
1、绘制丫对NP、I的散点图,并在散点图中附加回归线。
2、建立丫对N、P、I的线性回归模型,并定性分析解释变量N、P、I对丫的影响。
3、利用样本数据及OLS法对回归模型进行估计,并报告回归结果。
4、观察回归系数的显著性和方程的显著性,并解释回归系数的含义。
[案例2]经济形势和实际工资对人们工作意愿的影响
1、绘制clfpr对ahe82的散点图,并附回归线,观察城市劳动参与率与实际工资之间的线性关系。
2、建立clfpr对ahe82的一元线性回归模型,利用1980-2002年的数据估计模型,并观察回归系数的显著性和方程的显著性。
3、同时考虑经济形势与实际工资对人们工作意愿的影响,建立二元线性回归模型,利用1980-2002年的数据估计模型,观察回归系数的显著性和方程的显著性,并解释回归系数的经济含义。
4、对上面
(2)与(3)中估计结果的差别进行解释。
5、模型的选择问题,在以下三个模型之间,哪个模型更好呢?
clfpn=Jreunnt(I)
clfprt二■■■■1ahe82^-t(n)
clfprt=0:
jahe82t:
2cunr;t(E)
四、实验原理
五、实验步骤
[案例1]Woody餐馆的选址分析
图4-1¥对NP、I的散点图
1、打开Eviews工作文件Woody.wfl,按住Ctrl键,点击工作文件目录中的序列丫、N、P、I图标,点击鼠标右键,点击Open/asGroup,出现包含序列丫、N、P、I的组对象窗口。
点击组对象窗口工具栏的View按钮,选择Graph,在Specifi选项中选择
Scatter,在Fitlines中选择RegressionLine,在Multiple中选择Multiplegraphs-Firstvs.All,设定完毕后点击确定按钮,则出现丫对NP、I的三张散点图,点击鼠标右键,选择Copy,将散点图复制到Word文档中,如图4-1所示。
2、Y对NP、I的线性回归模型为
Yi11Ni•12Pi•■3IJi(4.15)
一般来说,人口越多,餐馆的毛销售额越大;人们的收入水平越高,餐馆的毛销售额越大;竞争者的数量越多,餐馆的毛销售额越低。
即P和I对丫有正的影响,N对丫有负的影响,从而J,’的预期符号为正,:
1的预期符号为负。
图4-1散点图中回归线的斜率与理论的预期是一致的。
3、在文件窗口点击object/newobject,在出现的对象类型中选择equation,在对象名中填写eq1,点击OK出现对话框图4.2
Specificat1onOpt1OY13\
Eciuationsuedflcation
DependentvariablefollowedbyListofresressoi's丑ndFDLte^jnsjORaneKjalicltequalicolike
图4.2回归方程的设定
在估计方法中选择最小二乘法,样本范围填写1到30。
设定完毕后点击确
定。
出现图4.3
匚二1Eciuation:
EQIWorkfil^:
WOOrtssion\In]「
[Vifi-w][Proc][objeet|[Pri.nt]|
r-Jame]|Freeze
||Po>r[|Staitz||
厂圧门mndmntV^ri^ahlf?
-V
Method:
LeastSquares
Date11/17/12Time
1O.SO
Sample-133
Includedobservations-
33
Variable
■Coefficient
StdError
t-Statistic
Prok>.
C
1ONTS3NA
1^7^983
T933SS31
OODOO
1
1-207923
0.543294
2.370504
O.O24€
N
-90/4674
-4>1^0^04
OOOOI
r
O35^068
O072^81
4879810
OOOQO
R-squared
0eisiS4
Msanidepencleritvar
12S6346
AdjustedR-squared
O578653
SOdependentvar
2240409
S-E.ofregression
14&42.78
Akaikeinfo
criterion
22.12079
Summq"曰厂eEd
吕13F+-O9I
Sc:
crrte^rion
NN30^21R
Loglikelihoodi
-3609930
Ilannan-Ouinncriter.
22.181G2
F-LSLEltl^tlC:
1&
OurLiiiri-Wsjt^oriwtut
103
F*rob(F-statistic^
O000003
图4.3方程估计的输出根据图4.3,报告估计结果如下
Y=102192.4-9074.67*N+0.35*P+1.29*1
(2052.67)(0.073)(0.54)
2
t=-4.424.872.37R=0.58
4、从估计输出结果可知,回归系数的符号方向(正、负)和大小均与理论分析一致,t统计量的值显示也在0.05的显著性水平下显著(这一点也可以从边际概率值观察到),F统计量的值为15.64(相应的概率值为0.000003),表明三个解释变量对被解释变量联合显著。
多元回归系数的含义为,当其他变量(控制变量)不变时,该变量对因变量的边际影响。
对于本例各系数的含义为,收入增加一个单位会使餐馆的销售收入增加1.29个单位;人口增加一个单位会使餐馆的销售收入增加0.35个单位;竞
争者的数量增加一个单位将使餐馆的销售数量减少9074.67个单位。
[案例2]经济形势和实际工资对人们工作意愿的影响
在以下操作中,假设包含clfpr、ahe82和cunr三个序列的Eviews工作文件clfpr.wfl已经存在。
1、打开Eviews工作文件clfpr.wfl,建立包括序列ahe82和clfpr的组对象,点击组对象窗口工具栏的View按钮,选择Graph,在Specifi选项中选择Scatter,在Fitlines中选择RegressionLine,设定完毕后点击确定按钮,出现图4.4。
□□Group:
UNTITLEDWorkfile:
CLFPR-CUNR;;Untit1ed\||耳
[Print宙ampkej[Sh轻et](占ta词[書pt寸■
图4.4clfpr对ahe82的散点图
由散点图可见,clfpr与ahe82之间存在非常弱的线性关系,回归线斜率为负,且接近于水平线。
2、建立一元线性回归模型如下:
clfpn=°1ahe82t叮(4.16)
用1980-2002年的数据估计上述模型,估计结果如图4.5所示
Equation:
UNTITLEDWorkfile:
CLFPR-CUMR:
:
UntitL„「
=II旦)[saj
|View][proc][Object][print][
Name||Freeze
[Estliimate](Fore-caiSt][Stats|]
DependentViariableCLFPRMethod:
LeastSquaresDate:
11/18/12Time:
10:
17
Sample19802002Includedobservations23
Variable
Coefficient
Std.Errort-Statistic
Prob.
AHE92C
-0884519
72.68567
1227799-O720409
9.4284斗57.709190
O4792
0.0000
R-^quar&d
AdjustedR-squaredS.E.ofregressionSumsquaredresidLoglikelihoodF-statistic
Prob(F-statistic)
O024118-0022353
1.181703
2932484-3542940
0.518989
0.479216
eandependeTitvarS.D.dependentvarAkaikeinfocriterionSchwarzcriterionH;annan-QuinncrrterDurbin-Watsonstat
658956511687133.2547313.353469
32795S3
0.05685€
图4.5clfpr对ahe82回归的估计结果
从图4.5的t统计量和概率值均可知,实际工资对劳动参与率没有显著影响,拟合优度(0.024118)很低,调整的拟合优度更是为负值,F统计量和概率值也显示方程常数项和解释变量(ahe82)对因变量(clfpr)的联合影响不显著。
回归的结果与理论分析相悖。
3、同时考虑经济形势与实际工资对人们工作意愿的影响,建立二元线性回归模型如下
clfprt二:
0:
1ahe82t:
2cunr;订t(4.17)
利用1980-2002年的数据估计模型,估计结果如图4.6所示
11Equation:
UNTITLEDWorkfile:
CLFPR-CUNR:
:
Unt1tl.„ISl|^^|
|View|Proc|ObjectPrint
Name|Freeze
Estimate
Fo厂e匚ast
StatsResids
DependentVariableCLFPR
Method.LeastSquares
Date:
11/10/12Time
10:
19
Sample19802002
Includedobservations-
23
Variable
Coefficient
Std.匚rrort*Statistic
Prob
AHE82
-1410432
0.610348-2
.310967
□0316
CUNR
-0071631
0082705-8
T20845
0OOOO
C
80.95122
4.7703371696971
0.0000
R-squared
0772914
fJesndependentvar
6589565
AdjustedR-squared
0750205
SOdependentvar
1168713
匚一ofregression
0.584117
Akaikeinfocriterion
1.883676
Sumsquaredresid
6823S46
Schwarzcriterion
2031784
Loglikelihood
-18.66227
Hannan-Quinncirter.
1.920924
F-statistic
3403611
Durbin-
Watson
5tat
07S7065
Prob(F-statistic}
oaooooa
图4.6clfpr对ahe82和cunr回归的估计结果
由图4.6中间部分的t统计量和概率值可知,解释变量ahe82和cunr均在
0.05的水平上对clfpr有显著影响;调整的拟合优度为0.750205,拟合度较高;F统计量的值为34.03611,相应的概率值为0.000000,表明ahe82和cunr对clfpr的联合影响显著。
解释变量ahe82和cunr的回归系数分别为-1.41和-0.67,它们的经济含义为,在cunr保持不变的条件下,实际小时工资增加1美元,劳动参与率降低1.41个百分点,表明实际工资对劳动供给影响的收入效应占优,即收入效应大于替代
效应;在ahe82保持不变的条件下,失业率上升1个百分点,劳动参与率降低0.67个百分点,表明在剔除了实际工资对劳动供给的影响之后,失业率对劳动供给的影响依然是受挫效应占优。
4、在
(2)的一元回归模型中,估计的结果表明,ahe82对劳动参与率没有显著的影响,但在引入的解释变量cunr后,即在(3)中的二元回归模型中,ahe82对劳动参与率的影响在0.05的水平下却是显著的,为什么会出现这种差别呢?
为了解释一元回归估计结果与多元回归结果的差别,现来观察clfpr、ahe82与cunr的相关系数矩阵(显示组对象相关系数矩阵的Eviews操作见第二章),如
图4.7所示
图4.7clfpr、ahe82与cunr的相关系数矩阵
由图4.7可知,cunr和ahe82与clfpr的相关系数分别为-0.155299和-0.843967,均为负相关。
在
(2)中的一元回归模型中,ahe82的回归系数
-0.884518中包含了cunr通过ahe82对clfpr的间接影响,这种间接的影响是正方向的,使得ahe82对clfpr的影响被高估;而在(3)中的多元回归模型中,因为剔除了这种正方向的间接影响,使得ahe82对clfpr的直接影响增加为
-1.41,并且影响由不显著到显著。
另外,也可注意到在(3)中的多元回归模型中,cunr的回归系数-0.671631与clfpr对cunr的一元回归系数(见第三章案例[1])-0.646948的变化,同样是因为clfpr对cunr的一元回归系数-0.646948中包含了ahe82通过cunr对clfpr的间接影响,同样间接的影响也是正方向的,(3)中的多元回归模型中,cunr的回归系数-0.671631是剔除了这种间接影响之后,cunr对clfpr的直接影响。
5、显然,模型(川)最好。
首先,模型(川)包含了模型(I)和模型(U)其次,也是最重要的,模型(川)更符合经济学的相关理论,计量分析必须建立在相关的理论基础之上;最后,模型(川)的一些统计指标最好,比如,模型(川)调整的拟合优度为0.75,是最高的。
六、作业
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 多元 线性 回归 模型 1121231208