计量经济学 第二章 一元线性回归模型.docx
- 文档编号:8364585
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:23
- 大小:121.58KB
计量经济学 第二章 一元线性回归模型.docx
《计量经济学 第二章 一元线性回归模型.docx》由会员分享,可在线阅读,更多相关《计量经济学 第二章 一元线性回归模型.docx(23页珍藏版)》请在冰豆网上搜索。
计量经济学第二章一元线性回归模型
计量经济学第二章一元线性回归模型
第二章一元线性回归模型
第一节一元线性回归模型及其古典假定
第二节参数估计
第三节最小二乘估计量的统计特性
第四节统计显著性检验
第五节预测与控制
第一节回归模型的一般描述
(1)确定性关系或函数关系:
变量之间
有唯一确定性的函数关系。
其一般表现形式为:
一、回归模型的一般形式
变量间的关系
经济变量之间的关系,大体可分为两类:
(2.1)
(2)统计关系或相关关系:
变量之间为非确定
性依赖关系。
其一般表现形式为:
(2.2)
例如:
函数关系:
圆面积S=
统计依赖关系/统计相关关系:
若x和y之间确有因果关系,则称(2.2)为总体回归模型,x(一个或几个)为自变量(或解释变量或外生变量),y为因变量(或被解释变量或内生变量),u为随机项,是没有包含在模型中的自变量和其他一些随机因素对y的总影响。
一般说来,随机项来自以下几个方面:
1、变量的省略。
由于人们认识的局限不能穷尽所有的影响因素或由于受时间、费用、数据质量等制约而没有引入模型之中的对被解释变量有一定影响的自变量。
2、统计误差。
数据搜集中由于计量、计算、记录等
导致的登记误差;或由样本信息推断总体信息时产生
的代表性误差。
3、模型的设定误差。
如在模型构造时,非线性关系
用线性模型描述了;复杂关系用简单模型描述了;此
非线性关系用彼非线性模型描述了等等。
4、随机误差。
被解释变量还受一些不可控制的众多
的、细小的偶然因素的影响。
若相互依赖的变量间没有因果关系,则称其有相关
关系。
对变量间统计关系的分析主要是通过相关分析、方差分析或回归分析(regressionanalysis)来完成的。
他们各有特点、职责和分析范围。
相关分析和方差分析本身虽然可以独立的进行某些方面的数量分析,但在大多数情况下,则是和回归分析结合在一起,进行综合分析,作为回归分析方法的补充。
回归分析(regressionanalysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。
其用意:
在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。
这里:
前一个变量被称为被解释变量(ExplainedVariable)或因变量(DependentVariable),后一个(些)变量被称为解释变量(ExplanatoryVariable)或自变量(IndependentVariable)。
回归与回归分析的内容
(一)回归分析的基本思想和方法及“回归”名称的由来
英国统计学家高尔顿(F.Galton,1822-1911)和他的学生皮尔逊(K.Pearson,187><56-1936)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为,而取他们的一个成年儿子的身高作为,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线,计算出的回归直线方程为
y=33.73+0.<516x
这一方程表明:
父母平均身高每增减一个单位时,其成年
子女的身高仅平增减0.<516个单位。
这项研究结果表明,虽
然高个子父辈有生高个子儿子的趋势,矮个子的父辈有生
矮个子儿子的趋势,但父辈身高增减一个单位,儿子身高仅增减半个单位左右。
通俗地说,一群特高个子父辈的儿子们在同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即子代的平均身高向中间回归了。
所以高尔顿引用了“回归”(regression)一词来描述父辈身高与子代身高之间的关系。
尽管“回归”这个名称的由来具有特定的含义,但是,人们在研究大量的经济变量间的统计关系时已远远超出了这一特定的含义了,我们现在使用回归这一名称仅仅是接受了高尔顿先生的回归分析基本思想和方法。
(二)回归分析的主要内容
一般认为,回归分析的主要内容包括以下三个方面:
1、进行参数估计。
即如何根据既定的样本观测值
对回归模型的参数进行估计,求出具体的回归方程。
2、进行统计显著性检验。
即对回归方程、参数估计
值进行显著性检验与校正,以便使回归方程或参数更
加优良。
3、进行预测和控制。
如何根据回归方程进行适当的
预测和控制是回归分析的最终目的。
1、有相关关系并不意味着一定有因果关系;
2、回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。
3、相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。
回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):
前者是随机变量,后者不是。
▲注意:
对于总体回归模型,
(2.4)
其中和为两个待定参数,为直线的截距,为直
线的斜率。
我们称(2.4)为一元线性总体回归模型。
若给定的n次观察值,(1,2,3,…,n)代入模型
(2.4),得
(1,2,3,…,n)(2.<5)
特别地,当只有一个自变量且
时,则有:
二、一元线性回归模型
一是被解释变量y与解释变量x之间为线性关系,即解释
变量x仅以一次方的形式出现在模型之中。
用数学语言
表示为:
二是被解释变量y与参数β之间为线性关系,即参数β
仅以一次方的形式出现在模型之中。
用数学语言表示为:
线性回归模型”中的“线性”一词在这里有两重含义:
就属于被解释变量y与解释变量x之间不为线性关系的情形,如果我们令
在计量经济学中,我们更关心被解释变量y与参数β之间的线性关系。
因为只要被解释变量y与参数β之间为线性关系,即使被解释变量y与解释变量x之间不为线性关系,我们也可以通过变量替换方便地将其化为线性。
例如,模型
此时非线性模型就变成线性模型了
三、一元线性回归模型中随机项的假定
在给定样本观测值(样本值),i=1,2,3,…,n后,为了估计(2.<5)式的参数和,必须对随机项做出某些合理的假定。
这些假定通常称为古典假定。
假定1E(ui|xi)=0i=1,2,…,n;
随机误差项u具有零均值.
假定2Var(ui|xi)=E{[ui-E(ui)]2}=E(ui2)=?
?
u2
i=1,2,…,n
随机误差项u具有同方差.
假定3Cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=0
i≠j,i,j=1,2,…,n
随机误差项u具有不序列相关性.
假定4Cov(ui,xi)=0i=1,2,…,n
随机误差项u与解释变量x之间不相关.
假定<5ui~N(0,?
?
u2)i=1,2,…,n
u服从零均值、同方差的正态分布.
注意:
1、如果假设1、2满足,则假设3也满足;
2、如果假设4满足,则假设2也满足;
3、假定2,3称为高斯—马尔柯夫(Gauss-Markov)假定;
4、在假定<5成立的前提下,随机变量yi的条件分布也
为正态分布,即:
yi~N(β0+β1xi,?
?
u2)i=1,2,…,n
以上假设也称为线性回归模型的经典假设或高斯
(Gauss)假设,满足该假设的线性回归模型,也
称为经典线性回归模型(ClassicalLinearRegression
Model,CLRM)。
第二节参数估计
一、样本回归方程
二、普通最小二乘估计(OLS)
三、一元线性回归模型参数的极大似然
估计(ML)
四、一元线性回归模型参数的矩估计(MM)
一、样本回归方程
对于一元线性回归模型,在满
足古典假设条件下,两边取条件均值,得一
元线性回归方程:
简称总体回归线。
其中总体回归系数和
是未知的,实际上总体回归线是无法求得的
,它只是理论上的存在,所以称为理论回归
方程。
我们称(2.8)为样本回归模型。
它由两部分组成:
称为系统分量,是可以被x解释的部分,也
称为可解释分量;是不能被解释的部分,称为残差
(Residual),它是随机项的代表值,也称为不可
解释分量。
(2.8)
如果变量x和y之间存在线性相关关系,对于任意抽
取的若干个观测(样本)点,有:
将系统分量表示为:
(2.9)
(2.9)称为一元线性样本回归方程,简称样本回归方程。
又因(2.9)式的建立依赖于样本观测值,所以我们又称其为经验回归方程。
为样本回归系数。
其中,是估计的回归直线在y轴上的截距,是总体回归系数的样本估计值;是直线的斜率,是总体回归系数的样本估计值。
的实际意义为x每变动一个单位时,y的平均变动值,即x的变动对y变动的边际贡献率。
是实际观测值的拟合值或估计值。
二、普通最小二乘法(OLS)
即在给定样本观测值之下,选择出使与之
差的平方和最小。
给定一组样本观测值(xi,yi)(i=1,2,…n)
要求样本回归函数尽可能好地拟合这组值.
普通最小二乘法(Ordinaryleastsquares,
OLS)给出的判断标准是:
二者差的平方和最小
和应满足下列方程组:
整理得正规方程组:
(2.10)
由克莱姆法则解得:
由(2.10)或(2.11)估计出的和称为:
普通最小二乘估计量
(OrdinaryLeastSquaresEstimators---OLSE)
其中:
由最小二乘法确定的一元线性回归方程
有以下性质:
1、它是由所选取的样本唯一决定的。
即对于一个给定的样本,只能估计出一个,但对于不同的样本,估计出的和可能不相等,即它们是服从某种分布的随机变量。
3、残差与的大小无关,进而与的大小无关,即
4、由知:
。
说明回归直线
通过样本的平均点。
2、残差的均值为零,即
例2-1某汽车厂销售部经理认为,汽车的销售量与广告费用之间存在着密切的关系。
为此,他收集了12个汽车销售分公司的有关数据如下表,试求样本回归方程。
30721400
11773790
4<538282
70<56
18680
合计
4840000
2032800
8<53776
924
2200
M
4410000
1764000
70<5600
840
2100
K
3<572100
1362690
<519841
721
1890
J
3240000
1323000
<54022<5
73<5
1800
I
29<58400
1119720
423801
6<51
1720
H
22<50000
903000
362404
602
1<500
G
2190400
777000
27<562<5
<52<5
1480
F
1849600
666400
240100
490
1360
E
1638400
<519680
164836
406
1280
D
1<562<500
<52<5000
176400
420
12<50
C
1210000
423<500
14822<5
38<5
1100
B
1000000
3<57000
127449
3<57
1000
A
y2
xy
x2
广告费x
销售量y
分公司
名称
代入(2.11)式得:
于是得一元线性回归方程:
由上表计算知:
三、参数的极大似然估计法(ML)
对于一元线性回归模型:
其密度函数可以写为:
对于给定样本,有:
解得:
(2.12)
矩方法(MM)的基本思想是通过让真实矩等于样本矩,解由此得到的方程组,就可以确定未知参数的估计量。
三、参数的矩估计(MM)
在一元线性统计模型里,因为我们假设有
用样本数据表示这个矩条件就是
解满足这个样本矩条件的就得到了参数的矩估计量.
事实上,它就是最小二乘估计量,因为这些样本矩条件就是最小二乘估计量的正规条件。
最大似然估计量也可看成是一个矩估计量。
矩估计原理更多地应用在在工具变量模型里。
如果矩条件的个数和未知参数的个数相等,使得我们刚好得到一个估计值,称为恰好识别。
有的时候,矩条件的个数大于未知参数的个数,这就产生超识别问题,这时候用到广义矩方法(GMM)。
第三节最小二乘估计量的统计特性
线性性
无偏性
最优性
随机项方差的样本估计
回归系数的区间估计
第三节最小二乘估计量的统计特性
当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。
一个用于考察总体的估计量,可从如下几个方面考察其优劣性
☆线性性,即它是否是另一变量的线性函数;
☆无偏性,即它的均值或期望值是否等于总体的真实值;
☆最优性,即它是否在所有线性无偏估计量中具有最小方差。
这三个准则也称作估计量的小样本性质。
拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。
当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:
因为:
所以:
一、线性性
其中:
其中:
同理可证也是yi的线性组合
由于yi是随机变量,所以作为yi的线性组合的和也是随机变量,因而各有其概率分布、均值、方差、标准差及协方差。
二、无偏性
因为:
所以:
故即是的无偏估计,
同理可证是的无偏估计,即
进一步有
这表明回归值是的无偏估计。
三、最优性
由(2.13)式和得:
同理可以证明
由(2.1<5)和(2.16)知,回归系数不仅与随机项的方差有关,而且还与自变量x取值的波动程度有关。
要想使的估计值的方差小,在收集数据时,就应该考虑x的取值尽可能分散些,样本容量也尽可能大一些。
对于给定的,则
因为假定服从正态分布,所以yi也是一个服从正态分布的随机变量。
又由于是因变量yi的线性函数,所以也服从正态分布,由前面的计算结果知:
下面以为例,证明OLSE的最小方差性
假定也是总体回归系数的线性无偏估计量,即有:
显然,必须有:
(2.21)
(2.22)
可见要使(2.22)的值最小,只有使,此时:
OLSE的最小方差性得证。
高斯—马尔可夫定理(Gauss-Markovtheorem)
在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。
四、随机误差项方差的样本估计
在上述推导与计算中我们多次用到了随机项ui的条件方差?
?
u2.实际上,?
?
u2是不可能知道的。
在实际应用中,我们使用样本残差的方差Se2作为其无偏估计量,记为。
可以证明,是?
?
u2的最小二乘估计量,是无偏估计量。
对于,例题2-1
五、回归系数的区间估计
为了反映回归系数的估计精度,需给出其区间估计,即在置信水平为下的置信区间。
置信区间长度越短,说明估计值与参数和就越接近,估计值就越精确;反之,就越不精确。
由于:
如果记:
则有:
可以证明β1在置信水平为1-α下的置信区间为:
β0在置信水平为1-α下的置信区间为:
即:
即:
其中
=
为置信度为1-α,自由度为n-2的t分布临界值。
β0在置信水平为9<5%下的置信区间为:
(224.<5299891,<502.8481466)
对于例2-1,从输出结果可见:
β1在置信水平为9<5%下的置信区间为:
(1.802<588122,2.2<5<51<58812)
第四节统计显著性检验
一、回归系数的显著性检验
二、拟合优度检验
三、方程显著性检验
四、三种检验的关系
五、回归方程的标准记法
回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、回归系数的显著性检验及方程显著性检验。
一、回归系数显著性检验
回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。
在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。
这就需要进行变量的显著性检验。
变量的显著性检验所应用的方法是数理统计学中的假设检验。
计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。
1、假设检验
所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。
假设检验采用的逻辑推理方法是反证法。
先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。
判断结果合理与否,是基于“小概率事件不易发生”这一原理的
2、显著性检验—t检验
由于真实的未知,在用它的无偏估计量
替代时,可构造如下统计量:
对于一元线性回归方程中的,已经知道它服从正态分布:
其中:
的标准差的样本估计值。
检验步骤:
(1)提出假设
原假设H0:
?
?
51=0,备选假设H1:
?
?
51?
?
0
(2)以原假设H0构造t统计量,并由样本计算其值
(3)给定显著性水平?
?
,查t分布表,得临界值t?
?
/2(n-2)
(4)比较,判断,作出统计决策
若|t|≥t?
?
/2(n-2),则拒绝H0,接受H1:
认为?
?
51显著不为零,说明y对x的线性相关关系显著;
若|t|<t?
?
/2(n-2),则不拒绝H0:
认为?
?
51与零没有显著差异,说明y对x的线性相关关系不显著。
接受域
拒绝域
拒绝域
例2-2:
在上述汽车销售例中,对回归系数?
?
51首进行显著性检验。
先计算?
?
u2的估计值
于是得到标准差的估计值分别为:
t统计量的计算结果分别为:
给定显著性水平?
?
=0.0<5,查t分布表得临界值t0.0<5/2(10)=1.812
|t1|>1.812,所以拒绝原假设,认为?
?
51显著不为零,即y对x的一
元线性相关关系显著。
二、拟合优度检验(GoodnessofFitTest)
拟合优度检验:
对样本回归直线与样本观测值之间拟合程度的检验。
度量拟合优度的指标:
样本决定系数R2
问题:
采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?
问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。
普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示的优劣是不同问题之间的比较。
例如图1和图2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。
图1
图2
1、总离差平方和的分解
已知由一组样本观测值(xi,yi),i=1,2…,n得到如下样本回归直线
而y的第i个观测值与样本均值的离差可以分解为两个部分之和。
即总离差和可以分解为可解释离差与残差的和。
对上式两边求平方和得到:
即总离差平方和(TotalSumofSquares)可以分为可解释平方和(ExplainedSumofSquares)与残差平方和(ResidualSumofSquares),简记为:
TSS=ESS+RSS
其中
TSS为总体平方和,反映样本观测值总体离差的大小;ESS为回归平方和,是由回归方程确定的,反映由模型中解释变量所解释的那部分离差的大小,即由x的变动引起的;RSS为残差平方和,反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小,即由随机项u的波动引起的。
故TSS中,能够由自变量x解释的部分为ESS,由x以外的因素(即随机项)解释的部分为RSS。
?
既然RSS反映样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量?
可见,回归平方和(可解释平方和)ESS在TSS中所占比例越大,残差平方和RSS在TSS中所占比例就越小,说明回归效果就越好,即回归线与样本观测值拟和的越好。
为此定义样本决定系数为回归平方和ESS比总离差平方和TSS,记为:
称R2为(样本)决定系数/判定系数(coefficientofdetermination)。
可决系数的取值范围:
[0,1]
R2越接近1,说明实际观测点离样本线越近,拟合优度越高。
样本决定系数还可以用以下形式表达:
三、方程显著性检验—F检验
方程的显著性检验,即F检验属于回归方程的显著性检验,它是对所有参数感兴趣的一种显著性检验,是指对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立(即以多大的可能性成立)作出推断。
其检验步骤为:
第一步:
提出假设。
原假设H0:
?
?
51=0
备择假设H1:
?
?
51≠0
第二步:
构造F统计量。
可以证明:
所以:
即F统计量服从第一自由度为1,第二自由度为n-2的F分布。
F统计量的计算一般通过下列方差分析表进行。
第三步:
给定显著水平α,查F分布临界值得到
第四步:
做出统计决策
?
n-1
TSS
总变差
ESS
1
n-2
ESS
RSS
回归
残差
F统计量
均方
自由度
平方和
变差来源
方法一:
查自由度为(1,n-2)的F分布表,得到临界值(i)若则在1-?
?
水平下拒绝原假设H0,即模型的线性关系显著成立,模型是显著的;否则接受原假设H0,即模型的线性关系不是显著成立的,模型是不显著的。
方法二:
或者查自由度为(1,n-2),F值为计算统计量的概率,记为p,若p≥?
?
则接受原假设,否则拒绝原假设。
方法三:
在给定的显著性水平下,计算F的置信区间。
若F值落在区间内则接受原假设,否则拒绝原假设。
拒绝域
接受域
例2.3:
以例2.1资料为例,F检验过程如下:
第一步:
提出假设。
原假设H0:
?
?
51=0
备择假设H1:
?
?
51≠0
第二步:
计算F统计量
因为ESS=1602708.6(计算过程见表2.2)或直接取自输出结果2.1中的方差分析部分“回归分析(行)SS(列)”(1602708.6)。
RSS=401<58.071(计算过程见计算表2.2)或直接取
自输出结果2.1中的方差分析部分“残差(行)SS(列)”(401<58.071)。
(见方差分析表)
或直接取自输出结果2.1中的方差分析部分“回归分析(行)F(列)”(399.09999)。
(见下表)
11
1642866.7
总变差
399.09999
1602708.6401<5.8071
1
10
1602708.6401<58.071
回归
残差
F统计量
均方
自由度
平方和
变差来源
,所以我们拒绝原假设
0
H
,接受备择假设,认为x与y
关系显著即回归方程显著,
F
检验通过。
因为F=399.09999
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量经济学 第二章 一元线性回归模型 计量 经济学 第二 一元 线性 回归 模型