大样本OLS.docx
- 文档编号:27178771
- 上传时间:2023-06-27
- 格式:DOCX
- 页数:48
- 大小:194.01KB
大样本OLS.docx
《大样本OLS.docx》由会员分享,可在线阅读,更多相关《大样本OLS.docx(48页珍藏版)》请在冰豆网上搜索。
大样本OLS
第5章大样本OLS
5.1为何需要大样本理论
“大样本理论”(largesampletheory),也称“渐近理论”(asymptotictheory),研究当样本容量n趋无穷时统计量的性质。
大样本理论近年来大受欢迎的原因如下。
(1)小样本理论的假设过强。
小样本理论的严格外生性假设要求解释变量与所有的扰动项均正交。
在时间序列模型中,这意味着解释变量与扰动项的过去、现在与未来值全部正交!
自回归模型必然违背此假定。
大样本理论只要求解释变量与同期扰动项不相关。
例yt
=βyt-1+εt,其中E(yt-1εt)=0。
由于εt是yt的一部分,故二者相关,即
E(yε)=E[(βy
+ε)ε]=βE(yε)+E(ε2)=E(ε2)>0
ttt-1
ttt-1
ttt
小样本理论假定扰动项为正态分布,大样本理论无此限制。
(2)小样本的精确分布(exactdistribution)难推导。
大样本的渐近分布较易推导。
(3)大样本理论要求样本容量较大,至少n≥30,最好100以上。
5.2随机收敛
1.确定性序列的收敛
定义确定性序列{a}∞
={a,a,a,}“收敛”(converges)于常
nn=1
123
n
数a,记为lima
n→∞
=a或an
→a,如果∀ε
>0,存在N>0,只要n>N,
就有an-a
<ε,即{aN+1,aN+2,}均落入区间(a-ε,a+ε)内。
图5.1确定性序列的收敛
2.随机序列的收敛
定义随机序列{x}∞
={x,x,x,}“依概率收敛”(convergesin
nn=1
123
probability)于常数a,记为plimxn
=a,或xn
−p−→a,如果∀ε
>0,
n→∞
当n→∞时,都有limP
n→∞
xn-a>ε)=0。
任意给定ε>0
,当n越来越大时,随机变量xn
落在区间
(a-ε,a+ε)之外的概率收敛于0。
图5.2随机序列的收敛
对于随机向量与随机矩阵,也可定义依概率收敛,只要定义其每个元素都依概率收敛即可。
定义随机序列{x}∞“依概率收敛”于随机变量x,记为
nn=1
x−p−→x,如果随机序列{x-x}∞
依概率收敛于0。
nnn=1
命题(连续函数与依概率收敛可交换运算次序,preservationofconvergenceforcontinuoustransformation)假设g(⋅)为连续函数,
则plimg(x
)=g⎛plimx⎫。
n
n→∞
çn⎪
⎝n→∞⎭
当xn的分布越来越集中于某x附近时,g(xn)的分布自然也就越来越集中于g(x)附近。
概率收敛算子plim与连续函数g(⋅)可交换运算次序。
期望算子E
n→∞
无此性质,一般E(x2)≠[E(x)]2。
例:
如果plims2
n→∞
=σ2,则
plims
n→∞
=plim(s2)1/2
n→∞
=(plims2)1/2
n→∞
=(σ2)1/2=σ
(因为开根号是连续函数)。
如果样本方差是方差的一致估计,则样本标准差也是标准差的一致估计)。
3.依均方收敛
定义随机序列{x}∞“依均方收敛”(convergesinmeansquare)
nn=1
于常数a,如果limE(x)=
n→∞
a,limVar(x)=0。
n→∞
命题依均方收敛是依概率收敛的充分条件。
证明:
使用切比雪夫不等式(参见附录)。
当xn的均值越来越趋于a,方差越来越小并趋于0时,就有
plimxn
n→∞
=a,即在极限处xn退化(degenerate)为常数a。
此命题是依均方收敛概念的主要用途。
4.依分布收敛
定义记随机序列{x}∞
与随机变量x的累积分布函数(cdf)分别
为Fn(⋅)与F(⋅)。
nn=1
如果对于任意实数c,都有limF
(c)=
F(c),则称随机序列{x}∞
n→∞n
nn=1
“依分布收敛”(convergeindistribution)于随机变量x,记为
n
x−d−→x。
【例】当t分布的自由度越来越大时,其累积分布函数收敛于标准正态的累积分布函数。
图5.3依分布收敛
如果x为正态分布,而x
−d−→x,则称{x}∞
为“渐近正态”
n
(asymptoticallynormal)。
nn=1
n
依分布收敛意味着,两个随机变量的概率密度长得越来越像。
“依概率收敛”比“依分布收敛”更强(前者是后者的充分条件):
“xn
−p−→x”⇒“x
−d−→x”
反之不然:
当xn与x的分布函数很接近时,xn与x的实际取值仍然可以很不相同(比如,xn与x相互独立)。
命题假设g(⋅)为连续函数,且xn
−d−→x,则g(x
)−d−→g(x)。
n
当xn的分布越来越像x的分布时,g(xn)的分布自然也越来越像
g(x)的分布。
例:
假设xn
−d−→z,其中z~
N(0,1),
则x2
−d−→z2,其中z2~
χ
(1),即x2
−d−→χ
(1)
(因为平方是连续函数)
渐近标准正态的平方服从渐近χ
(1)分布。
5.3大数定律与中心极限定理
1.弱大数定律(WeakLawofLargeNumbers)
假定{x}∞为独立同分布的随机序列,且E(x
)=μ,Var(x
)=σ2存
nn=1
在,则样本均值x
≡1∑n
11
x−p−→μ。
nni=1i
证明:
因为E(xn)=μ,而
⎛x++x⎫1
2σ2
Var(xn)=Varç1n⎪=nσ=→0,故xn依均方收敛于。
⎝n⎭n2n
因此,xn−−→μ。
样本无限大时,样本均值趋于总体均值,故名
p
“大数定律”。
2.中心极限定理(CentralLimitTheorem,简记CLT)
定理假定{x}∞
为独立同分布的随机序列,且E(x
)=μ,
nn=1
Var(x1)=σ存在,则
2
1
(xn-μ)−−→N(0,σ)。
d2
根据弱大数定律,(xn
-μ)−p−→0,而
→∞,故用(xn
-μ)(即
“∞⋅0”型)得到非退化分布。
进一步,(xn
-
μ)收敛到0的速度与1
收敛到0的速度类似(二
者乘积为非退化分布),称为“收敛”(root-nconvergence)。
d⎛σ2⎫σ2
直观上,可视为xn
−−→Nçμ,n⎪;但不严格,因为n
→0。
⎝⎭
在一维情况下,中心极限定理可等价地写为
xn-μ
−d−→N(0,1),
但此形式不易推广到多维的情形。
推广到多维的情形:
假定{x
∞
}
nn=1
为独立同分布的随机向量序列,且E(x1)=μ,
Var(x1
)=∑存在,则(xn
-μ)−d−→N(0,∑)。
5.4统计量的大样本性质
1.均方误差
假设βˆ是一维参数β的估计量。
希望抽样误差(βˆ
-β)尽量地小。
定义以估计量βˆ来估计参数β,则其均方误差(MeanSquaredError,简记MSE)为
MSE(βˆ)≡E⎡(βˆ-β)2⎤
⎣⎦
一个最优的估计量应在所有估计量中均方误差最小。
不希望βˆ系统地高估或低估β,即无系统误差(systematicerror)。
定义以估计量βˆ来估计参数β,则其偏差为Bias(βˆ)≡E(βˆ)-β。
定义如果偏差Bias(βˆ)=0,则称βˆ
estimator)。
为无偏估计量(unbiased
命题均方误差可分解为方差与偏差平方之和,即
⎣⎦
MSE(βˆ)=Var(βˆ)+⎡Bias(βˆ)⎤2
证明:
MSE(βˆ)≡E⎡(βˆ-β)2⎤=E{⎡βˆ-E(βˆ)+E(βˆ)-β⎤2}
⎣⎦⎣⎦
=E⎡βˆ-E(βˆ)⎤2+2E{⎡βˆ-E(βˆ)⎤⎡E(βˆ)-β⎤}+E⎡E(βˆ)-β⎤2
⎣⎦⎣⎦⎣⎦⎣⎦
=Var(βˆ)+2E{⎡βˆ-E(βˆ)⎤⎡E(βˆ)-β⎤}+⎡Bias(βˆ)⎤2
⎣⎦⎣⎦⎣⎦
上式的交叉项为
E{⎡βˆ-E(βˆ)⎤⎡E(βˆ)-β⎤}=⎡E(βˆ)-β⎤E⎡βˆ-E(βˆ)⎤=⎡E(βˆ)-β⎤⋅0=0
⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦
均方误差最小化,可视为在“估计量方差”与“偏差”之间进行权衡(trade-off)。
多维情形的类似结论:
MSE(βˆ)≡E⎡(βˆ-β)(βˆ-β)'⎤=Var(βˆ)+⎡Bias(βˆ)⎤⎡Bias(βˆ)⎤'
⎣⎦⎣⎦⎣⎦
2.一致估计量
定义如果plimβˆn=
n→∞
(consistentestimator)。
β,则估计量βˆn是参数β的一致估计量
一致性(consistency)意味着,当样本容量足够大时,βˆn依概率收敛到真实参数β。
这是对估计量最基本,也是最重要的要求。
如果估计方法不一致,意味着研究没有太大意义;因为无论样本容量多大,估计量也不会收敛到真实值。
3.渐近正态分布与渐近方差
定义如果(βˆn-β)−−→N(0,∑),其中∑为半正定矩阵,则
d
称βˆn为渐近正态分布(asymptoticallynormallydistributed),称∑为
渐近方差(asymptoticvariance),记为Avar(βˆn)。
可近似地认为βˆn
−d−→N(β,∑
n)。
(βˆn-β)收敛到0的速度与
1收敛到0的速度相同,称为“
收敛”(root-nconvergence)。
4.渐近有效
假设βˆn与βn都是β的渐近正态估计量,其渐近方差分别为∑与
V。
如果(V-∑)为半正定矩阵,则称βˆn比βn更为渐近有效
(asymptoticallymoreefficient)。
5.5渐近分布的推导
推导渐近分布的常用技巧,涉及依概率收敛与依分布收敛的交叉运算,统称“斯拉斯基定理”(SlutskyTheorem)。
(1)
x−d−→x,y−p−→a⇒x+y
−d−→x+a。
nnnn
在极限处,yn退化为常数a,故xn+
分布x位移到x+a。
yn在极限处只是将xn的渐近
n
特例:
如果a=0,则xn+
y−d−→x。
(2)
x−d−→x,y−p−→0⇒xy−p−→0。
nnnn
在极限处,yn退化为0,xn有正常的渐近分布x,故xnyn退化为0。
(3)随机向量xn
−d−→x,随机矩阵A
−
p−→A,Ax可以相乘
⇒Anxn
−d−→Ax。
特例:
如果x~
N(0,∑),则Anxn
−d−→N(0,
A∑A')。
在极限处,随机矩阵An退化为常数矩阵A。
正态分布的线性组合仍服从正态分布,且
Var(Ax)=
AVar(x)A'=
A∑A'。
(4)随机向量xn
−d−→x,随机矩阵A
−
p−→A,Ax可以相乘,A-1
nnn
存在⇒二次型x'A-1x−d−→x'A-1x。
5.6随机过程的性质
随机序列{x}∞
也称“随机过程”(stochasticprocess)。
如下标为
nn=1
tt=1
时间,记为{x}∞,也称“时间序列”(timeseries)。
1.严格平稳过程
考察中国1978—2007年的通货膨胀率,即{π1978,π1979,,π2007},
假如每年的通货膨胀率作为随机变量都有不同的分布,如何估计
E(π1978)与Var(π1978)?
每年通货膨胀率的样本容量仅为1!
如果30年的通货膨胀率分布都不变,可将π≡
E(πt)的估计量。
12007
作为
30t=1978
图5.4中国零售物价环比指数,1978—2007
“严格平稳过程”要求有.限.维.分.布.不随时间推移而改变。
【例】xi的分布与xj的分布相同(∀i,
j);
(x1,
x4)的分布与(x2,
x5)相同;
(x1,
x2,
x3)的分布与(x5,
x6,
x7)相同。
tt=1
定义随机过程{x}∞
是严格平稳过程(strictlystationary
process),简称平稳过程,如果对任意m个时期的时间集合
{t1,t2,,tm},随机向量{xt,xt,,xt}的联合分布等于随机向量
12m
{xt
+k,xt
+k,,xt
+k}的联合分布,其中k为任意整数。
12m
{xt,xt,,xt
}的联合分布仅依赖于{t1,t2,,tm}各个时期之间的
12m
相对距离,而不依赖于其绝对位置。
例如果随机过程{x}∞
为iid,则{x}∞
是平稳过程,且不存在
序列相关。
例如果随机过程{x}∞
={x,x,x
}(即x≡x),则{x}∞是平
tt=1
111
t1tt=1
稳过程,且存在最强的序列相关。
例考虑以下一阶自回归过程(firstorderautoregression,简记AR
(1)),
yt=ρyt-1+εt,Cov(yt-1,εt)=0
其中,{εt}为独立同分布。
命题如果ρ=1,则{yt}不是平稳过程。
如果ρ
严格平稳过程。
<1,则{yt}是
证明:
如果ρ=1,则yt
=yt-1+εt。
因此,yt
=y0
+ε1+ε2
++εt。
故当t→∞时,Var(yt)=tσ→∞,其中σ≡Var(ε),即方差越
22
t
来越大,以至无穷。
因此,{yt}不是平稳过程。
此时,{yt}被称为“随机游走”(randomwalk),存在“单位根”(unitroot)。
如果ρ<1,对该方程两边同时取方差,可得
Var(y)=ρ2Var(y)+σ2
tt-1ε
2σ2
t
这是一阶线性差分方程。
由于ρ<1,故Var(y)将收敛于ε。
1-ρ2
图5.5平稳一阶自回归过程的方差收敛
tt=1
定义随机过程{x}∞
是弱平稳过程(weaklystationaryprocess)
或协方差平稳过程(covariancestationaryprocess),如果E(xt)不依赖于t,而且Cov(xt,xt+k)仅依赖于k(即xt与xt+k在时间上的相对距离)而不依赖于其绝对位置t。
弱平稳过程的期望与方差均为常数。
在Cov(xt,xt+k)中令k=0,可知方差为常数。
tt=1
定义一个协方差平稳过程{x}∞
被称为白噪声过程(whitenoise
process),如果对于∀t,都有E(xt)=0,而且Cov(xt,
xt+k)=0,∀k
≠0。
注:
白噪声过程不一定是iid,也不一定严格平稳。
严格平稳过程是弱平稳过程的充分条件。
但反之则不然,因为弱平稳过程只要求二阶矩平稳(即期望、方差、协方差等不随时间而变),而概率分布可能依赖于更高阶矩。
对于随机向量过程{x}∞,可类似定义平稳过程或弱平稳过程。
tt=1
如果{x}∞为(弱)平稳过程,则其每个分量都是(弱)平稳过程;
tt=1
反之,则不然。
2.渐近独立性
“严格平稳过程”(相当于“同分布”假定)还不足以应用大数定律或中心极限定理,因为它们都要求独立同分布。
但相互独立的假定对于大多数经济变量而言过强。
比如,今年的通胀率显然与去年的通胀率相关。
但今年的通胀率与100年前的通胀率或许可近似地视为相互独立,称为渐近独立(ergodic,也称“遍历性”)。
渐近独立意味着,只要两个随机变量相距足够远,可近似认为它们相互独立。
例AR
(1)是否渐近独立?
考虑yt
=ρyt-1+εt,其中ρ
<1。
当时间间隔为1时,
Cov(y,y
)=Cov(ρy
+ε,y)=ρσ2
tt-1
t-1
tt-1y
当时间间隔为2时,
y=ρy
+ε=ρ(ρy
+ε)+ε
=ρ2y
+ρε+ε
tt-1
tt-2
t-1
tt-2
t-1t
故
Cov(y,y
)=Cov(ρ2y
+ρε
+ε,y)=ρ2σ2
tt-2
t-2
t-1
tt-2y
当时间间隔为j时,Cov(y,y)=ρjσ2。
由于ρ
<1,故当j→∞时,
tt-jy
Cov(yt,yt-j)→0。
因此,AR
(1)为渐近独立。
ii=1
渐近独立定理(ErgodicTheorem)假设{x}∞
为渐近独立的严格
平稳过程,且E(x
)=μ,则x
≡1∑n
x−p−→μ,即样本均值x是
inn
总体均值E(xi)的一致估计。
i=1in
这是对大数定律的重要推广,更适用于经济数据。
大数定律要求每个x相互独立,而渐近独立定理允许{x}∞存在
iii=1
“序列相关”(serialcorrelation),只要此相关关系在极限处消失。
大数定律要求每个x的分布相同,而渐近独立定理要求{x}∞为
i
严格平稳过程(故也同分布)。
ii=1
ii=1
命题如果{x}∞
为渐近独立的严格平稳过程,则对于任何连续
函数f(⋅),{f(x)}∞也是渐近独立的严格平稳过程。
ii=1
ii=1
渐近独立定理意味着,渐近独立平稳过程{x}∞的任何“总体矩”
(populationmoment)E[f(xi)],都可以由其对应的“样本矩”(sample
moment)1∑nf(x
)一致地估计。
ni=1i
【例】E(xx')
可由1∑n
xx'一致地估计,其中(xx')为随
iiK⨯K
ni=1ii
iiK⨯K
机矩阵。
其中,xi
≡(xi1
xi2xiK)'。
使用中心极限定理还需另一条件,即鞅差分序列。
ii=1
定义称随机过程{x}∞
为鞅(martingale),如果它满足
E(xi
|xi-1,,
x1)=
xi-1,∀i
≥2。
例随机游走过程xt
=xt-1+εt。
显然,E(xt
|xt-1,,
x1)=
xt-1。
例资本市场有效理论认为,所有有关未来价格的已知信息均
已反映在当期价格上,故E(pt+1|
pt,,
p1)=
pt。
ii=1
定义称随机过程{x}∞
为鞅差分序列(MartingaleDifference
Sequence,简记MDS),如果它满足E(xi
|xi-1,,
x1)=0,∀i
≥2。
这意味着xi均值独立于它的所有过去值。
因此,Cov(xi,
xi-j)=0,∀
j≠0。
根据迭代期望定律可知,鞅差分序列的无条件期望
E(xi)=Ex
,x
[E(xi
|xi-1,,
x1)]=0
i-11
命题对鞅序列进行一阶差分,就得到鞅差分序列。
证明:
假设{x}∞
={x,x,x,}为鞅过程。
ii=1
123
定义其差分为g1≡
x1,gi
≡xi
-xi-1,∀i
≥2。
对∀i≥2,条件期望
E(gi|gi-1,,
g1)
=E(gi
|xi-1,,x1)
({gi-1,,
g1}与{xi-1,,
x1}包含同样的信息)
=E(xi
-xi-1|
xi-1,,
x1)
(定义gi
≡xi
-xi-1)
=E(xi
|xi-1,,
x1)-xi-1
(期望算子的线性性)
=xi-1-xi-1=0
(鞅过程的定义)
故{g
∞
}
ii=1
是鞅差分序列。
鞅差分序列的中心极限定理(CentralLimitTheoremforErgodicStationaryMDS)
假设{g}∞为渐近独立的平稳鞅差分随机向量过程,且其协方差
ii=1
矩阵为Cov(g
)=E(gg')=∑,记g≡
1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大样 OLS