第19章蒙特卡罗法与自助法.docx
- 文档编号:29227178
- 上传时间:2023-07-21
- 格式:DOCX
- 页数:21
- 大小:63.78KB
第19章蒙特卡罗法与自助法.docx
《第19章蒙特卡罗法与自助法.docx》由会员分享,可在线阅读,更多相关《第19章蒙特卡罗法与自助法.docx(21页珍藏版)》请在冰豆网上搜索。
第19章蒙特卡罗法与自助法
©陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。
第19章蒙特卡罗法与自助法
19.1蒙特卡罗法的思想与用途
通过计算机模拟从总体抽取大量随机样本的计算方法统称为“蒙特卡罗法”(MonteCarloMethods,简记MC)。
例(计算圆周率π):
在边长为1的正方形中内接14单位圆。
正方
形面积为1,14圆面积为π
4。
如知道14单位圆占
正方形面积的比例,就可计算π。
图19.1计算圆周率π的随机实验
向这个正方形随机地射箭,落点在正方形上服从二维均匀分布。
重复实验n次,其中有m次落在14圆内。
根据大数定律,mn−p−→π
4,故π≈4mn。
在计量中,常用MC来确定统计量的小样本性质。
【例】对于yi
=xi'β
+
εi
(i=1,,n),对H0:
Rβ
=r进行显著性水平
为5%的大样本检验:
W≡n(Rβˆ
-r)'⎡RAvar(βˆ)R'⎤-1(Rβˆ
-r)−d−→χ2(m)
⎣⎦
其中βˆ为OLS估计量,m为线性约束个数。
渐近χ2分布只是真实分布的近似,故“5%”可能只是“名义显著性水平”(nominalsize),而非“真实显著性水平”(trueoractualsize),二者之差称为“显著性水平扭曲”(sizedistortion)。
可用MC来确定“真实显著性水平”。
第一步,给定β的具体取值,以及x与的概率分布。
第二步,从x与的分布中随机抽样,得到{x1,
{ε1,ε2,,εn}。
x2,,
xn}与
第三步,根据方程yi
=xi'β
+
εi计算{y1,
y2,,
yn}。
第四步,对此样本进行OLS估计,计算统计量W,与χ2(m)的5%
临界值比较,确定是否拒绝原假设H0:
Rβ
=r。
第五步,大量重复第二至第四步,得到M个随机样本(比如,
M=1000),进行M次检验,则拒绝原假设的比例就是真实显著性
水平。
19.2蒙特卡罗法实例:
模拟中心极限定理
19.3蒙特卡罗法实例:
服从卡方分布的扰动项
19.4蒙特卡罗积分
MC的另一用途是计算复杂或高维的积分,称为“蒙特卡罗积分”
(MonteCarlointegration)。
b
1
考虑计算定积分⎰af
(x)dx,其中a,b为有限值。
通过变量替换,可将积分上下限变为1与0,故仅考虑I
≡⎰0
f(x)dx。
1
假设x服从在[0,1]上的均匀分布,则随机变量函数
f(x)的期望值
E[f
(x)]=⎰0
f(x)⋅1dx≡I
抽取随机变量x的样本容量为S的随机样本,记为
{x1,,
xs,,
xS},则蒙特卡罗积分估计值为
f(x)的样本均值:
I
=
ˆ1
MCS
S
∑
s=1
f(xs)
根据大数定律,当S→∞时,样本均值Iˆ
−p−→E[
f(x)]=I。
MC
如果积分上限a或下限b为无穷,可从某个适当的概率密度g(x)中
抽取随机样本{x1,,
xs,,
xS}。
原积分总可写为
b
b⎡f(x)⎤
f(x)dx=g(x)dx≡
b
w(x)g(x)dx
=E[w(x)]
⎣⎦
⎰a⎰a
⎢g(x)⎥⎰a
其中,w(x)≡
f(x)
。
蒙特卡罗积分估计值为
g(x)
I
=
ˆ1
MCS
S
∑
s=1
w(xs)
从密度函数g(x)中抽样的方法称为“重要性抽样”(importance
sampling),因为函数w(x)决定了每个样本点的权重或重要性。
19.5最大模拟似然法与模拟矩估计
使用MLE的前提是,能写出似然函数
f(y|
x,θ)。
有时,该似然函数可能包含无法求解的积分。
比如,在随机效应的非线性面板模型中,要将个体效应ui积分掉(ui不可观测),才能写出似然函数。
记ui的密度函数为g(ui),并假设第i个观测值的似然函数为
f(yi
|xi,θ)=⎰h(yi
|xi,θ,ui)g(ui)dui
如果积分无解析解,可使用蒙特卡罗积分进行估计。
从分布g(ui
)中随机抽取S个观测值,记为{u1,,uS},则上式的
ii
估计值为
1
S
S
ˆs
f(yi
|xi,θ)=
∑h(yi
s=1
|xi,θ,ui)
假设样本为iid,则整个样本的对数似然函数估计值为
n
lnLˆ(θ)=∑lnfˆ(yi
i=1
|xi,θ)
其中,n为样本容量。
MSL
最大化上式所得到的估计量θˆ
称为“最大模拟似然估计量”
(MaximumSimulatedLikelihoodEstimator,简记MSL)。
在一定正则条件下,当模拟抽样的次数S→∞时,fˆ对f的近似程
度越来越好,即(fˆ-
f)−p−→0,则MSL为一致估计量。
如果S→0(即S的增长速度快于),则MSL为渐近有效估
计量(渐近等价于MLE),且服从渐近正态分布。
类似地,在进行矩估计时,如果矩条件中包含无解析解的积分,也可使用蒙特卡罗积分来估计此矩条件,然后进行矩估计。
此法称为“模拟矩估计”(MethodofSimulatedMoments),简记MSM。
19.6自助法的思想与用途
MC虽然威力大,但必须对总体模型做很具体的假定,所得结论不清楚在多大意义上能够推广。
Efron(1979)提出了对原始样本进行“再抽样”(resampling)的方法,即“自助法”或“自举法”(bootstrap)。
假设从总体抽得样本容量为n的随机样本。
来自总体的样本带有总体的信息。
将此样本看作一个总体,进行“有放回”(withreplacement)地抽样,样本容量仍然为n。
这种样本被称为“自助样本”(bootstrapsample)。
由于是有放回地抽样,原来的某些观测值可能不出现,而有些观测值则可能多次出现。
可通过计算机模拟获得许多自助样本,然后利用这些自助样本对总体进行统计推断。
假设{x1,
x2,,
xn}是来自总体F的随机样本。
定义总体F的经验分布函数(empiricaldistributionfunction)Fn:
F(x)=
1
∑n
1(x
≤x),
-∞<
x
<∞
nni=1i
∑
1(⋅)为示性函数,而n
i=1
1(xi
≤x)表示样本中小于或等于x的个数。
经验分布函数的形状为阶梯函数,在每个xi处向上跳一个台阶。
p
可以证明,对任意x,Fn(x)−−→F(x),这是自助法成立的前提。
自助法可看成是从经验分布函数中不断地抽样。
自助法的用途主要有两个方面。
首先,对于某些统计量(比如,样本中位数),常规方法很难得到标准误。
可使用自助法,计算每个自助样本的样本中位数,得到样本中位数的分布,并计算其标准误。
其次,可使用自助法得到更加渐近有效的估计量(asymptoticrefinement)。
19.7自助法的分类
(1)非参数自助法(nonparametricbootstrap),也称“经验分布自助法”(empiricaldistributionfunctionbootstrap)。
将原始样本进行有
放回地随机抽样。
在回归模型中,意味着将(yi,
也称“成对自助法”(pairedbootstrap)。
xi
)成对抽样,故
(2)参数自助法(parametricbootstrap)。
假设总体分布函数的形式已知,为F(x,θ),而θ未知。
先得到θ的估计量θˆ(比如使用MLE),然后从总体F(x,θˆ)中重复抽样。
此法的前提是对总体分布函数的形式比较确信。
在此前提下,参数自助法比非参自助法更有效率。
在回归模型中,需先确定条件分布的具体形式,即y|x~
F(x,θ)。
一种方法是,得到估计量θˆ后,从F(xi,θˆ)中随机抽样得到对应的
yi。
这相当于是“固定解释变量”(fixedregressors)的情形。
另一种方法是,先从{x1,
x2,,
xn}中进行再抽样(resample),得到
x*,然后再从F(x*,θˆ)中随机抽样得到对应的yi。
这相当于“随机
ii
解释变量”(stochasticregressors)的情形。
(3)残差自助法(residualbootstrap)。
对于回归模型
yi=
g(xi,β)+εi
,首先通过估计得到残差
εˆi=yi-g(xi,βˆ)。
对残差{εˆ1,εˆ2,,εˆn}
12
n
{εˆ*,εˆ*,,εˆ*}。
使用自助法,得到残差的自助样本
计算对应的
y*=g(x,βˆ)+εˆ*
,进而得到自助样本
}
11
{(y*,x),,(y*,x
iii
nn
)。
19.8使用自助法估计标准误
假设原始样本为{x1,
x2,,
xn}
。
对于未知参数θ的估计量
θˆ=θˆ(x1,
x2,,
xn),需计算标准误σθˆ
≡,但有时无解析式。
B
如果从真实总体F获得样本容量为n的B个随机样本,对每个样
12
本都可计算θˆ,得到B个估计值{θˆ,θˆ
,θˆ
},则
其中θ
≡1∑B
θˆ。
sθˆ≡
Bi=1i
但真实总体F的分布未知,而从总体多次抽样的成本可能很高。
以经验分布函数Fn来近似真实分布F,并从Fn中大量抽取随机样
本,即在原始样本{x1,
x2,,
xn}中每次有放回地抽样,得到样本容
12
n
12
n
量为n的自助样本{x*,
x*,,
x*},并计算θˆ*=θˆ(x*,x*,,x*)。
如此重复,共抽取B个自助样本,则得到θ的B个自助估计值
12
B
{θˆ*,θˆ*,,θˆ*}。
可以定义标准误的自助估计为
其中,θ*
≡1∑B
*
s
≡
θˆ
θˆ*。
Bi=1i
19.9使用自助法进行区间估计
(1)百分位法(percentilemethod)。
12
B
得到自助估计量θˆ*的经验分布{θˆ*,θˆ*,,θˆ*}。
12
B
将{θˆ*,θˆ*,,θˆ*}按从小到大的顺序排列,并记其α
2与(1-α
2)上
α
与θ
2
分位数(upperquantile)分别为θˆ*
ˆ*
1-α
2
,则θ的置信区间为
⎡θˆ*
θˆ*⎤
⎣1-α2α2⎦
(2)基于正态的置信区间(normal-basedconfidenceinterval)。
使用标准正态分布来估计置信区间,即
⎡θˆ-1.96⨯s*,θˆ+1.96⨯s*⎤
⎣θˆθˆ⎦
θˆ
其中,s*是用自助法估计的标准误,并假定置信度为95%。
(3)百分位t法(percentile-tmethod)。
根据每个自助样本计算对应的自助t统计量,
*θˆ*
-θˆ
ti≡
i,
θ
sˆ*
i
i=1,,B
i
其中,θˆ为根据原始样本计算的θ估计量,而sθˆ*
是根据
12
B
{θˆ*,θˆ*,,θˆ*}计算的标准误。
1-α
12
B
得到自助t统计量的经验分布{t*,t*,,t*},并记其α
2与(1-α
2)上
α
2
分位数(upperquantile)分别为t*
>0与t*
2<0,则θ的置信区间为
⎡θˆ+t*⨯sˆ,θˆ+t*⨯sˆ⎤
⎣1-α2θα2θ⎦
19.10使用自助法进行假设检验
考虑用自助法进行如下双边检验,H0:
θ
=θ0
vsH1:
θ
≠θ0。
一种方法是,如果θ
∈⎡θˆ*
θˆ*
⎤,则接受原假设H;反之,则
0⎣1-α2α2⎦0
拒绝。
这就是“百分位法”(percentilemethod)。
另一方法是,在假设H0成立的情况下,计算原始样本的t统计量,
t≡θˆ-θ0
sθˆ
1-α
如果t∈⎡⎣t*
t*
⎤⎦,则接受原假设H;反之,则拒绝。
其中,t*
与t
2
α
2
0
α
2
*1-α
2的定义如上。
这就是“百分位t法”。
19.11自助法的一致性(选读)
19.12异方差情况下的自助法
由于异方差的存在不影响观测数据(yi,
成对自助法(pairedbootstrap)。
xi)仍然为iid,故仍可使用
但残差自助法(residualbootstrap)却不成立,因为在条件异方差的情况下,扰动项不是iid,故经验分布函数Fn不是总体分布函数F的一致估计,自助估计量也就不一致。
Wu(1986)与Liu(1988)提出“野自助法”(wildbootstrap),对残差
{εˆ1,εˆ2,,εˆn}先进行线性变换再进行抽样,以满足从异方差的扰动项进行抽样的要求。
定义具有两点分布的新残差为:
⎧1εˆ,
以5+1
2
⎪i
i
=
⎨
εˆ*⎪
的概率
2
⎪1+εˆ,以-1
⎩⎪2i
的概率
可以证明,E(εˆ*)=0,Var(εˆ*)=εˆ2。
iii
12
n
对{εˆ*,εˆ*,,εˆ*}进行再抽样,就是从异方差的扰动项进行抽样。
19.13面板数据与时间序列的自助法
可使用成对自助法对个体i进行再抽样,而不对时间t进行再抽样,即如果抽中个体i,则个体i在所有时间的观测值都同时被抽中。
这种方法称为“分块自助法”(blockbootstrap),对于非线性面板数据或聚类数据(clustereddata)也适用。
由于自助法假定样本为iid,而时间序列数据通常存在自相关(故不是iid),因此针对时间序列的自助法更为复杂。
19.14自助法的Stata命令
19.15使用自助法进行稳健的豪斯曼检验
19.16
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 19 章蒙特卡罗法 自助