分位数回归张晓峒.docx
- 文档编号:9533826
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:43
- 大小:543.84KB
分位数回归张晓峒.docx
《分位数回归张晓峒.docx》由会员分享,可在线阅读,更多相关《分位数回归张晓峒.docx(43页珍藏版)》请在冰豆网上搜索。
分位数回归张晓峒
第15章分位数回归模型
15.1总体分位数和总体中位数
15.2总体中位数的估计
15.3分位数回归
15.4分位数回归模型的估计
15.5分位数回归模型的检验
15.6分位数的计算与分位数回归的EViews操作
15.7分位数回归的案例分析
以往介绍的回归模型实际上是研究被解释变量的条件期望。
人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。
这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。
正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,leastabsolutedeviationsestimator)。
它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。
在残差检验、回归系数检验、模型设定、预测等方面那么基本相同。
分位数回归的优点是,
(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。
不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。
另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值那么表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量那么更加稳健。
15.1总体分位数和总体中位数
在介绍分位数回归之前先介绍分位数和中位数概念。
对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:
y小于等于y(τ)的概率是τ,即
τ=P(y≤y(τ))=F(y(τ))
其中P(⋅)表示概率,F(y(τ))表示y的累积(概率)分布函数(cdf)。
比如y(0.25)=3,那么意味着y≤3的概率是0.25。
且有
y(τ)=F-1(y(τ))
即F(y(τ))的反函数是y(τ)。
当τ=0.5时,y(τ)是y的中位数。
τ=0.75时,y(τ)是y的第3/4分位数,τ=0.25时,y(τ)是y的第1/4分位数。
若y服从标准正态分布,y(0.5)=0,y(0.95)=1.645,y(0.975)=1.960。
另外,如果随机变量y的分布是对称的,那么其均值与中位数是相同的。
当其中位数小于均值时,分布是右偏的。
反之,分布是左偏的。
对于回归模型,被解释变量yt对以X为条件的第τ分位数用函数y(τ)t|X表示,其含义是:
以X为条件的yt小于等于y(τ)t|X的概率是τ。
这里的概率是用yt对X的条件分布计算的。
且有
y(τ)t|X=F-1(y(τ)t|X)
其中F(y(τ)t|X)是yt在给定X条件下的累积概率分布函数(cdf)。
那么y(τ)t|X称作被解释变量yt对X的条件分位数函数。
而F'(y(τ)t|X)=f(y(τ)t|X)那么称作分位数概率密度函数。
其中F'(y(τ)t|X)表示F(y(τ)t|X)对y(τ)t|X求导。
15.2总体中位数的估计
在介绍分位数回归之前,先来看中位数的估计和中位数回归。
下面以连续变量为例介绍定理15.1。
定理15.1
连续变量用y表示,其概率密度函数用f(y)表示,累计概率密度函数用F(y)表示,y的中位数用y(0.5)表示,那么y与任一值α的离差绝对值的期望
以α=y(0.5)时为最小。
证明:
=
=
(15.1)
根据莱布尼兹公式,若
,那么有
。
令
,那么有
。
运用于式(15.1),得
=
=
=
式(15.1)求极小的一阶条件是
=0,即
=0,
。
这意味着α等于中位数y(0.5)。
α=y(0.5)
与定理15.1等价的表述是
以α=y(0.5)(中位数)时为最小。
因此,中位数回归估计量可以通过最小绝对离差法(leastabsolutedeviation,LAD)估计。
其中X和β分别为(k⨯1)阶列向量。
同理,对于线性回归模型yt=X'β+ut,通过求
最小,估计β的中位数回归系数估计量
,从而得到yt的中位数回归估计量
。
15.3分位数回归ρ
Koenker和Bassett(1978)证明,若用
表示yt的分位数回归估计量,那么对于以检查函数(checkfunction)wτ为权数,ρτyt对任意值α的加权离差绝对值和
只有在α=
时取得最小值。
其中
=
(15.2)
τ∈(0,1)。
据此,分位数回归可以通过加权的最小绝对离差和法(weightedleastabsolutedeviation,WLAD)进行估计。
根据式(15.2),对于线性回归模型yt=X'β+ut,求第τ分位数回归方程系数的估计量
的方法是求下式(目标函数)最小,
(15.3)
其中
表示第τ分位数回归方程对应的残差。
τ∈(0,1)。
第τ分位数的回归方程表达式是
=
其中X,β都是k⨯1阶列向量。
称作分位数回归系数估计量,或最小绝对离差和估计量,估计方法称作最小绝对离差和估计法。
当τ=0.5时,式(15.3)变为
=
称作中位数回归方程,
称作中位数回归系数估计量。
一旦得到估计的分位数回归方程,就可以计算分位数回归的残差
。
-
对一个样本,估计的分位数回归式越多,对被解释变量yt条件分布的理解就越充分。
以一元回归为例,如果用LAD法估计的中位数回归直线与用OLS法估计的均值回归直线有显著差别,那么表明被解释变量yt的分布是非对称的。
如果散点图上侧分位数回归直线之间与下侧分位数回归直线之间相比,相互比较接近,那么说明被解释变量yt的分布是左偏倚的。
反之是右偏倚的。
对于不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影响是不同的。
15.4分位数回归模型的估计
由于目标函数(15.3)不可微,因此传统的对目标函数求导的方法不再适用。
估计分位数回归方程参数
的一种较好的方法是线性规划方法。
基于Barrodale和Roberts(1973,以下简写为BR)提出的单纯形法(simplexalgorithm),Koenker和D’Orey(1987)提出一种估计分位数回归系数的方法。
EViews中应用的是上述算法的改进形式。
BR算法由于其非有效性和大样本下的一些非优良特性曾备受批评。
Koenker和Hallock(2001)以及Portnoy和Koenker(1997)通过模拟证实,与内点法(interiorpointmethod)等替代方法相比,BR算法的估计次数往往较多,大约是样本容量的平方次数。
然而,改进的BR算法的估计次数在一定程度上是可以接受的,大约是样本容量的线性倍次数,在实际中是可以使用的。
分位数回归方程的BR算法原理略。
下面讨论分位数回归系数估计量的渐近分布。
在弱条件下,分位数回归系数渐近服从正态分布(Koenker,2005)。
回归系数的方差协方差矩阵的计算在分位数回归的系数估计中占有重要位置。
其方差协方差矩阵的估计方法根据分位数密度函数是否与解释变量相关分为三种方法:
①误差项独立同分布(i.i.d.)假设下的直接估计方法。
由Koenker和Bassett(1978)提出。
②误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。
③误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。
(1)独立同分布假设下的参数渐近分布
Koenker和Bassett(1978)在独立同分布假设下得出分位数回归系数渐近服从正态分布,可以表述为在弱条件下:
~
(15.5)
其中
(15.6)
(15.7)
其中s(τ)称为稀疏函数(Sparsityfunction)或分位数密度函数(quantiledensityfunction)。
s(τ)是分位数函数的导数,或在第τ分位数条件下概率密度函数的倒数(见Welsh,1988)。
另外,模型误差项独立同分布假设意味着s(τ)与解释变量X无关,因此,分位数方程只和X在局部期间相关,即所有的条件分位数平面互相平行。
事实上,式(15.5)中的
就是误差项独立同分布假设下解释变量的回归系数估计量的渐近方差协方差矩阵表达式,而
代表的是一般回归方程中随机误差项的方差。
误差项独立同分布假设下,分位数回归参数估计量的渐近方差协方差矩阵表达式中含有s(τ),但s(τ)是未知分布的函数,而且必须要估计。
EViews提供了三种估计s(τ)的方法。
两种是基于Siddiqui(1960)的方法分别提出的差分商方法(SiddiquiDifferenceQuotient)(Koenker(1994)以及Bassett和Koenker(1982)),一种是核密度(KernelDensity)估计法。
简述如下:
①Siddiqui差分商法:
差分商方法是用实际的分位数函数构造一个简单的差分商,从而求得s(τ)的估计量,表达式如下:
(15.8)
其中带宽hn随着样本容量n→∞而趋向于0。
要计算ŝ(τ)需要做两件事,一是得到分位数函数
在两个点上的值,二是确定带宽。
EViews中提供了两种Siddiqui差分商法。
计算分位数密度函数的第一种方法由Bassett和Koenker(1982)提出,EViews将其称之为Siddiqui(meanfitted)方法。
这种方法需要重新估计两个分位数回归模型在τ-hn和τ+hn上的拟和值,进而用不同的估计参数计算分位数函数的拟和值。
最终s(τ)的估计量的数学表达式如下,对任意X*有:
(15.9)
独立同分布假设意味着X*可以取任何值,Bassett和Koenker建议取X的均值,其优点是:
估计的精度在该点达到最大;且估计的分位数函数对τ是单调的,因此对一个恰当的hn,ŝ(τ)的值总是正的。
另一种Siddiqui差分商法由Koenker(1994)提出。
其计算量相对较小,只需计算原分位数回归方程中残差的第τ-hn和τ+hn实际分位数,计算时排除在估计中设为零的k个残差,并插入新值以获得分位数的分段线性形式。
EViews中把这种方法叫做Siddiqui(residual)方法。
上述两种Siddiqui方法都需要估计带宽hn。
EViews提供了三种估计带宽的方法:
Bofinger(1975)法,Hall-Sheather(1988)法和Chamberlain(1994)方法。
Bofinger(1975)提出的估计带宽的表达式为:
(15.10)
可以近似最小化ŝ(τ)的均方误差(MSE)。
另外两个带宽的表达式中含有显著性水平,因此常常用来进行假设检验。
其中Hall和Sheather(1988)的表达式为:
(15.11)
其中T表示样本容量,Φ表示正态分布的积累分布函数,φ表示正态分布的密度函数,Zα=Φ-1(1-α/2)为选择的显著性水平α对应的Z值。
Chamberlain(1994)的表达式为:
(15.12)
图1是样本容量1~300时Hall和Sheather(1988)方法在第0.1、0.3、0.5、0.7、0.9分位数下得到的带宽。
图2是样本容量1~1000时三种方法在第0.5分位数下的带宽比较图(α=0.05,MATLAB计算)。
图1图2
从图2可以看出随着样本的增加,三种带宽都减小,并且在小样本时,减小的速度较大,在大样本情况下减小的速度较小。
并且在大样本情况下,带宽的大小顺序为:
Bofinger的最大,Hall和Sheather的次之,Chamberlain的最小。
②核密度法(KernelDensity):
根据(15.7)式有s(τ)=
=1/f(
),Falk(1988)和Welsh(1988)提出了用核密度法估计
进而得到s(τ)的方法。
而Powell(1986)、Jones(1992)以及Buchinsky(1995)那么通过估计1/f(
)来得到s(τ)。
EViews中使用的方法属于后者,沿用了Powell(1984,1989)中的计算方法,其选项名称为Kernel(residual):
(15.13)
其中û(τ)表示分位数回归的残差;cT为带宽;K表示核密度函数。
EViews中可以选择的核密度函数有Epanechnikov核函数、均匀(Uniform)核函数、三角(Triangular)核函数、二权(Biweight)核函数、三权(Triweight)核函数、正态(Normal)核函数、余弦(Cosinus)核函数。
EViews中使用了Koenker(2005)提出的带宽,表达式为:
(15.14)
其中k表示Silverman(1986)的一个稳健估计量;hn是Siddiqui带宽。
(2)独立但不同分布假设下的参数渐近分布
当分位数密度函数独立但不同分布即与解释变量X相关时
的渐近分布服从Hubersandwich形式:
~
(15.15)
其中J同(15.6)式,H的表达式如下:
(15.16)
其中
是个体i在第τ分位数上的条件密度函数。
如果条件密度函数不依赖于观测值,式(15.15)中的方差就退化为(15.5)式中的方差。
对于H,EViews提供了两种计算方法。
第一种是Hendricks和Koenker(1992)提出的Siddiqui差分法;另一种是Powell(1984,1989)提出的核密度法。
这两种方法与在独立同分布假设时计算s(τ)的算法相同,因此在EViews选单中的名称相同,分别为Siddiqui(meanfitted)和Kernel(residual)。
①Siddiqui差分商法
这种方法需要对每个个体估计τ-hn和τ+hn两个分位数回归模型,将拟和值代入下式:
(15.17)
由于分位数密度函数非同分布,因此,我们需要为每一个个体估计
,这时当取
时,不能保证(15.17)式为正,因此,Hendricks和Koenker对其进行了修正:
(15.18)
其中δ是一个很小的正数,避免上式中分母为零。
将(15.18)式代入(15.16)式,得到H的估计量为
(15.19)
②核密度法
Powell(1984,1989)提出的用核密度法估计H的表达式为:
(15.20)
其中û(τ)表示分位数回归的残差;cn为带宽;K表示核密度函数;各参数含义与(15.13)式相同。
(3)参数渐近分布的自举法
前面的方法都是先求出分位数密度函数,然后再得到参数的渐近分布。
自举法那么可以省略这一步,直接得到参数的方差协方差阵。
EViews中给出了四种自举方法,分别为:
残差自举,XY对自举,以及两种马尔可夫链边际自举法MCMB和MBMB-A。
其中前两种方法见Buchinsky(1995)。
①残差自举法(residualbootstrap)
这种方法要求解释变量与随机误差项不相关。
它是对残差和解释变量分别进行有放回的再抽样,构造样本容量为m的新序列u*和X*(其中m可以小于原样本容量T),然后运用初始参数估计量构造被解释变量,即
,最后用X*和Y*估计新的参数β(τ).
如此重复K次,那么参数方差协方差阵的估计量为:
(15.21)
其中
是自举参数估计量序列的均值。
EViews选单中称这种方法为Residual。
②XY对自举法(XY-pairordesignbootstrap)
这是最常用的一种自举方法,它不要求随机误差项与解释变量相互独立。
使用这种方法时,我们从原始数据中有放回的抽取K次样本容量为m的子序列(y*,X*),然后用每个子序列计算β(τ),最后运用(15.21)式计算参数方差协方差阵的估计量。
EViews选单中这种方法称为XY-Pair。
③马尔可夫链边际自举法(MarkovChainMarginalBootstrap)
以上两种自举法往往计算量过大,当方程中含有p个参数时,每次自举都需要解一个p维的线性规划问题。
He和Hu(2002)提出了一种新的自举法,将一个p维的最优问题简化为求解一个含p个元素的序列的一维问题。
这个序列的一维解就构成了一个马尔可夫链,其样本方差协方差阵可由(15.21)式计算,且当原序列样本容量T和自举次数K较大时具有一致性。
EViews选单中把这种方法称为MCMB法。
然而,给定链长B(即自举次数),上述方法计算的参数序列之间往往存在较强的自相关从而导致参数方差协方差阵估计量的统计特性较差,有可能对任何链长B,估计量都不能收敛。
Kocherginsky、He和Mu(KHM,2005)提出了一种修正的方法消除可能存在的自相关。
即通过先对参数空间进行某种转换,运用MCMB算法进行估计,然后再转换回原来的空间,这种方法叫做MCMB-A。
它要求独立同分布的假设条件,但它对异方差的情况表现的比较稳健。
Kocherginsky、He和Mu还建议对于满足T⨯min(τ,1-τ)>5p的情况,当T≤1000,p≤10时,B应取在100至200之间。
对于Tp在10,000到2,000,000之间的情况,建议B取在50至200之间,当然,还取决于用户的耐心。
15.5分位数回归模型的检验
评价分位数回归函数好坏的统计量主要有3个,拟合优度、拟似然比检验和Wald检验。
(1)拟合优度(Goodness-of-Fit)
Koenker和Machado(1999)提出了分位数回归的拟合优度的概念。
它与一般回归分析中的R2很类似。
假设分位数回归直线为
将解释变量矩阵和参数向量都分为两部分,即
和
,且有
定义:
(15.22)
(15.23)
式(15.22)和(15.23)分别表示无约束分位数回归目标函数(最小绝对离差和)和约束的分位数回归目标函数(最小绝对离差和)的极小值。
无约束目标函数中的减项既包含常数项也包含所有回归因子。
约束目标函数中的减项仅包含常数项,其他参数都约束为零。
那么Koenker和Machado拟和优度准那么表达式如下:
(15.24)
很明显,上述统计量与传统的R2非常相似。
因为
,所以R*(τ)的值在0和1之间,解释变量的作用越强,
越远远小于
,
越接近1。
反之越接近0。
所以
可用来考察解释变量对被解释变量第τ分位数回归拟和的好坏。
(2)拟似然比检验(Quasi-LikelihoodRatioTests)
Koenker和Machado(1999)根据目标函数在施加约束条件前后得到的两个极小值构造了两个拟似然比检验统计量(QLR)。
这两个拟似然比检验也称作分位数ρ检验(quantile-ρtests)。
两统计量的表达式如下:
(15.25)
(15.26)
两个统计量都渐近服从自由度为q的χ2分布,其中q是原假设目标函数中约束条件的个数。
和
分别代表约束的和无约束目标方程的极小值。
β0
另外,两个统计量的分母都含有稀疏项s(τ),上面给出的稀疏项s(τ)的3种计算方法都可在式(15.25)和(15.26)中使用。
EViews估计的是其在备择假设下的估计量。
使用上述两统计量的前提是必须满足分位数密度函数s(τ)与解释变量X不相关。
然而,尽管有时并不满足独立同分布的假设,EViews在进行分位数回归的时候,不管选择何种估计参数渐近分布的方法,总会估计稀疏函数s(τ),从而构造拟似然比(QLR)检验统计量。
因此,这种检验方法与下面的Wald统计量相比稳健性较差。
(3)Wald检验
给定分位数回归参数估计量的渐近方差协方差矩阵,我们就可以构造Wald形式的统计量进行各种约束形式的参数检验。
31.3.5系列分位数回归检验
前面的分析主要集中在单个分位数回归模型的假设检验上,而有些时候也需要对一系列分位数回归的回归系数进行联合检验。
比如,需要通过检验不同分位数模型的斜率是否相等来判断一个模型是否具有位移特征。
同时考虑多个分位数回归式称作系列分位数回归分析(quantileprocesstesting)。
EViews在做单方程分位数回归的同时,有专门命令执行系列分位数回归分析。
操作路径是在一个分位数回归估计结果窗口,点击View键,选QuantileProcess/ProcessCoefficients功能。
定义系列分位数回归系数列向量为,
(15.27)
那么有
~
(15.28)
其中Ω由如下形式的块矩阵Ωij(km×km)组成:
(15.29)
i,j=1,2,…m.k为方程待估参数个数。
其中J的表达式见(4)式。
H的表达式见(15.19)或(15.20)式,取决于选择的估计方法。
特别的,当误差项独立同分布的假设成立时,Ω简化为:
(15.30)
其中Ω0中的元素如下:
(15.31)
i,j=1,2,…k.除了以上的方法以外,Ω的估计量还可以由任何一种自举方法得到。
(1)斜率相等检验
Koenker和Bassett(1982a)提出了一种对异方差很稳健的判断不同分位数回归方程斜率是否相等的检验。
零假设如下:
其中β1指常数项以外的解释变量所对应的(k-1)维参数列向量。
因此,零假设共含有(k-1)(m-1)个约束条件。
接下来构造Wald形式的统计量检验零假设是否成立,它渐近服从自由度为(k-1)(m-1)的χ2分布。
(2)对称性检验
将Newey和Powell(1987)检验最小二乘估计量对称性的方法扩展到分位数回归中。
假设我们要检验的分位数回归模型有m个,m是奇数,且中间值τ(m+1)/2是0.5,其他τ都关于0.5对称,即τj=1−τm-j+1,j=1,…,(m-1)/2。
参数估计量按照τk的大小排序。
那么对称性检验的零假设为:
(15.32)
其中j=1,…,(m−1)/2。
m是奇数,代表分位数回归个数。
即关于0.5对称的分位数回归参数估计量的两两平均值等于中位数回归参数估计量。
我们可以构造Wald形式的统计量检验上述k(m-1)/2个约束条件是否成立。
该统计量服从自由度为k(m−1)/2的χ2分布。
另外,Newey和Powell指出,如果我们已知随机误差项服从独立同分布,但不一定对称,那么我们只需检验常数项的对称性。
即
(15.33)
这时约束条件减少为(m-1)/2个。
θ
15.6分位数的计算与分位数回归的EViews操作
(1)分位数的计算
对一个离散的随机变量yt,取其容量为T的样本序列,计算第τ分位数的方法如下:
首先将数据从小到大排序,标号为i,i=1,2,…,T。
然后利用下表所列的方法计算随机变量yt的第τ分位数的排列序号的i;如果i为整数,那么随机变量yt的第τ分位数即为yi,如果i不是整数,那么随机变量yt的第τ分位数为:
y(τ)=y[i]+(i−[i])(y[i]+1−y[i])
其中[i]表示不大于i的最大整数。
给定一个具体的随机变量yt,对于一个容量为T的样本,那么yt的第τ分位数的序号i的计算方法如下。
在大样本情况下,各方法收敛到同一值。
Rankit
Ordinary
VanderWaerden
Blom
Tukey
Gumbel
(τ−1/2)/T
τ/T
τ/(T+1)
(τ−3/8)/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 位数 回归 张晓峒