第14章受限被解释变量.docx
- 文档编号:2163552
- 上传时间:2022-10-27
- 格式:DOCX
- 页数:10
- 大小:230.68KB
第14章受限被解释变量.docx
《第14章受限被解释变量.docx》由会员分享,可在线阅读,更多相关《第14章受限被解释变量.docx(10页珍藏版)》请在冰豆网上搜索。
第14章受限被解释变量
©陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。
第14章受限被解释变量
被解释变量的取值范围有时受限制,称为“受限被解释变量"(LimitedDependentVariable)。
14.1断尾回归
对线性模型,假设只有满足的数据才能观测到。
例:
为所有企业的销售收入,而统计局只收集规模以上企业数据,比如。
被解释变量在100,000处存在“左边断尾"。
断尾随机变量的概率分布
随机变量y断尾后,其概率密度随之变化。
记y的概率密度为,在c处左边断尾后的条件密度函数为
ﻩ
由于概率密度曲线下面积为1,故断尾变量的密度函数乘以因子。
图14.1断尾的效果
断尾分布的期望也发生变化.以左边断尾为例.
对于最简单情形,,可证明(参见附录)
ﻩﻩ
对于任意实数c,定义“反米尔斯比率”(Inverse Mill’s Ratio,简记IMR)为
则。
图14.2 反米尔斯比率
对于正态分布,定义,则。
故
ﻩﻩ
对于模型,,则,故
ﻩﻩ
如果用OLS估计,则遗漏了非线性项,与相关,导致OLS不一致。
参见图14。
3。
总体回归线为,而样本回归线为.
图14。
3断尾回归示意图
使用MLE可得到一致估计。
断尾前的概率密度:
样本被观测到的概率:
ﻩ
断尾后的条件密度:
ﻩﻩ
14。
2零断尾泊松回归与负二项回归
计数数据有时仅包括正整数,不包括取值为0的观测值,称为“零断尾”(zero-truncated)。
例:
在商场发放问卷调查,研究消费者每周去商场的次数。
例:
在公交车上发放问卷调查,研究乘车者每周坐公交的次数。
如果不对似然函数进行调整,将得不到一致估计.
记为y的概率函数,而为cdf。
如果存在零断尾,则断尾后的概率函数为
ﻩ
如果y服从泊松分布,则
进行MLE估计,得到“零断尾泊松回归”(zero—truncated Poissonregression)。
如果y服从负二项分布(NB1或NB2),可进行“零断尾负二项回归"(zero—truncatednegativebinomial regression)。
14.3 随机前沿模型(选读)
14。
4偶然断尾与样本选择
被解释变量的断尾有时与另一变量有关,称为“偶然断尾”(incidentaltruncation)或“样本选择"(sampleselection)。
称为选择变量。
例在美国的亚裔移民给人的整体印象是聪明能干.但在美国的亚裔并非亚洲人口的代表性样本。
通常只有受过高等教育或具有吃苦冒险精神的亚裔才会“自我选择”(selfselection)移民。
决定移民与否的变量便对被解释变量产生了断尾作用,故“样本选择”将导致“选择性偏差”(selectionbias)。
例 妇女劳动力供给模型:
劳动时间方程
工资方程
表示offeredwage,表示reservationwage。
如果,则选择不工作,无法观测到劳动时间(hours),造成劳动时间方程的偶然断尾与样本选择问题。
ﻬ考虑二维正态随机向量,记期望为,标准差为,相关系数为,联合密度函数为。
假设个体进入样本的“选择机制”(selectionmechanism)为“选择变量z大于某常数c”。
比如,在妇女劳动力供给例子中,,而.
断尾后的联合分布:
ﻩ
偶然断尾y的条件期望:
ﻩﻩ
为反米尔斯比率(IMR)函数。
如果(y与z相互独立),则z的选择过程并不对y产生影响。
如果(即y与z正相关),则“”偶然断尾的结果是把y的整个分布推向右边(因为),从而使得条件期望大于无条件期望.
在“”条件下,偶然断尾y的条件期望为ﻩﻩ
ﻫ ﻩ
假设回归模型为.
是否可观测取决于选择变量(取值为0或1)
ﻩ
决定二值变量的方程为ﻩ
为不可观测的潜变量。
假设服从正态分布,则为Probit模型,故。
可观测样本的条件期望:
ﻩ
ﻩﻩﻩ
ﻩﻩﻩ
其中,,并将Probit扰动项的标准差标准化为1。
OLS估计,将遗漏非线性项.
如与相关,则OLS不一致,除非“”(即y与z不相关).
解释变量的边际效应:
右边第一项为直接影响,第二项是通过改变个体进入样本可能性而产生的间接影响(即选择性偏差)。
如知道,就知道,可把它作为解释变量引入回归方程。
Heckman(1979)提出“两步估计法”,也称“Heckit"。
第一步:
用Probit估计方程,得到估计值,计算.
第二步:
用OLS回归,得到估计值。
更有效率的方法是MLE。
在两步法中,第一步误差被带入第二步,效率不如MLE的整体估计。
两步法的优点在于,操作简便;对于分布的假设也更弱(即使不假设二维正态分布,也可能成立)。
为检验是否存在样本选择偏差(sample selectionbias),可使用似然比检验来检验原假设“”。
如使用Heckit,无法进行此LR检验。
14。
5 归并回归
对于线性模型,当(或)时,所有都被归并为c,称为“归并数据”(censored data)。
例(上不封顶的数据,top coding)在问卷调查中,常有诸如“收入在¥50,000及以上”这样的选项。
例(边角解)考虑买车的决定,并考察“买车开支”这个变量。
如果不买车,则“买车开支"的最优解为边角解,即买车开支为0;反之,如果买车,则买车开支一定为正数.
例 (边角解)考察“劳动时间”这个变量。
对于失业或待业者而言,“劳动时间”的最优解为边角解,即劳动时间为0;而就业者的劳动时间一定为正数。
归并回归(censoredregression)与断尾回归不同的是,虽有全部观测数据,但某些数据的被压缩在一个点上.
的概率分布就变成由一个离散点与一个连续分布所组成的混合分布(mixeddistribution)。
假设(不可观测),,归并点为。
假设可观测到:
如使用满足条件“”的子样本,将导致断尾,出现偏差,因为
ﻩ (给定,必然)
ﻩ由于忽略非线性项,导致扰动项与相关,故OLS不一致。
对于整个样本,ﻩ
ﻩ
其中,
是解释变量的非线性函数。
如果使用OLS对整个样本进行回归,非线性项将被纳入扰动项中,导致不一致估计。
Tobin(1958)提出用MLE估计这个模型,称为“Tobit”。
在归并数据情况下,时的概率密度依然不变,仍为
时的分布被挤到“"上,即
该混合分布的概率密度为
Tobit模型的缺陷是对分布的依赖性强,不够稳健。
如果似然函数不正确(扰动项不服从正态分布或存在异方差),则QMLE估计不一致.
使用Tobit模型时,需要检验正态性与同方差性。
为了检验正态性,可将Tobit模型的MLE一阶条件视为某种矩条件,并基于此进行“条件矩检验”(conditional momenttest)。
但条件矩统计量的真实分布与渐近分布有相当差距,存在较严重的显著性水平扭曲,故使用“参数自助法”来获得校正的临界值。
为了检验同方差的原假设“”,考虑替代假设“”,其中通常等于解释变量(也可不同)。
然后通过辅助回归,构建LM统计量来检验,参见CameronandTrivedi(2010,p。
550)。
如果发现扰动项不服从正态分布或存在异方差,解决方法之一为使用更稳健的“归并最小绝对离差法”(CensoredLeast AbsoluteDeviations,简记CLAD)。
CLAD法仅要求扰动项为iid,即使在非正态与异方差情况下也一致,且在一定正则条件下,服从渐近正态分布。
将归并数据模型简洁地写为
如果,则;反之,。
CLAD法的目标函数为离差绝对值之和:
ﻩﻩ
选择使得离差绝对值之和最小化,即可得到CLAD估计量.
14.6 归并数据的两部分模型(选读)
14。
7含内生解释变量的Tobit模型 (选读)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 14 受限 解释 变量