第八章内生性及其来源.docx
- 文档编号:5684524
- 上传时间:2022-12-31
- 格式:DOCX
- 页数:14
- 大小:383.45KB
第八章内生性及其来源.docx
《第八章内生性及其来源.docx》由会员分享,可在线阅读,更多相关《第八章内生性及其来源.docx(14页珍藏版)》请在冰豆网上搜索。
第八章内生性及其来源
第八章内生性及其来源
在前一章中我们在大样本条件下,放松了误差服从正态分布的假设,以及误差为同方差的假设。
而且说明了完全共线性条件在大样本条件下很容易满足,通常不必特别担心这一条件是否满足。
当这几个假设被放松后,剩下的就是模型设定假设和自变量与误差同期相关假设这两个核心假设,如果某一自变量与误差同期相关,则称之为内生变量。
内生变量通常与模型设定密切相关,因此在这一章我们集中讨论这两个假设。
当自变量与误差同期相关这一假设不成立时,OLS估计是非一致的,因而是没有任何意义的。
而导致这一相关的根源很多,解决这一问题的办法也是多样的。
一、遗漏变量
从经济学最基本的成本收益角度来看教育,我们之所以决定再多上一年学,是因为上学的边际收益大于边际成本。
问题是,多上一年学会多增加多少收入呢?
你收集了很多人的上学年数和他们第一份工资,列出每个不同上学年数对应的平均工资,相邻工资的差距就是多受一年教育的回报吗?
似乎对,但实际上却不对。
想想发生在我们身边的很多故事,一个上过很多年学的人最后却学成了书呆子(我姥爷就给我讲过他亲眼所见的一个故事,村里有一个人上了12年长学,却越学越呆,有一次他穿的棉衣着火了,他在田野奔走呼号,却不知道躺下来就地打个滚),另一方面,也有许多没有读过多少书的人成了大老板。
他们成功是因为他们本来能力就强,上不上学他们都可以成功。
在一个人的收入决定中,能力与教育一样是非常重要的因素。
更重要的是,能力(或天赋)也是决定受教育程度很重要的因素,同样的知识,天赋高的人学起来很快很轻松,也不需要留级,因此能以更低的成本获得更高的教育。
从上面的故事中,我们看到,能力同时导致人们的教育水平高和收入更高。
这意味着,也许上不上学本无所谓,或者说教育可能没有发挥真正的作用,即使发挥作用也许没有将所有收入差异归因于教育所导致的那么大的作用。
有一个笑话甚至说,办一所名校的唯一要求是,招最优异的学生,然后让老师们远离他们。
以上的逻辑,可以用数学思维表述如下,其中y可以被假想为收入,x为教育,而z为能力。
*===========================begin==============================
*遗漏变量:
被遗漏的变量与其他解释变量相关
captprogdrop_all
progbb
drop_all
drawnormx1x2x3x4,n(100)means(m)cov(sd)
gu=3*invnorm(uniform())
gy=12+5*x1+10*x2+3*x3+x4+u
quietlyregyx2x3x4//能力x1被遗漏
end
simulate_b,reps(200) :
bb
sum//当存在遗漏变量时,OLS估计量是有偏的
*遗漏变量:
被遗漏的变量与所有的其他解释变量均不相关
captprogdrop_all
progbb
drop_all
drawnormx1x2x3x4,n(100)means(m)cov(sd)
gu=invnorm(uniform())
gy=12+5*x1+10*x2+3*x3+x4+u
quietlyregyx1x2x3//相貌x4被遗漏
end
simulate_b,reps(200):
bb
sum//当被遗漏变量与其他自变量均不相关时,OLS估计量是无偏的
*===========================end===============================
二、函数形式误设
因为
和
的总体联合分布是客观存在的,所以
的取值就是客观决定的,不是我们可以左右的。
因此,要使
最小,就要使
至此,我们得到一个非常重要的结论:
我们所寻找的最佳的函数形式是
关于
的条件期望
。
因为这一结论来自对总体的直接回归,所以
又叫作总体回归函数,即PRF。
在
两边取关于
的条件期望,得到
即“零条件均值假设”可以保证
g(x)的形式确实就是
。
然而,
的具体形式到底是怎样的呢?
上面说过,
和
的总体联合分布是客观存在的,所以
的具体形式也就是确定的。
如果我们非常幸运地知道
和
的总体联合分布的信息,我们也就可以确定地写出
的确切形式,我们的任务也就彻底完成了。
不幸的是,我们很难知道两者的确切函数形式。
为了直观地看到模型误设会导致什么后果,我们来看下面的模拟案例。
当模型正确设定假设不成立时,即使其他假设均成立,且样本很大,OLS估计量也是有偏的,不一致的。
*===========================begin====================================
*函数形式误设
captprogdrop_all
progbb
drop_all
drawnormx1x2x3x4,n(100)means(m)cov(sd)
gu=invnorm(uniform())
gy=12+5*x1+10*x2+5*x2^2+3*x3+x4+u
quietlyregyx1x2x3x4//误将平方项遗漏
end
simulate_b,reps(200) :
bb
sum_b_z//当函数形式误设时,OLS估计量是有偏的,不一致的
*设定检验
drawnormx1x2x3x4,n(100)means(m)cov(sd)
gu=invnorm(uniform())
gy=12+5*x1+10*x2+5*x2^2+3*x3+x4+u
quietlyregyx1x2x3x4//误将平方项遗漏
ovtest//设定检验
ovtest,rhs
gz=x2^2
regyx1x2zx3x4//正确的形式
*===========================end=====================================
三、测量误差
因变量的测量误差如果与自变量不相关,则OLS估计具有良好的性质,是无偏和一致的,否则将是有偏的,不一致的。
仍然以教育与收入的关系为例,对收入的调查通常是非常困难的,真实的收入可能永远是个迷,我们能收集到的只能是受访者自报收入,自报收入与真实收入之间存在测量误差,而且这个测量误差往往与教育水平相关,如教育水平越低,越可能算不清楚他的收入。
还可能因为收入越高的人,他回忆的误差越大(比如收入来源太多),而收入越高的人,通常更可能是教育水平较高的人。
上述两种相关都会导致无法得到一致估计。
自变量的测量误差分两种情形,一种涉及到测量误差与观测值之间的相关性,另一种涉及到测量误差与真实值之间的相关性。
第一种情形:
测量值与测量误差不相关。
例如,y为学习成绩,x为旷课次数,当一个人很少旷课时,他所报告的旷课次数更准确,相反,随着旷课次数的增多,他能够准确回忆并报告其次数的可能性也下降,因此测量误差与报告结果存在正相关。
第二种情形,如果测量误差与观测不到的变量无关,则测量误差必然与测量值相关。
四、联立因果
联立因果关系普遍存在,尤其是在经济学的经典供求关系中。
实际上,经济学中的供给方程和需求方程都只是我们的一个理论抽象,真实世界中是不存在的,我们能从真实世界中观察到的价格和供需量都只有一个,即均衡价格和均衡供需量。
利用这样的均衡供需量对均衡价格进行估计,试问,我们究竟估计的是需求方程呢还是供给方程呢?
估计系数是正还是负呢?
因为供给方程和需求方程的系数正好是一正一负,那么是否意味着,我们可以根据估计结果来判断是供给方程还是需求方程?
实际上,这种估计即非供给方程也非需求方程,我们可以证明,采用均衡数据对单一供给方程或需求方程进行估计,都无法得到一致的估计结果。
五、样本选择偏误
样本选择的例子
假设有个行为古怪且无聊的大享,拿出1亿元和你玩左轮枪,可装6发子弹的弹夹装有1发,然后对准你头扣动扳机,每次扣动扳机称为一段历史,共有6段历史,每段的概率相同,其中有5段历史会使你成为亿万富翁,另一段则是一则讣告。
问题是你只能观察到一段历史,而且会有一些白痴记者对1000万美元的赢家赞誉有加。
转盘的赢家,被家人、朋友和邻居当做模范对象。
如果一个从25岁开始赌转盘的傻瓜一直玩下去,他活到50岁的机会十分渺茫。
但是如果有很多人,比如1万人都在玩这个游戏,将会有少数人能够活到50岁并且极其富有,其他人则已成为一堆黄土。
现实生活比左轮手枪邪恶多了,它不仅常常射出要命的子弹,而且其弹夹可以装成百上千发,试过几十次后,我位便忘记了里面还有一颗要命的子弹,误以为自己很安全。
赌徒、投资人和决策者总是觉得,发生在别人身上的事情,不见得会发生在他们身上。
借助蒙特卡罗发生器,虚构一万个投资经理人,假设他们每个人的赚赔概率恰好各半,年底时每个人都有50%的概率赚到1万美元,50%的概率赔掉1万美元。
赔掉的则被从样本中剔除,这样到第5年的时候还有313位留下来。
这纯粹是靠运气得来的。
如果这些经理能力在平均水平以下,即有55%的概率赔掉,则第5年时仍有184人会成为众所瞩目的焦点,有响亮的头衔,这些存活下来的经理人只点原始群体的2%,没有人会提另外的98%。
在某个市场中,绩效记录杰出的经理人的多寡,主要取决于当初选择这一行的人数目,至于他们个别人的获利能力,影响则没有那么大。
为什么使用极大值期望值的概念?
因为我根本不关心平均绩效记录,我能看到的只会是表现最好的经理人,不是所有的经理人。
每个人都认为自己的成功全凭实力,毫无侥幸,只有失败时才会认为是机运使然。
存活着偏差取决于原始群体的大小,一个人过去赚到钱这个信息,本身既无意义而且也不重要。
当随机抽样假设不成立时,即使其他假设均成立,且样本很大,OLS估计量也是有偏的,不一致的。
v非随机抽样
*===========================样本选择=============================
drop_all
drawnormx2x3x4,n(1000)means(m)cov(sd)
gu=3*invnorm(uniform())
gy=5*x1+10*x2+3*x3+x4+u/*正确的函数形式*/
sorty
keepin1/50/*样本是非随机抽取的,随机抽样假设不满足*/
regyx1x2x3x4/*真实值10是否在95%置信区间内*/
*===========================end====================================
v异常值的影响
*================异常值===========begin==================
drop_all
drawnormx2,n(1000)
gu=9*invnorm(uniform())
gy=-5+10*x2+u/*正确的函数形式*/
replacey=-10000in100
regyx2/*真实值10是否在95%置信区间内*/
rregyx2
*===========================end====================================
v断尾
本来服从正态分布的随机变量y,由于小于零的数据不可获取,则其经验分布不再是正态分布。
clear
drawnormx,n(1000)//生成服从正态分布的随机变量x
gz=x//得到与X相等的随机变量z
replacez=.ifz<0//假设只能观察到大于零的z值。
tw(kdensityx)(kdensityz),xline(0)
gf=normalden(z)/(1-normal(0))//纠正后的分布
tw(kdensityx)(kdensityz)(linefx,sort),xline(0)///
legend(label(1标准分布)label(2样本分布)label(3纠正后分布)row
(1))
条件分布情形
显然用观察到的y*对自变量X做OLS回归,所得到的估计量将是有偏的,因为除了线性项,还有一个
的非线性项,只有同时考虑这两项,才能得到
的一致估计。
clear
matrixm=(1,2,3,4)
drawnormx1-x4,n(1000)m(m)//条件分布
gn=_n
reshapelongx,i(n)j(m)
gy=x
replacey=.ify<2.5//大于4的样本被断尾
gf=normalden(y,m,1)/(1-normal(2.5-m))//纠正办法
tw(kdensityx)(linefx,sort)(kdensityy),by(m)xline(2.5)///
legend(label(1标准分布)label(2样本分布)label(3纠正后分布)row
(1))
断尾
*================truncatedmodel===========begin==================
drop_all
drawnormx2,n(1000)
gu=9*invnorm(uniform())
gy=-5+10*x2+u/*正确的函数形式*/
dropify<0
regyx2/*真实值10是否在95%置信区间内*/
truncregyx2,ll(0)
*===========================end====================================
截取
如果小于特定值的因变量完全观察不到,称为断尾。
另一种情形是,小于特定值的因变量虽然观察不到,但是可以用一个值(比如0)来替代,而相应的自变量是可观察到的。
比如对于哪些没有工作的人来说,其工资收入为零,但是其教育水平、年龄等这些数据是可以获取的。
这种数据看上去好象被裁剪过一样,因此又就截取数据。
clear
drawnormx,n(1000)
gy=x
replacey=0ify<0
gf=normalden(y)ify>0//纠正办法
tw(kdensityx)(kdensityy)(linefx,sort),xline(0)///
legend(label(1标准分布)label(2样本分布)label(3纠正后分布)row
(1))
截取
*================sensoredmodel===========begin==================
drop_all
drawnormx2,n(1000)
gu=9*invnorm(uniform())
gy=-5+10*x2+u/*正确的函数形式*/
replacey=0ify<0
regyx2/*真实值10是否在95%置信区间内*/
truncregyx2,ll(0)
*===========================end====================================
六、如何处理内生性偏误概述
(一)多元回归控制
(二)代理变量
(一)面板数据
设想y为体重,x为减肥药,
(四)工具变量估计
(五)随机化试验和准试验
通过试验控制使得E(xu)=0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 生性 及其 来源