Lecture-7-Static-Panels-高级计量经济学及Stata应用课件.pptx
- 文档编号:30851473
- 上传时间:2024-02-16
- 格式:PPTX
- 页数:61
- 大小:397.66KB
Lecture-7-Static-Panels-高级计量经济学及Stata应用课件.pptx
《Lecture-7-Static-Panels-高级计量经济学及Stata应用课件.pptx》由会员分享,可在线阅读,更多相关《Lecture-7-Static-Panels-高级计量经济学及Stata应用课件.pptx(61页珍藏版)》请在冰豆网上搜索。
Lecture7StaticPanels高级计量高级计量经济学及经济学及Stata应用课件应用课件2024/2/16陈强计量及Stata应用(c)20142面板数据面板数据(paneldata或longitudinaldata,也译为“平行数据”),指的是在一段时间内跟踪同一组个体(individual)的数据。
它既有横截面的维度(n位个体),又有时间维度(T个时期)。
2024/2/16陈强计量及Stata应用(c)201432024/2/16陈强计量及Stata应用(c)20144面板数据的分类通常的面板数据T较小,而n较大,在使用大样本理论时让n趋于无穷大。
这种面板数据被称为“短面板短面板”(shortpanel)。
反之,如果T较大,而n较小,则被称为“长面板长面板”(longpanel)。
在面板模型中,如果解释变量包含被解释变量的滞后值,则称为“动态面板动态面板”(dynamicpanel);反之,则称为“静静态面板态面板”(staticpanel)。
如果在面板数据中,每个时期在样本中的个体完全一样,则称为“平衡面板数据平衡面板数据”(balancedpanel);反之,则称为“非平衡面板数据非平衡面板数据”(unbalancedpanel)。
2024/2/16陈强计量及Stata应用(c)20145面板数据的优点解决遗漏变量问题解决遗漏变量问题:
遗漏变量常常是由于不可观测的个体差异或“异质性”(heterogeneity)造成的,如果这种个体差异“不随时间而改变”(timeinvariant),则面板数据可解决遗漏变量问题。
提供更多个体动态行为的信息提供更多个体动态行为的信息:
比如,考虑如何区分规模效应与技术进步对企业生产效率的影响。
对于截面数据,由于没有时间维度,故无法观测到技术进步。
而对于单个企业的时间序列数据来说,无法区分其生产效率的提高究竟有多少是由于规模扩大,有多少是由于技术进步。
面板数据的样本容量较大面板数据的样本容量较大2024/2/16陈强计量及Stata应用(c)20146面板数据的估计策略估计面板数据的一个极端策略是将其看成是截面数据而进行混合回归(pooledregression),即要求样本中每位个体都拥有完全相同的回归方程。
另一极端策略则是,为每位个体估计一个单独的回归方程。
前者忽略了个体间不可观测或被遗漏的异质性(heterogeneity),而该异质性可能与解释变量相关从而导致估计不一致。
后者则忽略了个体间的共性,也可能没有足够大的样本容量。
实践中常采用折衷的估计策略,即假定个体的回归方程拥有相同的斜率,但可有不同的截距项,以此来捕捉异质性。
2024/2/16陈强计量及Stata应用(c)201472024/2/16陈强计量及Stata应用(c)20148个体效应模型个体效应模型(individual-specificeffectsmodel):
为不随时间而变(timeinvariant)的个体特征(即);可随个体及时间而变(time-varying)。
扰动项由两部分构成,称为“复合扰动项”(compositeerrorterm),其中,是代表个体异质性的截距项。
2024/2/16陈强计量及Stata应用(c)20149固定效应与随机效应模型如果与某个解释变量相关,则进一步称之为“固定效应模型”(FixedEffectsModel,简记FE)。
在这种情况下,OLS是不一致的。
解决的方法是将模型转换,消去后获得一致估计量。
如果与所有解释变量均不相关,则进一步称之为“随机效应模型”(RandomEffectsModel,简记RE)。
2024/2/16陈强计量及Stata应用(c)201410混合回归如果所有个体的方程都相同,则模型可写为:
把所有数据放在一起,像对待横截面数据那样进行OLS回归,称为“混合回归”(pooledregression)。
虽可假设不同个体的扰动项相互独立,但同一个体在不同时期的扰动项之间存在自相关。
故应使用聚类稳健的标准误(cluster-robuststandarderror),而聚类由每位个体不同期的观测值组成。
2024/2/16陈强计量及Stata应用(c)201411固定效应模型对于固定效应模型,给定个体i,将方程两边对时间取平均可得:
将原方程减去平均后的方程可得离差模型:
上式中已将消去,故可用OLS一致地估计,称为“固定效应估计量”(FixedEffectsEstimator)。
由于主要使用组内离差信息,也称“组内估计量”(withinestimator)。
2024/2/16陈强计量及Stata应用(c)201412LSDV法如果在原方程中引入(n-1)个虚拟变量(如果没有截距项,则引入n个虚拟变量)来代表不同的个体,则可以得到与上述离差模型同样的结果。
因此,FE也被称为“最小二乘虚拟变量模型”(LeastSquareDummyVariableModel,简记LSDV)。
正如线性回归与离差形式的回归是等价的。
缺点:
如果n很大,须引入很多虚拟变量,可能超出计量软件(比如Stata)所允许的解释变量个数。
2024/2/16陈强计量及Stata应用(c)201413一阶差分估计量对于固定效应模型,可对方程两边进行一阶差分,以消去个体效应:
对此差分形式的方程使用OLS即得到“一阶差分估计量”(FirstDifferencingEstimator)。
一阶差分估计量不如组内估计量有效率;但广泛用于动态面板模型中。
2024/2/16陈强计量及Stata应用(c)201414时间固定效应个体固定效应模型解决了不随时间而变(timeinvariant)但随个体而异的遗漏变量问题。
类似地,引入时间固定效应,则可解决不随个体而变(individualinvariant)但随时间而变(timevarying)的遗漏变量问题。
假设模型为其中,St不可观测。
定义,则2024/2/16陈强计量及Stata应用(c)201415时间固定效应(续)在上式中,可将视为第t期独有的截距项,并将其解释为“第t期”对被解释变量y的效应。
因此,称为“时间固定效应”(timefixedeffects)。
使用LSDV法,即对每个时期定义一个虚拟变量,然后把(T-1)个时间虚拟变量包括在回归方程中(未包括的时间虚拟变量即为基期):
2024/2/16陈强计量及Stata应用(c)201416双向与单向固定效应如果既考虑个体固定效应,又考虑时间固定效应,则称为“双向固定效应”(Two-wayFE)。
如果仅考虑个体固定效应,未考虑时间固定效应,则称为“单向固定效应”(One-wayFE)。
2024/2/16陈强计量及Stata应用(c)201417随机效应模型随机效应模型假设与解释变量均不相关,故OLS是一致的。
但由于扰动项由组成,不是球型扰动项(协方差矩阵为块对角矩阵),故OLS不是最有效率的。
广义最小二乘法(GeneralizedLeastSquare,GLS)最有效率。
GLS的特例为加权最小二乘法(WeightesLeastSquare,WLS)。
2024/2/16陈强计量及Stata应用(c)201418加权最小二乘法(WLS)2024/2/16陈强计量及Stata应用(c)201419RE估计量与MLE估计量使用广义最小二乘法(FGLS)来估计原模型,即得到“随机效应估计量”(RandomEffectsEstimator)其中,是的一致估计量(Stata记为theta)也可假设扰动项正态,进行MLE估计。
2024/2/16陈强计量及Stata应用(c)201420究竟使用固定效应还是随机效应希望检验原假设“与解释变量均不相关”(即随机效应模型为正确模型)。
无论原假设成立与否,FE都是一致的。
但如果原假设成立,则RE比FE更有效。
如果原假设不成立,则RE不一致。
因此,如果原假设成立,则FE与RE估计量将共同收敛于真实的参数值,故。
反之,如果二者差距过大,则倾向于拒绝原假设。
2024/2/16陈强计量及Stata应用(c)201421豪斯曼检验豪斯曼检验的统计量为K为的维度,即随时间而变的解释变量个数。
如果该统计量大于临界值,则拒绝原假设。
异方差稳健的豪斯曼检验传统的豪斯曼检验假设在成立的情况下,是最有效率的(fullyefficient)。
但如果扰动项存在异方差,则并非最有效率量;故不适用于异方差的情形。
方法一,通过自助法(bootstrap)来计算。
方法二,进行辅助回归(Wooldridge,2010),使用聚类稳健标准误来检验原假设“”。
此检验在异方差情况下也适用。
2024/2/16陈强计量及Stata应用(c)201422异方差稳健的豪斯曼检验(续)总可以把原模型变换为随机效应的估计方程:
故在上页的公式中,。
如果随机效应模型成立,则OLS一致,故如果固定效应模型成立,扰动项与相关,OLS不一致,即。
拒绝“”,则拒绝随机效应,接受固定效应。
2024/2/16陈强计量及Stata应用(c)2014232024/2/16陈强计量及Stata应用(c)201424非平衡面板非平衡面板数据并不影响计算离差形式的组内估计量(withinestimator),故固定效应模型的估计可以照样进行。
对于随机效应模型而言,非平衡面板数据也没有实质性影响,依然可进行GLS估计。
非平衡面板可能出现的最大问题是,那些原来在样本中但后来丢掉的个体,如果其“丢掉”的原因是内生的(即与扰动项相关),则会导致样本不具有代表性(不再是随机样本),从而导致估计量不一致。
比如,低收入人群更易从面板数据中丢掉。
2024/2/16陈强计量及Stata应用(c)201425在Stata中设定面板数据设定面板数据的Stata命令为xtsetpanelvartimevar命令“xtset”告诉Stata你的数据为面板数据,其中面板(个体)变量“panelvar”的取值必须为整数且不重复,相当于把样本中每位个体进行编号;而“timevar”为时间变量。
假如“panelvar”本来是字符串(比如,国家名字country),则可用以下命令将其转换为数字型变量:
encodecountry,gen(cntry)变量cntry就以“1,2,3,”来指代不同的国家。
2024/2/16陈强计量及Stata应用(c)201426显示面板数据统计特性的Stata命令xtdes(显示面板数据的结构,是否为平衡面板)xtsum(显示组内、组间与整体的统计指标)xttabvarname(显示组内、组间与整体的分布频率,tab指的是tabulate)xtlinevarname(对每个个体分别显示该变量的时间序列图;如果希望将所有个体的时间序列图叠放在一起,可加上选择项overlay)2024/2/16陈强计量及Stata应用(c)201427例:
交通死亡率以数据集“traffic.dta”为例。
该面板数据集包含了美国48个州1982-1988年“交通死亡率”(trafficfatalityrates)的相关变量:
fatal(交通死亡率),beertax(啤酒税),spircons(酒精消费量),unrate(失业率),perinck(人均收入,以千元记),state(州),year(年)。
2024/2/16陈强计量及Stata应用(c)201428设定面板数据设定state与year为面板(个体)变量及时间变量:
usetraffic.dta,clearxtsetstateyear上表显示,这是一个平衡的面板数据。
2024/2/16陈强计量及Stata应用(c)201429显示数据集的结构xtdes2024/2/16陈强计量及Stata应用(c)201430显示变量的统计特征xtsumfatalbeertaxspirconsunrateperinckstateyear2024/2/16陈强计量及Stata应用(c)201431被解释变量在48个州的时间趋势图xtlinefatal2024/2/16陈强计量及Stata应用(c)201432解读时间趋势图从上图可以看出,不同州的交通死亡率(fatal)的时间趋势不尽相同。
有些州很平稳(比如,佛罗里达州,FL),有些州呈下降趋势(比如,俄克拉何马州,OK),而有些州则为上升趋势(比如,南卡罗来纳州,SC)。
在一定程度上,交通死亡率的州际差异有助于估计决定交通死亡率的因素。
2024/2/16陈强计量及Stata应用(c)201433混合回归作为参照系,首先进行混合回归。
其Stata命令的基本格式为regyx1x2x3,vce(clusterid)其中,“id”指用来确定每位个体的变量。
regfatalbeertaxspirconsunrateperinck,vce(clusterstate)选择项“vce(clusterstate)”表示,使用以“state”为聚类变量的聚类稳健标准误聚类稳健标准误。
2024/2/16陈强计量及Stata应用(c)2014342024/2/16陈强计量及Stata应用(c)201435对比(异方差)稳健标准误regfatalbeertaxspirconsunrateperinck,r2024/2/16陈强计量及Stata应用(c)201436对比(普通)标准误regfatalbeertaxspirconsunrateperinck2024/2/16陈强计量及Stata应用(c)201437固定效应的Stata命令由于每个州的“州情”不同,可能存在不随时间而变的遗漏变量,故考虑使用固定效应模型(FE)。
固定效应模型的Stata命令基本格式为xtregyx1x2x3,fer其中,选择项“r”表示使用聚类稳健标准误;使用选择项“vce(clusterid)”也能达到同样效果。
“id”表示用来确定个体的变量。
LSDV法的Stata命令为regyx1x2x3i.id,vce(clusterid)其中,“i.id”表示根据变量“id”而生成的虚拟变量。
2024/2/16陈强计量及Stata应用(c)201438组内估计量xtregfatalbeertaxspirconsunrateperinck,fer结果见下页2024/2/16陈强计量及Stata应用(c)2014392024/2/16陈强计量及Stata应用(c)201440混合回归versus固定效应模型在使用命令“xtreg,fe”时,如果不加选择项“r”,则输出结果还包含一个F检验,其原假设为“”,即可以接受混合回归:
xtregfatalbeertaxspirconsunrateperinck,fe2024/2/16陈强计量及Stata应用(c)2014412024/2/16陈强计量及Stata应用(c)201442解读由于上表最后一行F检验的p值为0.0000,故强烈拒绝原假设,即认为FE明显优于混合回归,应该允许每个个体拥有自己的截距项。
然而,由于未使用聚类稳健标准误,故这个F检验并不有效,因为普通标准误大约只是聚类稳健标准误的一半。
进一步通过LSDV法来考察:
2024/2/16陈强计量及Stata应用(c)201443LSDV法regfatalbeertaxspirconsunrateperincki.state,vce(clusterstate)estimatesstoreLSDV结果见下页2024/2/16陈强计量及Stata应用(c)2014442024/2/16陈强计量及Stata应用(c)201445解读从上表可知,大多数个体虚拟变量均很显著(p值为0.000),故可放心地拒绝“所有个体虚拟变量都为0”的原假设,即认为存在个体效应,不应使用混合回归。
2024/2/16陈强计量及Stata应用(c)201446双向固定效应也可在固定效应模型中考虑时间效应,即双向固定效应(Two-wayFE)。
为此,定义年度虚拟变量:
tabyear,gen(year)此命令将在Stata的变量窗口生成时间虚拟变量year1,year2,year7。
2024/2/16陈强计量及Stata应用(c)201447双向固定效应(续)xtregfatalbeertaxspirconsunrateperinckyear2-year7,fer2024/2/16陈强计量及Stata应用(c)201448时间效应的显著性year1(即1982年)作为基期(对应于常数项_cons),不包括在上述命令中。
时间效应的符号均为负,但有些年度虚拟变量显著,而有些不显著。
下面检验所有年度虚拟变量的联合显著性:
testyear2year3year4year5year6year72024/2/16陈强计量及Stata应用(c)201449双向固定效应(续2)还可以直接用以下命令来估计双向固定效应模型(不必生成时间虚拟变量):
xtregfatalbeertaxspirconsunrateperincki.year,fer2024/2/16陈强计量及Stata应用(c)2014502024/2/16陈强计量及Stata应用(c)201451随机效应的Stata命令以上结果已基本确认了个体效应的存在,但个体效应仍可能以随机效应(RE)的形式存在。
随机效应的Stata命令为xtregyx1x2x3,rer(随机效应GLS)xtregyx1x2x3,mle(随机效应MLE)选择项“r”表示使用聚类稳健标准误;使用选择项“vce(clusterid)”也能达同样效果。
2024/2/16陈强计量及Stata应用(c)201452随机效应估计xtregfatalbeertaxspirconsunrateperinck,rer结果见下页2024/2/16陈强计量及Stata应用(c)2014532024/2/16陈强计量及Stata应用(c)201454检验是否存在个体随机效应xttest0LM检验拒绝“不存在个体随机效应”的原假设,在“随机效应”与“混合回归”二者之间,应选择随机效应。
2024/2/16陈强计量及Stata应用(c)201455随机效应MLE估计xtregfatalbeertaxspirconsunrateperinck,mlenolog结果见下页2024/2/16陈强计量及Stata应用(c)2014562024/2/16陈强计量及Stata应用(c)201457固定效应vs.随机效应豪斯曼检验的Stata命令如下:
xtregyx1x2x3,fe(固定效应估计)estimatesstoreFE(存储结果)xtregyx1x2x3,re(随机效应估计)estimatesstoreRE(存储结果)hausmanFERE,constantsigmamore(豪斯曼检验)选择项“constant”表示在比较系数估计值时包括常数项(默认设置不包括常数项),“sigmamore”表示统一使用更有效率的那个估计量(即随机效应估计量)的方差估计。
2024/2/16陈强计量及Stata应用(c)201458豪斯曼检验quixtregfatalbeertaxspirconsunrateperinck,feeststoFEquixtregfatalbeertaxspirconsunrateperinck,reeststoREhausmanFERE,constantsigmamore2024/2/16陈强计量及Stata应用(c)201459异方差稳健的豪斯曼检验下载非官方命令xtoverid直接进行辅助回归。
“overid”指过度识别检验(overidentificationtest),因为随机效应模型与固定效应模型相比,前者多了“个体异质性与解释变量不相关”的约束条件,可视为过度识别条件。
使用xtoverid之前,须以稳健标准误执行命令“xtreg,re”sscinstallxtoverid(下载安装命令xtoverid)quietlyxtregfatalbeertaxspirconsunrateperinck,rerxtoverid2024/2/16陈强计量及Stata应用(c)201460解读p值为0.0000,故强烈拒绝随机效应的原假设。
命令xtoverid也适用于非平衡面板。
2024/2/16陈强计量及Stata应用(c)201461
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Lecture Static Panels 高级 计量 经济学 Stata 应用 课件