stata学习笔记.docx
- 文档编号:26283071
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:39
- 大小:965.64KB
stata学习笔记.docx
《stata学习笔记.docx》由会员分享,可在线阅读,更多相关《stata学习笔记.docx(39页珍藏版)》请在冰豆网上搜索。
stata学习笔记
经济数据的特点与类型。
1、横截面数据:
多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP
2、时间数列数据:
指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP
3、面板数据:
多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP
小样本OLS(最小二乘法):
单一方程线性回归最常见方法
条件:
解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:
衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:
对回归方程扰动项的具体概率进行假设
显著性水平进行检验
F检验:
整个回归方程是否显著
STATA操作简介:
如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gennewvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gennewvar=monthly(varname,YM)。
.describe:
数据的概貌.dropkeep:
删除和保留
.su:
统计特征Pwcorr:
变量之间相关系数
Star(.05):
5%显著性水平gen:
产生
gintc=log(tc):
取自然对数.reg:
OLS回归
.Vce:
协方差矩阵reg。
。
。
,noc表示在进行回归时不要常数项
大样本OLS:
只要求解释变量与同期的扰动项正交即可
Robust:
稳健标准误,如果存在异方差,则应使用稳健标准误
最大似然估计法:
如果回归方程存在非线性,则使用最大似然估计法(MLE)或非线性最小二乘法(NLS)
三类在大样本下渐进等价的统计检验:
WaldtestLR(似然比检验)LM
操作步骤如下:
sysuseauto(调用数据集)
Histmpg,normal(画变量mpg的直方图,并与正态密度比较)
直方图显示,变量mpg的分布于正态分布有一定差距。
变量可以取对数解决非正态分布的问题。
异方差与GLS(广义最小二乘法)
异方差的检验:
看残差图、怀特检验(whitetest)、BP检验(BreuschandPagan)
异方差的处理:
1、OLS+稳健标准误(最好的)
2、广义最小二乘法(GLS)
3、加权最小二乘法(WLS)
实例操作:
1、使用数据:
usenerlove.dta,clear
2、regintcinqinplinpkinpf(进行回归)
3、
4、画残差图:
rvfplot
上图可以发现当拟合值较小时,扰动项方差较大,继续考察残差与解释变量inq的散点图:
rvpplotinq,结果与上图几乎一致,可能存在异方差,即扰动项的方差随着观测值而变。
5、完成回归后,进行怀特检验:
estatimtest,white
P值显著,认为存在异方差
6、完成回归后,进行BP检验:
estathettest,iidestathottest,rhsiidestathottestinq,iid
三种形式的检验都强烈拒绝同方差的原假设,存在异方差(这里只放一个形式的检验结果)
7、处理异方差
自相关:
扰动项之间自相关
自相关的例子:
1、时间序列数据中通常具有某种连续性和持久性,如相邻两年的GDP增长率;2、截面数据中相邻的观测单位之间可能存在溢出效应,如相邻地区的农业产量收到类似天气变化的影响;3、对数据的人为处理如数据中包含移动平均数等;4、如果模型设定中遗漏了某个自相关的解释变量并被纳入到扰动项中,则会引起扰动项的自相关。
自相关的检验:
1、画图(不推荐)2、BG检验estatbgodfrey3、BOX-PierceQ检验4、DW检验estatdwatson.检验都要在OLS做完后才能做。
自相关的处理:
1、使用OLS+异方差自相关稳健的标准误;2、OLS+聚类稳健的标准误;3、使用可行广义最小二乘法(FGLS);4、修改模型设定
自相关处理实例:
1、使用数据icecream然后进行回归
BG检验
显著拒绝了原假设无自相关,则认为存在自相关
Q检验(略)、DW检验如下
DW=1.02距离2很远可以认为存在自相关。
由以上的检验可以看出扰动项之间存在自相关,因此OLS提供的标准误是不准确的,应使用异方差自相关稳健标准误,由于样本为30个,n四分之一=2.34,故取NEWey-West估计量的滞后值为P=3,结果如下:
上图显示标准误与OLS标准误无多大区别,因此将滞后阶数增加为6,
从上图可以看到无论截断参数是3还是6,标准误都变化不大,比较稳健。
此外,前面提到自相关存在可能是因为模型设定不正确,因此考虑在解释变量中加入temp的滞后值,然后再进行OLS回归:
然后使用BG检验是否存在自相关:
结果显示无自相关,而后DW值也改进为1.58,因此修改模型后扰动项基本不再存在自相关。
模型设定与数据问题
遗漏变量:
被解释变量可能被加入到扰动项中
解决方式:
加入尽可能多的控制变量;使用代理变量;工具变量法;使用面板数据;随机试验或自然实验。
其中代理变量应满足两个条件:
多余性,仅通过影响遗漏变量而作用于被解释变量;剩余独立性,遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不相关。
多重共线性:
某一解释变量可以由其他解释变量线性表出,即存在多重共线性。
检测:
先回归,然后estatvifVIF低于10即不存在多重共线性。
工具变量,2SLS与GMM
工具变量的适用条件:
OLS成立的最重要条件是解释变量与扰动项不相关,如出现相关可以使用工具变量法来解决。
其中在计量经济学中,将所有与扰动项相关的解释变量成为内生变量,一个有效的工具变量应满足一下两个条件:
1、工具变量与内生解释变量相关;2、工具变量与扰动项不相关。
过程:
传统的工具变量法一般通过二阶段最小二乘法(2SLS或TSLS)来实现:
1、用内生解释变量对工具变量进行回归,得到拟合值Pt(Pt实际上是内生变量中的外生部分,而另一部分是与扰动项相关);2、用被解释变量对第一阶段的拟合值Pt进行回归。
工具变量的检测:
1、不可识别检验;2、弱工具变量检验;3、过度识别检验(estatoverid)。
豪斯曼检验:
原假设为所有解释变量均为外生变量,若拒绝假设的话应该使用工具变量法,若接受的话使用OLS。
豪斯曼过程:
regX1x2
Estimatesstoreols(存储OLS的结果)
Ivregress2slsyx1(x2=z1z2)(假设怀疑X2为内生变量)
Estimatesstoreiv(存储2SLS结果)
Hausmanivols,constantsigmamore(根据存储的结果进行豪斯曼检验)
若存在异方差的问题,则可以使用杜宾-吴-豪斯曼检验。
它在异方差的情况下也适用。
在球形扰动项的假定下,2SLS最有效,但如果扰动项存在异方差或自相关,则存在GMM广义矩估计这一更有效的方法:
首先使用2SLS得到残差,然后GMM,但是在实际操作中使用迭代法。
GMM的命令:
ivregressgmmyx1(x2=z1z2)两步最优GMM
ivregressgmmyx1(x2=z1z2),igmm迭代GMM
estatoverid过度识别检验
工具变量法的STATA命令和实例:
Usegrilic.dta,clear
Sum
然后考察智商和受教育年限的相关关系(本文研究的是工资与受教育年限的关系)
具有较强的正相关关系。
然后作为一个参照系,进行OLS回归并使用稳健标准误。
教育投资率10.26%,显然过高,可能是遗漏了变量能力,使得能力对工资的贡献也被纳入教育的贡献。
因此使用iq作为能力的代理变量,再进行OLS回归,可以发现加入iq作为能力的代理变量后,教育投资回报率降低了一些,但还是过高。
(如下图)
使用iq来度量能力存在测量误差,因此iq为内生变量,考虑使用medkwwmrtage作为iq的工具变量,进行2SLS回归,并使用稳健标准误。
受教育年限回报上升,而iq竟然是负相关,因此不可信,使用工具变量法需要验证其工具变量的有效性因此进行过度识别来检验所有工具变量是否外生。
上图显示有些工具变量不合格,与扰动项相关。
怀疑mrt和age不满足外生性,因此仅适用med和kww作为iq的工具变量,再次进行2SLS回归,同时显示第一阶段的回归结果。
如上图,第一部分回归是使用内生解释变量对工具变量进行回归,第二部分用被解释变量对第一阶段回归的拟合值进行回归。
上图中教育回报率较为合理,而且iq系数也为整数,再次进行过度识别检验。
结果没有拒绝外生的原假设。
接下来继续考察作为工具变量的第二个条件,即工具变量与内生变量的相关性,由第一阶段的回归看出,med和kww对iq有较好的解释力,但为稳健起见,还是使用对弱工具变量更不敏感的有限信息最大似然法(LIML)。
以上结果与2SLS非常接近,侧面验证了不存在弱工具变量。
还有,使用工具变量法的前提是存在内生解释变量,因此进行豪斯曼检验。
结果显示拒绝了原假设,因此存在iq为内生变量,又因为传统的豪斯曼检验在异方差的情况下不成立,下面进行异方差稳健的DWH检验:
DWH的P值小于0.05,故可以认为iq为内生解释变量。
另外如果存在异方差,则GMM比2SLS更有效,因此进行最优GMM估计:
上图显示两步最优GMM与2SLS很接近,再进行过度识别检验
结果接受原假设,说明所有工具变量外生。
然后再做迭代GMM:
下图显示与两步GMM系数估计值相差不大。
如果希望将以上各估计值级标准误弄在同一张表中:
quireglwsexprtenurernssmsa,r
.eststools_no_iq
.quireglwiqsexprtenurernssmsa,r
.eststools_with_iq
.quiivregress2slslwsexprtenurernssmsa(iq=medkww),r
.eststotsls
.quiivregresslimllwsexprtenurernssmsa(iq=medkww),r
.eststoliml
.quiivregressgmmlwsexprtenuretnssmsa(iq=medkww)
.quiivregressgmmlwsexprtenurernssmsa(iq=medkww)
.eststogmm
.quiivregressgmmlwsexprtenurernssmsa(iq=medkww),igmm
.eststoigmm
.estimatestableols_no_iqols_with_iqtslslimlgmmigmm,bse
其中,选项b表示显示回归系数,se表示显示标准误差
如果希望用一颗星表示10%显著性水平等等:
如果想像论文一样显示,则如下表:
se表示在括弧中显示标准误差,p表示显示P值,r2表示显示R的平方,mtitle显示使用模型名字,
二值选择模型
离散选择模型、定性反应模型或被解释变量取非负整数时,都不适宜使用OLS回归。
1、二值选择模型:
只有两种选择,是否。
Probityx1x2x3,r(probit模型)
Logityx1x2x3,orvce(clusterclustvar)(logit模型)
其中,r代表使用稳健标准误,or显示几率比而不是系数,vce表示使用以clustvar为聚类变量的聚类稳健标准误。
Stata举例:
美国妇女就业与否的二值选择模型。
然后使用logit进行估计:
结果显示所有系数的联合显著性很高,继续使用稳健标准误进行logit回归:
对比以上两个表格显示标准误相差不大,因此不用担心模型设定问题。
二值选择模型中的异方差问题:
hetprobyx1x2x3,het(varlist),如果接受原假设则为同方差。
此外,二值选择模型中一般都没有扰动项的存在。
二值选择模型中的异方差问题可以进行似然比检验(LR):
hetprobyx1x2x3,het(varlist)(这是在异方差情况下进行Probit估计的stata命令,het(varlist)制定对扰动项方差有影响的所有变量,如het(agemarriedchildren)),LR检验原假设为同方差。
多值选择模型
个体面临的选择有时是多值的,因此可能需要使用到多项probit或多项logit,或者在有某项条件时需要用到条件logit,还有在不随方案而变的多项logit模型和解释变量随方案而变的条件logit模型混合的logit模型。
举例来说,问卷调查将受访者职业分为五类(OCC),解释变量为是否白人、受教育年限、工龄,解释变量都依赖于个体而不依赖于方案,因此使用多项logit或多项probit回归:
进行多项logit回归:
上述结果说明白人更不可能选择服务业或工匠;是否白人对选择蓝领或白领没显著影响。
。
。
排序与计数模型
1、泊松回归:
被解释变量只能取非负整数,即0,1,2….,这时常用泊松回归。
Poissonyx1x2x3,rirr
Poissonyx1x2x3,rexposure(x1)
Poissonyx1x2x3,roffset(x1)
其中,r为稳健标准误,irr为显示发生率比,exposure表示把inx1作为解释变量并使其系数为1,offset表示将x1作为解释变量并使其系数为1.
2、负二项回归:
泊松回归的局限是泊松分布的期望与方差一定相等,但如果被解释变量的方差明显大于期望,即存在过度分散,这时候可以使用负二项回归。
Nbregyx1x2x3,rexposure(x1)
Nbregyx1x2x3,rdispersion(constant)offset(x1)
其中dispersion(constant)表示使用NB1模型。
3、零膨胀泊松回归与负二项回归:
如计数数据中包含大量0值,则可以使用零膨胀泊松回归或零膨胀负二项回归。
如果vuong统计量很大为正数,则应该使用零膨胀泊松回归,如果统计量很小为负数,则使用零膨胀负二项回归。
Zipyx1x2x3,inflate(varlist)vuong(零膨胀泊松回归)
Zinbyx1x2x3,inflate(varlist)vuong(零膨胀负二项回归),其中inflate(varlist)不可缺少列出所有变量。
如果研究者只关注参数的估计值,则泊松回归。
Stata举例:
被解释变量narr86(1986年被逮捕的次数),被解释变量为计数数据,尽管如此,还是使用OLS回归进行观察:
R的平方为0.07,但大多数解释变量都显著,下面进行泊松回归,并使用稳健标准误:
(nolog)表示不显示迭代记录。
上俩图可以看出虽然OLS和泊松的系数相差很大,但两者并不具有可比性,为方便比较,计算泊松回归的平均边际效应:
可以看出,泊松模型的平均边际效应与OLS的回归系数很接近,为便于解释系数,下面计算发生率比:
可以看出黑人被逮捕次数比白人多93.6%。
此外使用泊松回归的前提之一是被解释变量的期望与方差相等,因此考察被解释变量的统计特征:
结果显示样本方差几乎是样本均值的两倍,为放松此假定进行负二项回归(NB2):
上图中alpha的置信区间为0.7-1.24,因此可在5%的显著性水平下拒绝过度分散参数alpha=0的原假设,也因此应使用负二项回归。
短面板
面板数据指的是一段时间内跟踪同一组个体数据,它既有横截面的维度又有时间维度。
其中,如果每个时期在样本中的个体完全一样,则称为平衡面板数据,反之为非平衡面板数据。
固定效应还是随机效应:
当不存在异方差的时候,使用hausman检验,如果假设成立,则使用随机效应,如果拒绝假设,则使用固定效应。
而当存在异方差时候,使用辅助回归然后聚类稳健标准误来检验,如果接受假设,则使用随机效应模型。
短面板的stata命令及实例:
Xtsetpanelvartimevar(xt说明数据为面板数据,panelvar取值必须为整数且不重复,相当于进行编号,timevar为时间变量,假如panelvar为字串符,如国家,则使用encodecountry,gen(cntry))
Xtdes显示面板的结构,是否为平衡面板
Xtsum显示组内,组间与整体的统计指标
Xttabvarname显示组内,组间与整体的分布频率,tab指的是tabulate
交通死亡率:
首先设定state与year为面板变量及时间变量。
上图显示这是一个平衡的面板数据(每个时期在样本中的个体完全一样),然后显示数据集的结构:
n=48,T=7,n大而T小,说明这是一个短面板,然后作为参照系,首先进行混合回归:
regyx1x2x3,vce(clusterid)其中id用来确定每个个体的变量,vce(clusterstate)表示使用以state为聚类变量的聚类稳健标准误
由于每个州的情况不一样,可能存在不随时间变化的遗漏变量,故考虑使用固定效应:
Xtregyx1x2x3,fer
LSDV法的stata命令为:
regyx1x2x3i.id,r
其中r为使用聚类稳健标准误,vce(clusterid)也能达到这种效果,id表示用来确定个体的变量,i.id表示根据变量id而生成的虚拟变量。
首先使用组内估计量:
在选择随机还是固定时:
使用hausman检验:
xtregyx1x2x3,fe(固定效应估计)
Estimatesstorefe(存贮)
Xtregyx1x2x3,re(随机效应估计)
Estimatesstorere(存储)
Hausmanfere,constantsigmamore(豪斯曼检验)
长面板与动态面板
在长面板中,T可能会比较大,因此可能存在组间异方差,组内自相关或组间同期相关的问题,主要有两种处理方式:
1、使用OLS即LSDV来估计系数,只对标准误差进行矫正(即面板矫正误差);3、对异方差或自相关的具体形式进行假设,然后使用可行广义最小二乘法FGLS进行估计。
1、矫正标准误差
即使扰动项存在组间异方差或组间同期相关等,LSDV也依然有效,此时,只要使用组间异方差、组间同期方差稳健的标准误差即可,即面板校正标准误差PCSE:
Xtpvseyx1x2x3,hetonly,其中hetonly表示存在组间异方差,但不存在组间同期相关;
举例:
inc为被解释变量,由于n=10,T=30,因此是一个长面板。
为了考虑时间效应,生成时间趋势变量t,然后用LSDV法估计双向固定效应模型(作为对比先不考虑异方差等)
下图可以看出有些州虚拟变量显著,即存在固定效应,而时间效应则不太显著,p值为0.19.然后下表未考虑组间异方差等,因此使用面板校正标准误进行估计(下下图)
命令xtpcse与命令reg的估计系数完全一样,只是标准误不同。
2、仅解决组内自相关的FGLS:
xtpcseyx1x2,corr(ar1)。
无论是使用prais-winsten还是OLS方法都在组间异方差与组间同期相关的情况下成立。
继续使用以上数据,考虑组内自相关的情形,但要求各组的自回归系数相同
3、组间异方差的检验:
如果拒绝假设,则存在组间异方差。
Sscinstallxttest3(下载安装命令)
Quietlyxtreglnclnpi.statet,rfe
xttest3
Quietlyxtglslnclnpi.statet
Xttest3
4、组内自相关检验:
如果拒绝假设,则存在组内自相关
Netinstallst0039
Xtserialyx1x2x3,output
5、组间同期相关的检验:
如果拒绝假设,即存在组间同期相关。
Sscinstallxtest2
Quietlyxregincinpinpmininyt,fe
Xttest2
非线性面板
对于面板数据,如果被解释变量为虚拟变量、计数变量、受限变量等,则为非线性面板。
1、如果被解释变量为虚拟变量,则称为面板二值选择模型。
一般采用混合、固定或随机效应模型。
混合回归:
如果不存在个体效应,则使用混合回归
Probityx1x2x3,vce(clusterid)混合probit回归
Logityx1x2x3,vce(clusterid)混合logit回归其中Id为确定面板单位的变量
随即效应模型:
Xtprobitx1x2x3,
Xtlogityx1x2x3,再次输出结果中,包含了对原假设的LR检验结果,如拒绝则使用随机,接受则使用混合
固定效应模型:
xtlogityx1x2x3,fe
Stata实例:
被解释变量为是否起义uprising,由于面板probit无固定效应模型,因此使用面板logit模型。
首先进行固定效应面板logit估计:
如下图所示,第二行有一个朝代未发生企业,因此在估计固定效应时应被去掉。
然后进行混合回归logit模型,为保持与固定效应样本一样,在混合回归中也去掉了dyn=2的朝代:
为了在固定和混合进行选择,使用豪斯曼检验,但豪斯曼不允许在混合回归使用选择项vce(cluesterdyn),因此重新进行混合回归:
quietlylogituprisingagepoptempsfaminesfamine1sfamine2sfamine3reliefrelief1relief2relief3ifdyn~=2,nolog(不显示结果)
结果拒绝假设,因此使用固定效应模型。
(pooled表示将回归放在一起做)
然后下面进行随机效应logit估计
从上表最后一行的值LR检验拒绝假设,因此应使用面板随机效应模型,不宜进行混合回归。
最后,为了在固定效应与随机效应模型之间进行选择,再次进行豪斯曼检验:
结果拒绝假设,因此应使用固定效应模型。
2、面板泊松回归:
被解释变量为计数变量时,非负整数。
其中,混合泊松回归:
poissonyx1x2x3,vce(clusterid)irr(irr为回报发生率比)
面板泊松回归:
xtpoissonyx1x2x3,fenormalirr(自由选择fe和re)
面板负二项回归:
泊松回归的缺陷是如果方差与期望之间差距过大即存在过度分散,既可以采用负二项回归。
混合负二项回归:
nbregyx1x2x3,vce(clusterid)
面板负二项回归:
xtnbregyx1x2x3,feirr(自由选择fe和re)
Stata实例:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- stata 学习 笔记