stata学习笔记.docx
- 文档编号:556276
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:37
- 大小:1.11MB
stata学习笔记.docx
《stata学习笔记.docx》由会员分享,可在线阅读,更多相关《stata学习笔记.docx(37页珍藏版)》请在冰豆网上搜索。
stata学习笔记
经济数据的特点与类型。
1、横截面数据:
多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP
2、时间数列数据:
指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP
3、面板数据:
多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP
小样本OLS(最小二乘法):
单一方程线性回归最常见方法
条件:
解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:
衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:
对回归方程扰动项的具体概率进行假设
显著性水平进行检验
F检验:
整个回归方程是否显著
STATA操作简介:
如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gennewvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gennewvar=monthly(varname,YM)。
.describe:
数据的概貌.dropkeep:
删除和保留
.su:
统计特征Pwcorr:
变量之间相关系数
Star(.05):
5%显著性水平gen:
产生
gintc=log(tc):
取自然对数.reg:
OLS回归
.Vce:
协方差矩阵reg。
。
。
,noc表示在进行回归时不要常数项
大样本OLS:
只要求解释变量与同期的扰动项正交即可
Robust:
稳健标准误,如果存在异方差,则应使用稳健标准误
最大似然估计法:
如果回归方程存在非线性,则使用最大似然估计法(MLE)或非线性最小二乘法(NLS)
三类在大样本下渐进等价的统计检验:
WaldtestLR(似然比检验)LM
操作步骤如下:
sysuseauto(调用数据集)
Histmpg,normal(画变量mpg的直方图,并与正态密度比较)
直方图显示,变量mpg的分布于正态分布有一定差距。
变量可以取对数解决非正态分布的问题。
异方差与GLS(广义最小二乘法)
异方差的检验:
看残差图、怀特检验(whitetest)、BP检验(BreuschandPagan)
异方差的处理:
1、OLS+稳健标准误(最好的)
2、广义最小二乘法(GLS)
3、加权最小二乘法(WLS)
实例操作:
1、使用数据:
usenerlove.dta,clear
2、regintcinqinplinpkinpf(进行回归)
3、
4、画残差图:
rvfplot
上图可以发现当拟合值较小时,扰动项方差较大,继续考察残差与解释变量inq的散点图:
rvpplotinq,结果与上图几乎一致,可能存在异方差,即扰动项的方差随着观测值而变。
5、完成回归后,进行怀特检验:
estatimtest,white
P值显著,认为存在异方差
6、完成回归后,进行BP检验:
estathettest,iidestathottest,rhsiidestathottestinq,iid
三种形式的检验都强烈拒绝同方差的原假设,存在异方差(这里只放一个形式的检验结果)
7、处理异方差
自相关:
扰动项之间自相关
自相关的例子:
1、时间序列数据中通常具有某种连续性和持久性,如相邻两年的GDP增长率;2、截面数据中相邻的观测单位之间可能存在溢出效应,如相邻地区的农业产量收到类似天气变化的影响;3、对数据的人为处理如数据中包含移动平均数等;4、如果模型设定中遗漏了某个自相关的解释变量并被纳入到扰动项中,则会引起扰动项的自相关。
自相关的检验:
1、画图(不推荐)2、BG检验estatbgodfrey3、BOX-PierceQ检验4、DW检验estatdwatson.检验都要在OLS做完后才能做。
自相关的处理:
1、使用OLS+异方差自相关稳健的标准误;2、OLS+聚类稳健的标准误;3、使用可行广义最小二乘法(FGLS);4、修改模型设定
自相关处理实例:
1、使用数据icecream然后进行回归
BG检验
显著拒绝了原假设无自相关,则认为存在自相关
Q检验(略)、DW检验如下
DW=1.02距离2很远可以认为存在自相关。
由以上的检验可以看出扰动项之间存在自相关,因此OLS提供的标准误是不准确的,应使用异方差自相关稳健标准误,由于样本为30个,n四分之一=2.34,故取NEWey-West估计量的滞后值为P=3,结果如下:
上图显示标准误与OLS标准误无多大区别,因此将滞后阶数增加为6,
从上图可以看到无论截断参数是3还是6,标准误都变化不大,比较稳健。
此外,前面提到自相关存在可能是因为模型设定不正确,因此考虑在解释变量中加入temp的滞后值,然后再进行OLS回归:
然后使用BG检验是否存在自相关:
结果显示无自相关,而后DW值也改进为1.58,因此修改模型后扰动项基本不再存在自相关。
模型设定与数据问题
遗漏变量:
被解释变量可能被加入到扰动项中
解决方式:
加入尽可能多的控制变量;使用代理变量;工具变量法;使用面板数据;随机试验或自然实验。
其中代理变量应满足两个条件:
多余性,仅通过影响遗漏变量而作用于被解释变量;剩余独立性,遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不相关。
多重共线性:
某一解释变量可以由其他解释变量线性表出,即存在多重共线性。
检测:
先回归,然后estatvifVIF低于10即不存在多重共线性。
工具变量,2SLS与GMM
工具变量的适用条件:
OLS成立的最重要条件是解释变量与扰动项不相关,如出现相关可以使用工具变量法来解决。
其中在计量经济学中,将所有与扰动项相关的解释变量成为内生变量,一个有效的工具变量应满足一下两个条件:
1、工具变量与内生解释变量相关;2、工具变量与扰动项不相关。
过程:
传统的工具变量法一般通过二阶段最小二乘法(2SLS或TSLS)来实现:
1、用内生解释变量对工具变量进行回归,得到拟合值Pt(Pt实际上是内生变量中的外生部分,而另一部分是与扰动项相关);2、用被解释变量对第一阶段的拟合值Pt进行回归。
工具变量的检测:
1、不可识别检验;2、弱工具变量检验;3、过度识别检验(estatoverid)。
豪斯曼检验:
原假设为所有解释变量均为外生变量,若拒绝假设的话应该使用工具变量法,若接受的话使用OLS。
豪斯曼过程:
regX1x2
Estimatesstoreols(存储OLS的结果)
Ivregress2slsyx1(x2=z1z2)(假设怀疑X2为内生变量)
Estimatesstoreiv(存储2SLS结果)
Hausmanivols,constantsigmamore(根据存储的结果进行豪斯曼检验)
若存在异方差的问题,则可以使用杜宾-吴-豪斯曼检验。
它在异方差的情况下也适用。
在球形扰动项的假定下,2SLS最有效,但如果扰动项存在异方差或自相关,则存在GMM广义矩估计这一更有效的方法:
首先使用2SLS得到残差,然后GMM,但是在实际操作中使用迭代法。
GMM的命令:
ivregressgmmyx1(x2=z1z2)两步最优GMM
ivregressgmmyx1(x2=z1z2),igmm迭代GMM
estatoverid过度识别检验
工具变量法的STATA命令和实例:
Usegrilic.dta,clear
Sum
然后考察智商和受教育年限的相关关系(本文研究的是工资与受教育年限的关系)
具有较强的正相关关系。
然后作为一个参照系,进行OLS回归并使用稳健标准误。
教育投资率10.26%,显然过高,可能是遗漏了变量能力,使得能力对工资的贡献也被纳入教育的贡献。
因此使用iq作为能力的代理变量,再进行OLS回归,可以发现加入iq作为能力的代理变量后,教育投资回报率降低了一些,但还是过高。
(如下图)
使用iq来度量能力存在测量误差,因此iq为内生变量,考虑使用medkwwmrtage作为iq的工具变量,进行2SLS回归,并使用稳健标准误。
受教育年限回报上升,而iq竟然是负相关,因此不可信,使用工具变量法需要验证其工具变量的有效性因此进行过度识别来检验所有工具变量是否外生。
上图显示有些工具变量不合格,与扰动项相关。
怀疑mrt和age不满足外生性,因此仅适用med和kww作为iq的工具变量,再次进行2SLS回归,同时显示第一阶段的回归结果。
如上图,第一部分回归是使用内生解释变量对工具变量进行回归,第二部分用被解释变量对第一阶段回归的拟合值进行回归。
上图中教育回报率较为合理,而且iq系数也为整数,再次进行过度识别检验。
结果没有拒绝外生的原假设。
接下来继续考察作为工具变量的第二个条件,即工具变量与内生变量的相关性,由第一阶段的回归看出,med和kww对iq有较好的解释力,但为稳健起见,还是使用对弱工具变量更不敏感的有限信息最大似然法(LIML)。
以上结果与2SLS非常接近,侧面验证了不存在弱工具变量。
还有,使用工具变量法的前提是存在内生解释变量,因此进行豪斯曼检验。
结果显示拒绝了原假设,因此存在iq为内生变量,又因为传统的豪斯曼检验在异方差的情况下不成立,下面进行异方差稳健的DWH检验:
DWH的P值小于0.05,故可以认为iq为内生解释变量。
另外如果存在异方差,则GMM比2SLS更有效,因此进行最优GMM估计:
上图显示两步最优GMM与2SLS很接近,再进行过度识别检验
结果接受原假设,说明所有工具变量外生。
然后再做迭代GMM:
下图显示与两步GMM系数估计值相差不大。
如果希望将以上各估计值级标准误弄在同一张表中:
quireglwsexprtenurernssmsa,r
.eststools_no_iq
.quireglwiqsexprtenurernssmsa,r
.eststools_with_iq
.quiivregress2slslwsexprtenurernssmsa(iq=medkww),r
.eststotsls
.quiivregresslimllwsexprtenurernssmsa(iq=medkww),r
.eststoliml
.quiivregressgmmlwsexprtenuretnssmsa(iq=medkww)
.quiivregressgmmlwsexprtenurernssmsa(iq=medkww)
.eststogmm
.quiivregressgmmlwsexprtenurernssmsa(iq=medkww),igmm
.eststoigmm
.estimatestableols_no_iqols_with_iqtslslimlgmmigmm,bse
其中,选项b表示显示回归系数,se表示显示标准误差
如果希望用一颗星表示10%显著性水平等等:
如果想像论文一样显示,则如下表:
se表示在括弧中显示标准误差,p表示显示P值,r2表示显示R的平方,mtitle显示使用模型名字,
二值选择模型
离散选择模型、定性反应模型或被解释变量取非负整数时,都不适宜使用OLS回归。
1、二值选择模型:
只有两种选择,是否。
P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- stata 学习 笔记
![提示](https://static.bdocx.com/images/bang_tan.gif)