STATA实用学习笔记docWord格式.docx
- 文档编号:17692906
- 上传时间:2022-12-08
- 格式:DOCX
- 页数:45
- 大小:511.83KB
STATA实用学习笔记docWord格式.docx
《STATA实用学习笔记docWord格式.docx》由会员分享,可在线阅读,更多相关《STATA实用学习笔记docWord格式.docx(45页珍藏版)》请在冰豆网上搜索。
,clear
save"
\phd\Fees1.dta"
\phd\Fees2.csv"
appendusing"
十三、横向合并,在原数据集基础上加上另外的变量merge
1、insheetusing"
sortcompanyidyearend
describe
\phd\Fees6.csv"
mergecompanyidyearendusing"
2、_merge==1obs.Frommasterdata
_merge==2obs.Fromusingdata
_merge==3obs.Frombothmasterandusingdata
十四、帮助文件:
help
1、.Helpdescribe
十五、描述性统计量
1、summarizeincorporationyear单个
summarizeincorporationyear-big6连续多个
summarize_allorsimplysummarize所有
2、更详细的统计量
summarizeincorporationyear,detail
3、centile
centileauditfees,centile(0(10)100)
centileauditfees,centile(0(5)100)
4、tabulate不同类型变量的频数和比例
tabulatecompanytype
tabulatecompanytypebig6,column按列计算百分比
tabulatecompanytypebig6,row按行计算百分比
tabcompanytypebig6ifcompanytype<
=3,rowcol同时按行列和条件计算百分比
5、计算满足条件观测的个数
countifbig6==1
countifbig6==0|big6==1
6、按离散变量排序,对连续变量计算描述性统计量:
(1)bycompanytype,sort:
summarizeauditfees,detail
(2)sortcompanytype
Bycompanytype:
summarizeauditees
十六、转换变量
1、按公司类型将公开发行股票公司赋值为1,其他为0
genlisted=0
replacelisted=1ifcompanytype==2
replacelisted=1ifcompanytype==3
replacelisted=1ifcompanytype==5
replacelisted=.ifcompanytype==.
十七、产生新变量gen
Generatenewvar=表达式
十八、数据类型
1、数值型
Storagetype
Bytes
Min
Max
byte
1
-127
+100
int
2
-32,767
+32,740
long
4
-2,147,483,647
2,147,483,620
float
-1.70141173319*1038
1.70141173319*1036
double
8
-8.9884656743*10307
8.9884656743*10308
2、字符型
Maxlength(characters)
str1
str2
…
str80
80
3、新建变量的过程中定义数据类型
●genstr3gender="
male"
●listgenderin1/10
4、变量所占字节过长
●dropgender
●genstr30gender="
●browse
●describegender
●compressgender
5、日期数据类型:
%ddates,whichisacountofthenumberofdayselapsedsinceJanuary1,1960。
(1)date(日期变量)
●genfye=date(yearend,"
MDY"
)MDY应根据前面日期的排列顺序而定,结果显示的是距离1960年1月1日的天数
●listyearendfyein1/10
(2)日期格式化%d(显示fye变量为日期形式,但数值并未真正变动):
●formatfye%d
●sumfye
(3)利用日期天数求对应的年、月、日
●genyear=year(fye)
●genmonth=month(fye)
●genday=day(fye)
●listyearendfyeyearmonthdayin1/10
(4)将三个分别表示年、月、日的变量合并为一个日期变量
●dropfye
●genfye=mdy(month,day,year)
●formatfye%d
(5)将一个数值型的时间数据(20080131)转变为ST可识别的时间数据
●genyear=int(date/10000)
●genmonth=int((date-year*10000)/100)
●genday=date-year*10000-month*100
●listdateyearmonthdayin1/10
●genedate=mdy(month,day,year)
●formatedate%d
●listedatedatein1/10
十九、存贮统计量的内部变量R()
●sumauditfees
●genmeanadjaf=auditfees-r(mean)
●listmeanadjafin1/10
SUM命令后常见的几种R()值
r(N)
Numberofcases
r(sd)
Standarddeviation
r(sum_w)
Sumofweights
r(min)
Minimum
r(mean)
Arithmeticmean
r(max)
Maximum
r(var)
Variance
r(sum)
Sumofvariable
显示这些变量值的命令
●sumauditfees,detail
●returnlist
二十、recode命令(PPT61)
1、产生有多个值的变量的哑变量recode
recodeyear(min/1999=0)(2000/max=1),gen(yeardum)
min/1999表示小于等于1999的值全部赋值为0
2000/max表示大于等于2000的值全部赋为1。
2、对一个连续变量按一定值分为不同间隔的组recode
genassets_categ=recode(totalassets,100,500,1000,5000,20000,100000,1000000)。
分组的值为每组的上限,包含该值。
sortassets_categ
byassets_categ:
sumtotalassetsassets_categ
3、对一个连续变量按一定值分为相同间隔的组autocode
autocode(variablename,#ofintervals,minvalue,maxvalue)
forexample:
genassets_categ=autocode(totalassets,10,0,10000)
4、对一个连续变量按每组样本数相同进行分组:
xtile
xtileassets_categ=totalassets,nquantiles(10)
每组样本不一定完全相同
二十一、一次性计算同一变量不同组别的均值:
egen命令
按公司类型先排序,再计算每一类型公司审计费用的均值并赋值给新变量:
bycompanytype,sort:
egenmeanaf2=mean(auditfees)
●count()
●mean()
●median()
●sum()
二十二、_n和_N命令
1、显示每个观测的序号并显示总观测数
sortcompanyidfye
capturedropx
genx=_n
capturedropy
geny=_N
listcompanyidfyexyin1/30
2、分组显示每个组中变量的序号和每组总的样本数
●capturedropxy
●sortcompanyidfye
●bycompanyid:
genx=_n
geny=_N
●listcompanyidfyexyin1/30
3、创建新变量等于每个分组中变量的第一个值或最后一个值
genauditfees_first=auditfees[1]
genauditfees_last=auditfees[_N]
●listcompanyidfyeauditfeesauditfees_firstauditfees_lastin1/30
4、创建新变量等于滞后一期或滞后两期的值
●sortcompanyidfye
genauditfees_lag1=auditfees[_n-1]
genauditfees_lag2=auditfees[_n-2]
●listcompanyidfyeauditfeesauditfees_lag1auditfees_lag2in1/30
二十三、转变数据集结构:
reshape
不同数据库的数据集结构不同:
长型是指同一公司不同年度数据在不同的行。
宽型数据是指同一数据不同年度数据在现一行。
二者间的转换可通过reshape命令来实现。
需要注意的是,在转换过程中对数据集是有要求的,一个公司只能有一个年度数据,否则会出错。
1、长型转换为宽型:
reshapewideyearendincorporationyearcompanytypesalesauditfeesnonauditfeescurrentassetscurrentliabilitiestotalassetsbig6fye,i(companyid)j(year)
2、宽型转换为长型:
reshapelongyearendincorporationyearcompanytypesalesauditfeesnonauditfeescurrentassetscurrentliabilitiestotalassetsbig6fye,i(companyid)j(year)
3、第二次转换时命令可简化:
●reshapewide
●reshapelong
二十四、计算CAR的例子:
已知股票日回报率,市场回报率,事件日,计算窗口期为三天的CAR。
1、定义三天的窗口期:
●sorttickeredate
●genwindow=0ifeventdate<
.(事件日为0)
●replacewindow=-1ifwindow[_n+1]==0&
ticker==ticker[_n+1]
●replacewindow=1ifwindow[_n-1]==0&
ticker==ticker[_n-1]
2、计算AR和CAR
●genar=ret-vwretd
●gencar=ar+ar[_n-1]+ar[_n+1]ifwindow==0&
ticker==ticker[_n+1]&
3、检验
●listtickeredateretvwretdarcarwindowifwindow<
.
二十五、means的T检验:
1、检验总体上big6的审计收费有无显著不同
●use"
\phd\Fees.dta"
●genlnaf=ln(auditfees)
●bybig6,sort:
sumlnaf
●testlnaf,by(big6)
2、分年度比较big6的审计收费有无显著不同,加入byyear命令。
)
●sortyear
●byyear:
ttestlnaf,by(big6)
3、均值等于特定值得的T检验:
●sumlnaf
●ttestlnaf=2.1
二十六、meadian的显著性检验:
1、获取中位数的命令:
bybig6,sort:
sumlnaf,detail
centilelnaf
2、中位数检验:
●medianlnaf,by(big6)
●ranksumlnaf,by(big6)
二十七、列联表检验:
1、创建列联表的命令:
●tabulatecompanytypebig6,row
第一个变量是表的最左侧一列的项目,第二个变量是表的第一行的项目。
2、两变量之间的相关性检验:
chi2
tabulatecompanytypebig6,chi2row
3、相关矩阵:
pwcorrlnafbig6yearlisted
4、列出相关矩阵并进行符号检验
pwcorrlnafbig6yearlisted,sig
5、在矩阵中列出观测数
●pwcorrlnafbig6listedifyear==2000,sigobs
二十八、创建一个不包含缺失值的数据集
1、无缺失值的变量值为1,至少有一个的为0
gensamp=1iflnaf<
.&
big6<
year<
listed<
.
2、缺失值的变量值表示同一行中缺失值的个数
egenmiss=rmiss(lnafbig6yearlisted)
summiss,detail
二十九、图形
1、直方图
●histogramincorporationyear,width
(1)
●histogramincorporationyear,bin(147)
width表示分一小份的宽度。
bin表示分成的份数。
改变宽度值可以使图像看起来更合适。
●选择起始点和间隔宽度:
histlnafiflnaf>
=0&
lnaf<
=5,width(0.25)
●选择描述横轴和纵轴的单位和数据标识:
=5,width(0.25)xlabel(0(0.5)5)
●是否与正态分布一致:
=5,width(0.25)normal
2、散点图(scatter)
●scatterlnaflnta
第一个变量是纵轴,第二个变量是横轴。
●twoway(scatterlnaflnta,msize(tiny))(lfitlnaflnta)
在散点图上加入最适合的一条直线。
三十、缩尾处理winsor
.winsorrev,gen(wrev)p(0.01)0.01代表去掉的百分数。
Winsorrev,gen(wrev)h(5),5代表去掉的个数
第二章线性回归
内容简介:
Ø
2.1Thebasicideaunderlyinglinearregression
2.2SinglevariableOLS
2.3Correctlyinterpretingthecoefficients
2.4Examiningtheresiduals
2.5Multipleregression
2.6Heteroskedasticity
2.7Correlatederrors
2.8Multicollinearity
2.9Outlyingobservations
2.10Medianregression
2.11“Looping”
1.残差
F为真实值,为预测值,ε为残差。
OLS回归就是使残差最小。
2.基本一元回归
regressyx
3.回归结果的保存
回归结果的系数保存在_b[varname]内存变量中,常数项的系数保存在(_cons)内存变量中。
4、预测值及残差
●predictyhat
●predictyres,resid
yres即为真实值得与预测值之差。
5、残差与X的散点图
twoway(scattery_resx)(lfity_resx)
6、衡量估计系数准确程度:
标准误差。
用样本的标准偏差与系数之间的关系来衡量即T值(用系数除以标准差),同时P值是根据T值的分布计算出来的,表示系数落入标准对应上下限的可能性。
前提是残差符合以下假设:
同方差:
Homoscedasticity(i.e.,theresidualshaveaconstantvariance)
独立不相关:
Non-correlation(i.e.,theresidualsarenotcorrelatedwitheachother)
正态分布:
Normality(i.e.,theresidualsarenormallydistributed)
7、回归结果包含的一些内容的意思
●各变差的自由度:
FortheESS,df=k-1wherek=numberofregressioncoefficients(df=2–1)
FortheRSS,df=n–kwheren=numberofobservations(=11-2)
FortheTSS,df=n-1(=11–1)
●MS:
变差除以自由度:
Thelastcolumn(MS)reportstheESS,RSSandTSSdividedbytheirrespectivedegreesoffreedom
●R平方:
TheR-squared=ESS/TSS
●调整的R平方:
AdjR-squared=1-(1-R2)(n-1)/(n-k),消除了加入相关度不高解释变量后R平方增加的不足。
●RootMSE=squarerootofRSS/n-k:
模型的平均解释能力
●TheF-statistic=(ESS/k-1)/(RSS/n-k):
模型的总解释能力
1、假如想检验big6的审计费用在公开发行和非公开发行公司之间的区别时,可用交互变量。
Big6*listed.
2、变量回归系数的解释
(1)对连续变量系数的解释:
估计系数的经济意义是指X对Y的影响,可以有不同的方法来衡量:
一种是用X从25%变动到75%时Y的变动量。
或X变动一个标准差时Y的变动。
●regauditfeestotalassets
●sumtotalassetsifauditfees<
.,detail
●genfees_low=_b[_cons]+_b[totalassets]*r(p25)
●genfees_high=_b[_cons]+_b[totalassets]*r(p75)
●sumfees_lowfees_high
(2)对非连续变量的解释
一般使用0和1,而不是百分比。
●reglnafbig6
●genfees_nb6=exp(_b[_cons])
●genfees_b6=exp(_b[_cons]+_b[big6])
●sumfees_nb6fees_b6
1、报告结果时,不仅用R平方来衡量显著性,而且需要报告其他统计结果:
●istheresignificantheteroscedasticity?
●isthe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- STATA 实用 学习 笔记 doc