stata使用手册资料.docx
- 文档编号:8458600
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:16
- 大小:21.91KB
stata使用手册资料.docx
《stata使用手册资料.docx》由会员分享,可在线阅读,更多相关《stata使用手册资料.docx(16页珍藏版)》请在冰豆网上搜索。
stata使用手册资料
STATA基本入门
前言
STATA是一个十分好用而且简单的统计软件包,透过轻松的数据输入方式,而且简单的指令,即可执行一般在计量经济学上常用的计量模型。
除了计量模型外,STATA的软件包中也可执行统计学中的估计和检定,甚至是多变量分析中的各项分析工具。
因此,STATA可以说是一个相当强而有力的统计软件。
一、安装
STATA所须的内存容量不大,只有4.03MB。
此外,安装也相当简单,只要在〝SETUP〞上点两下,安装完成后再分别输入”Sn”、”Code”和”Key”即可
开始使用。
但是安装过程中有一点必须注意的是,如下图所示,有”Intercooled”和”Small两”个选项。
一般而言,为了方便日后要设定较大的内存容量来处理大笔的资料,通常选择以”Intercooled进”行安装。
以此項進行安裝
二、窗口介绍
安装完成后,点选桌面上STATA的图标,窗口画面如下图所示。
为了使画
面美观,我们可以将画面拉到自己喜欢的地方,如下图所示。
为了保存这个窗口画面,我们必须点选工具列上的”Prefs下”的”SaveWindowingPreferences。
”如此一来,以后开启STATA时都会以此窗口画面呈现。
執行過的
指令都會
保留於此
指令的執
行結果看
這裡
資料中
的變數
在這裡
在此輸
入指令
setmoreoff。
接下来,我们依序介绍四个窗口的功用:
左上─Review:
此一窗口用于记录在开启STATA后所执行过的所有指令。
因此,若欲使用重复的指令时,只要在该指令上点选两下即可执行相
同的指令;若欲使用类似的指令时,在该指令上点一下,该指令即会出现在窗口”StataCommand”上,再进行修改即可。
此外,STATA还可以将执行过的指令储存下来,存在一个do-file内,下次即可再执行相同的指令。
左下─Variables:
此一窗口用于呈现某笔数据中的所有变量。
换言之,当数据中的变量都有其名称时,变量名称将会出现在此一窗口中。
只要数据有读进STATA中,变量名称就会出现。
它的优点是
(1)确认数据输入无误;
(2)只要在某变量上点选两下,该变量即会出现在窗口”StataCommand”上。
右上─StataResults:
此一窗口用于呈现并记录指令执行后的结果。
右下─StataCommand:
此一窗口用于输入所欲执行的指令。
Note:
以上四个窗口都可以从”Fonts去”更改字体大小。
三、输入数据(Enteringdata)
在本小节中,我们将介绍如何把数据读进STATA。
但是在正式介绍之前,我们必须先对几个一般性的指令(generalcommand)有所了解,说明如下:
cd:
即changedirectory,简言之,告知STATA数据储存的地方。
例如当数据储存在e槽的sample数据夹时,则必须先输入cde:
\sample。
dir/ls:
用来显示目录的内容。
setmemory#m:
设定内存的容量。
例如:
当有一笔庞大的数据要处理时,则可设定100mb的容量,此时可输入setmemory100m。
(输入指令memory可以知道内存容量的大小以及使用情况。
)
setmatsize#:
设定所需的变量个数。
一般而言,不须对此部分进行设定,
除非所欲处理的资料庞大或是当执行后出现matsizetoosmall的讯息时再进行修改即可。
内建为40。
setmoreoff/on:
若欲执行结果以分页的型式呈现时,则输入setmoreon;
若欲执行结果同时呈现时,则输入
help:
求助键。
后面必须接的是指令。
说明如何使用该指令,例如:
helpregress。
search:
求助键。
后面可接任何文字。
说明在何处可以找到该文字。
例如:
searchnormaldistribution。
clear:
清除键。
用来删除所有数据。
接下来,根据数据类型或指令的不同,数据输入的方法可分成以下四种:
1、输入EXCEL数据
将EXCEL的数据输入STATA的方式还可细分成以下两种:
将EXCEL的数据输入STATA之前,必须先将数据存成csv文件,再利用指令insheet来读数据。
Example:
当csv档的第一列有变量名称时:
cde:
\sample
dir
memory
setmemory10m
insheetusingsample1-1.csv
当csv档的第一列没有变量名称时:
insheetgenderidracesesschtypprgtypereadwritemathsciencesocstusingsample1-2.csv
直接复制EXCEL上的数据,再到STATA选取”Window”下的”DataEditor,”点选后会出现”StataEditor工作”表,再到”Edit下”选取”Paste即”可贴上数据。
2、输入ASCII的数据型态
依ASCII的数据型态区分,将ASCII的数据输入STATA的方式也有以下
两种:
数据型态一:
见sample1-3.txt
infilegenderidracesesschtypstr10prgtypereadwritemathsciencesocstusingsample1-3.txt
Note:
记住文字的设定方式(str#variablename)。
数据型态二:
见sample1-4.txt
第二种的数据型态通常须要codebook。
如下表所示。
variablenameColumnnumber
id1-2
eng3-4
math5-6
sex7
micro8-9
macro10-11
infixid1-2eng3-4math5-6gender7micro8-9macro10-11usingsample1-4.txt
3、利用Do-fileeditor输入数据
将数据或是指令写入Do-fileeditor,再执行即可。
例如:
将下面数据复制并贴在Do-fileeditor(选取”Window”下的”Do-fileeditor)上”,再选择”docurrnetfile执行”即可。
cde:
\sample
inputidfemaleracesesstr3schtypeprogreadwritemathsciencesocst
147113pub14762535361
108012pub23433413636
18032pub35033494436
153012pub33931403951
50022pub25059425361
51121pub24236423139
102011pub15241515356
57112pub17165726656
160112pub15565555061
136012pub16559706351
end
4、利用STATA的数据型态输入
除了以上三种方法之外,还可以开启之前以STATA储存的资料。
usesample1-6.dta
Note:
此一指令亦可用在读取网络上的数据(use网址)。
最后,将数据输入的相关指令整理成下表。
insheet
infile
infix
input
use
readASCII(text)datacreatedbyaspreadsheetreadunformattedASCII(text)datareadASCII(text)datainfixedformatenterdatafromkeyboardloadaStata-formatdataset
四、探索资料(Exploringdata)
为了更详细地呈现出在数据探索时所需使用的相关指令,我们利用sample4-1来说明指令的用法。
首先,利用前节所提及的数据输入方法将sample4-1读进STATA。
在正式分析数据之前,我们可以利用一个log档来储存之后所要执行的指令以及所得到的结果。
指令的表示方法如下:
logusingresult4-1,text(log檔的名稱為result4-1)
接下来,我们可以先利用下面的指令来检视sample4-1的数据:
count:
可得样本数。
describe:
描述数据来源以及数据大小。
list:
依序列出观察值的各个变量值。
codebook:
描述资料的详细内容。
此外,我们就可以利用summarize、tabulate和tabstat等指令得到数据的叙述统计与基本特性。
表示如下:
summarize:
列出资料的叙述统计。
Example:
summarizewrite,detail
sumwriteifread>=60(sum是summarize的简写)
sumwriteifprgtype=="academic"(接在if之后的句子中
的”=”要放两个)
sumwritein1/40(只列出第1笔到第40笔资料)
tabulate:
列出变数的次数表。
Example:
tabulateprgtype
tabulateprgtyperace
tabulateprgtype,summarize(read)
tabulateprgtyperace,summarize(write)
tabstat:
列出变量的叙述统计。
Example:
tabstatreadwritemath,by(prgtype)stat(nmeansd)
tabstatwrite,stat(nmeansdp25p50p75)by(prgtype)
接下来,我们介绍一些用来划图的指令:
茎叶图:
stemwrite
stemwrite,lines
(2)
直方图:
graphwrite,bin(10)
graphwrite,histnormalbin(10)
箱形图:
graphwrite,box
sortprgtype(要先有这个指令才能执行下一个指令)
graphwrite,boxby(prgtype)
此外,利用correlate或是pwcorr可以得到相关矩阵;亦可利用graph划出散布图。
correlatewritereadscience
pwcorrwritereadscience,obs
graphwriteread,twoway
graphwriteread,twojitter
(2)(two是twoway的簡稱,jitter是用來區分重疊的觀察點)
graphwriteread,twojitter
(2)box
graphreadsciencewrite,matrixhalf
现在我们可以将log文件结束了,指令输入如下:
logclose
若欲检视log档中的结果,可以输入指令:
typeresult4-1.log
或是到所储存的目录下点选。
最后,将数据探索的相关指令整理成下表。
countShowthenumberofobservations
describeDescribecontentsofdatainmemoryorondisk
listListvaluesofvariables
codebookDetailedcontentsofadataset
logCreatealogfile
summarizeDescriptivestatistics
tabulateOne-&two-wayfrequencytables
tabstatTableofdescriptivestatistics
stemStem-and-leafplot
graphHighresolutiongraphs
sortSortobservationsinadataset
histHistogramofacategoricalvariable
correlateCorrelations
pwcorrPairwisecorrelations
typeDisplayanASCIIfile
五、修饰资料(Modifyingdata)
在本小节中,我们亦利用sample4-1的数据进行说明。
首先,读进数据。
读完数据后,可以为此数据取个名称,指令如下:
labeldata"HighSchoolandBeyond,200cases"
现在我们可以将变量的顺序作一排列。
例如:
原先的变量顺序为gender、id和race⋯,但是我们想把顺序改成id、gender和race⋯,则可以下面的指令
来执行:
orderidgender
在执行codebook时,我们会发现有些变量尚未加上卷标(label),为了更清楚地表达变量所代表的意义,我们可以执行以下的指令:
labelvariableschtyp"Thetypeofschoolthestudentattended."
现在,我们想要产生一个新变量total,此变量代表read、write和math的总和。
指令如下:
generatetotal=read+write+math
此外,若是我们想加总的分数是read、write和socst,而非read、write
和math,此时的指令输入如下:
replacetotal=read+write+socst
另一方面,我们还可以将变量total表示成以等级(A、B、C、DandF)
的形式。
指令如下:
generategrade=total
recodegrade0/80=080/110=1110/140=2140/170=3170/300=4labeldefineabcdf0"F"1"D"2"C"3"B"4"A"labelvaluesgradeabcdf
为了记忆变量的意义为何,我们还可以利用note的方式来记录变量。
指令如下:
notesrace:
valuesofracecodedas5wererecodedtobemissingnotes(叫出note的指令)
另外,介绍一些利用公式来产生变量的指令。
egenzread=std(read)
summarizezread
listreadzreadin1/10
egenrmean=mean(read),by(ses)
listreadsesrmeanin1/10
egenmread=median(read),by(prog)
listreadprogmreadin1/10
最后,我们可以将以上的执行结果储存下来。
指令如下:
savesample5-1(存成另一個檔)
savesample4-1(取代原來的sample4-1)
现在亦将数据修饰的相关指令整理成下表。
labeldata
order
labelvariablegeneratereplacerecodeLabelvalueslabeldefinenotes
egen
save
Applyalabeltoadataset
Orderthevariablesinadataset
Applyalabeltoavariable
Createsanewvariable
Replacesonevaluewithanothervalue
Recodethevaluesofavariable
Applyvaluelabelstoavariable
DefineasetofalabelsforthelevelsofacategoricalvariableApplynotestothedatafile
Extendedgenerate-hasspecialfunctionsthatcanbeusedwhencreatinganewvariable
StorethedatasetcurrentlyinmemoryondiskinStatadataformat
六、管理数据(Managingdata)
在本节中,我们将进一步介绍如何将数据作一些特殊的处理,例如:
保留所欲分析的数据、删除多余的数据或是将两份数据结合等等。
假设我们只想针对部分的数据进行处理,而又想保留原始资料时,则有以下两种方法可进行:
1、另存新檔:
亦即将所欲分析的部分数据储存在另一个档案中。
例如:
我们只
针对read成绩大于或是等于60分的学生进行分析,则可利用下
面的指令来筛选。
keepifread>=60
summarize
savesample6-1
Note:
当只要保留某些变量时,则利用指令keep。
例如:
keepreadwrite。
2、直接处理:
亦即在原始数据上进行分析。
承上例,指令输入如下:
preserve
dropifread<60
summarize
restore
Note:
若要删除某些变量时,则利用指令drop。
例如:
dropreadwrite。
接下来,我们介绍如何将两笔数据结合在一起。
数据的结合主要可以分为两种,水平合并和垂直合并。
前者是指变量的增加;后者则是指样本数的增加。
说明如下:
1、水平合并
usesampleh1
appendusingsampleh2
2、垂直合并:
usesamplev1
sortid
savesamplev1,replace
usesamplev2,clear
sortid
save,replace
usesamplev1
mergeidusingsamplev2
Note:
在垂直合并前要记得先sort。
最后,我们将数据修饰的相关指令整理成下表。
keepif
dropif
keep
drop
appendusing
sort
merge
Keepobservationsifconditionismet
Dropobservationsifconditionismet
Keepvariables(droppingothers)
Dropvariables(keepingothers)
Appendadatafiletocurrentfile
Sortobservations
Mergeadatafilewithcurrentfile
七、资料分析
透过前面几节的介绍,应该对于STATA的指令和使用方法有了基本的认识。
现在,我们开始说明如何利用STATA来处现统计上的问题以及计量方面的模型。
1、检定:
我们利用下面的例子来示范如何进行统计上的检定工作。
sample4-1
sample7-1
:
ttestwrite=60
ttestwrite,by(gender)
ttestwrite,by(gender)unequal
:
ttestbefore=after
2、回归
在执行回归分析时所使用的指令为regress。
cde:
\sample
usesample7-2
regressgrowthlnrlp84lnempoclnempcr4lnrdoc
另外,当存在heterogeneityofvariance的问题时,可在后面加上robust;另外,若是不想放入截距项时,可在后面加上noconstant。
若欲得到残差值,可输入以下指令:
predicte,residual
3、二元选择模型
在执行二元选择模型时所使用的程序写法与执行回归分析时相同,只是所使用的指令不同。
在logit模型时为logit;在progit模型时为progit。
clear
usesample7-3
logitocrlpemptotrlp2emptot2rlpemplnrd
lstat
logitocrlpemptotrlp2emptot2rlpemplnrd,or
probitocrlpemptotrlp2emptot2rlpemplnrd
lstat
dprobitocrlpemptotrlp2emptot2rlpemplnrd
4、Treatmenteffectmodel
原则上,STATA在处理计量模型时,格式上大都一致,亦即〝指令被解释变量解释变量〞的输入型式。
我们再举一个计量模型来说明,例如:
在有关自
我选择的问题时,为了考虑内生性的情形,计量学家提出了一个Treatmenteffectmodel,其指令的撰写如下:
clear
usesample7-2
treatreggrowthlnrlp84lnempoclnemplnrdcr4,treat(oc=rlp84
emptot
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- stata 使用手册 资料