Stata命令整理.docx
- 文档编号:25169263
- 上传时间:2023-06-05
- 格式:DOCX
- 页数:10
- 大小:128.21KB
Stata命令整理.docx
《Stata命令整理.docx》由会员分享,可在线阅读,更多相关《Stata命令整理.docx(10页珍藏版)》请在冰豆网上搜索。
Stata命令整理
Stata命令整理
Stata命令语句格式:
[byvarlist:
]command[varlist][=exp][ifexp][inrange][weight][,options]
1、[byvarlist:
]
*如果需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得,
sortforeign//按国产车和进口车排序
.byforeign:
sumpriceweight
*更简略的方式是把两个命令用一个组合命令来写。
.byforeign,sort:
sumpriceweight
如果不想从小到大排序,而是从大到小排序,其命令为gsort。
.sort-price//按价格从高到低排序
.sortforeign-price/*先把国产车都排在前,进口车排在后面,然后在国产车内再按价格从大小到排序,在进口车内部,也按从大到小排序*/
2、[=exp]赋值运算
.gennprice=price+10//生成新变量nprice,其值为price+10
/*上面的命令generate(略写为gen)生成一个新的变量,新变量的变量名为
nprice,新的价格在原价格的基础上均增加了10元。
.replacenprice=nprice-10/*命令replace则直接改变原变量的赋值,nprice调减后与price变量取值相等*/
3、[ifexp]条件表达式
.listmakepriceifforeign==0
*只查看价格超过1万元的进口车(同时满足两个条件),则
.listmakepriceifforeign==1&price>10000
*查看价格超过1万元或者进口车(两个条件任满足一个)
.listmakepriceifforeign==1|price>10000
4、[inrange]范围筛选
sumpricein1/5
注意“1/5”中,斜杠不是除号,而是从1到5的意思,即1,2,3,4,5。
如果要计算前10台车中的国产车的平均价格,则可将范围和条件筛选联合使用。
.sumpricein1/10ifforeign==0
5、[weight]加权
sumscore[weight=num]其中,num为每个成绩所对应的人数
6、[,options]其他可选项
导入/导出其他格式数据
1、数据导入
insheetusing3origin.csv/txt,clear
insheetusing3origin.txt,doubleclear当数据中某个变量的位数特别长或者对导入数据的精度要求很高的时候,需要在该命令后面加double选项。
2、数据导出
outsheetusingmyresult.asc,nonames如果不希望在第一行存储变量名,则可以使用nonames选项
outsheetusingmyresult.asc,nonamesreplace如果文件已经存在,则需要使用replace选项
数据合并
1、纵向合并
usemale,clear//打开记录男生信息的数据文件male
appendusingfemale//将记录女生信息的female文件追加到当前数据集中
savemydata1,replace
2、横向合并
useeconomy,clear//打开经济学成绩数据文件
sortid//按学号排序
saveeconomy,replace//重新保存一下
usestudent,cclear//打开学生基本信息数据文件
sortid//按学号排序
mergeidusingeconomy//以学号为关联,将学生的信息和成绩一一对应对接
tab_merge//显示对接情况,3表示成功对接,1和2表示未成功对接
drop_merge//去掉标识对接是否成功变量_merge
Stata很多命令可单独使用,单独使用时,一般是对所有变量进行操作,等价于后面加上代表所有变量的_all
数据重整
1、长宽转换
宽:
长:
1)宽变长
usemywide,clear
reshapelongmatheconomy,i(idname)j(year)//数据重整,宽变长
savemylong,replace
2)长变宽
reshapewide
*或者
usemylong,clear
reshapewidematheconomy,i(idname)j(yearr)//数据重整,长变宽
savemywide2,replace
2、多列数据转为少数几列
有些数据集虽然有很多列,但实际上只有一个变量,利用stata转化成一项数据。
stackvar1-var6,into(x)clearx是新生成变量的名称
drop_stack变量stack记录观测值原来所在行数
3、数据转置
usemath,clear
xpose,clear
变量运算:
Stata中,加(+)号同样可用于字符运算,当加号出现在两个字符之间时,两个字符
将被连成一个字符。
比如把”我爱”“STATA”合并在一起,命令为:
.scalara=”我爱”+“STATA”
一些运算函数:
comb(n,k)从n中取k个的组合
fill()自动填充数据
int(x)取整
log10(x)以10为底的对数
mod(x,y)求余数
round(x)四舍五入
diround(3.345,.1)//四舍五入到十分位,结果为3.3
diround(3.345,.01)//四舍五入到百分位,结果为3.35
diround(335.1,10)//四舍五入到十位,结果为340
sqrt(x)开更号
substr(s,n1,n2)从S的第n1个字符开始,截取n2个字符
word(s,n)返回s的第n个字符
_n当前观察值的序号
_N共有多少观察值
geny=sum(x)//求列累积和
egenz=sum(x)//求列总和
egenavgx=mean(x)//求列均值
egenbytedxy=diff(xy)//当x与y相等时,differ取0,若不相等为1
分离变量值
clear
inputstr15x
"10*123"
"543*21"
"12*422"
"43532*32134"
"4349*1"
end
gena=strpos(x,"*")//计算出*所在的位数
genb=substr(x,1,a-1)//取*前面的字符
genc=substr(x,a+1,.)//取*后面的字符
stata中,系统缺失值大于任何一个数据,因此在生成分类哑变量时:
genagegrp2=(age>=65)ifage<.生成的数据中,将缺失值排除在外
生成分组变量:
clear
setobs100//设定100个观察值
genage=_n//生成一个假设的年龄变量age,依次取1,2,…,100
recodeage(min/30=1)(30/60=2)(60/max=3),gen(agegrp)/*生成新的分组变量agegrp,当年龄age在30及以下时取值为1,30到60为2,60以上为3*/
分组运算:
byx,sort:
genn1=_n根据x的不同,生成n1变量对不同类的x计数
byhhid,sort:
egenmage=mean(age)//根据不同类别求平均年龄
bysorthhid(age):
gennid1=_n//括号中的变量age只排序,不参于分组。
bysorthhidage:
gennid2=_n//hhid和age都既用来参与排序也分组
encodecountry,gen(country1)将文本变量转化为数值变量
display5+9显示计算结果
sumpriceweight描述统计:
求价格和重量的观察值个数、平均值、标准差、最小值和最大值
scatterpriceweight绘出价格和重量的散点图
linepriceweight,sort绘出价格和重量的折线图
clear清除内存中原有内容
cdd:
/stata9在打开数据之前,先定位数据的位置
use打开STATA格式的数据文件
setobs5//设定5个观察值
dir查看当前路径下有哪些文件
savemydata//保存数据,数据文件名为mydata
savemydata,replace如果同一文件夹下已经存有mydata.dta,而你又要再次执行savemydata时
edit编辑数据
log将输出结果存放入结果文件
genid=_n//生成一个新变量id,根据观测值排列顺序从上到下取值依次为123……
replaceid=9842in3第三个观测的id值改变
compress//压缩数据,使之在不损失任何信息的前提下占用空间最小
erasemydata1.dta删除文件,一定要带上后缀名。
报告数据
describe总体展示变量信息
codebook展示数据库中的每个变量情况(有多少缺失值,主要分位数,区间)
list列示内存中的数据
count报告共有多少观察值
inspect报告变量的分布
table数据列表
tabulate联列表
append将有相同结果的数据纵向拼接(观察值拼接)
merge将两个数据文件横向拼接
xpose数据转置
reshape
generate生成新的数据
egen生成新的数据
rename变量重命令
drop删除变量或观察值
keep保留变量或观察值
sort对观察值按从小到大顺序重新排列
encode数值型数据转换为字符型数据
decode字符型数据转换为数值型数据
order变量顺序的重新排列
by分类操作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Stata 命令 整理