stata统计分析与应用笔记汇总Word文件下载.docx
- 文档编号:17521419
- 上传时间:2022-12-07
- 格式:DOCX
- 页数:16
- 大小:38.40KB
stata统计分析与应用笔记汇总Word文件下载.docx
《stata统计分析与应用笔记汇总Word文件下载.docx》由会员分享,可在线阅读,更多相关《stata统计分析与应用笔记汇总Word文件下载.docx(16页珍藏版)》请在冰豆网上搜索。
labeldefinelblname#“lable”[#“lable”](lblname是标签名称)
然后将定义好的数值标签添加到变量上:
labelvaluesvarlist[lblnamel.]
2.2创建一个新的数据集
1.关于数据集操作的基本命令
(1)browse和edit命令:
browse用于打开数据浏览器,edit命令用于打开数据编辑器
Edit[varlist][if][in]
browse[varlist][if][in](if和in用于选择需要的子集)
(2)rename:
renameold_varnamenew_varname
(3)save命令:
save[filename][,save_options]([,save_options]可以指nolabel(不保存设定标签),replace(允许新文件覆盖原文件),all主要用于编程
(4)describe:
用于产生一个对数据集的简明总结
格式:
describe[varlist][,memory_options](命令选项:
simple,short,detail,fullnames)
(5)list:
用于显示变量的数值,其后可以跟需要显示的变量名称
语法:
list[varlist][if][in][,options]
(命令选项包括:
noobs(不显示观测值的数值),clean,separator,sepby,nolabel)
(6)codebook:
用于详尽地描述变量的内容,包括变量名称、标签、赋值。
codebook[varlist][if][in][,options]
(命令选项有header,notes,mv,problems,compact)
2.举例应用:
输入原始数据
定义变量名
添加标签
使用describe和codebook命令查看数据全貌
保存数据到硬盘的工作目录
2.3导入已创建的数据集
1.一般原则:
(1)打开数据集前要用clear命令清除内存中的数据集
(2)可用setmemory50m,permanently来设定空间
(3)读入数据方法:
可用use,edit,insheet,infile,infix,等
(4)在数据文件不是太大的情形下,使用Excel文件粘贴复制就可以完成数据读入
2.读取格式为.dta的数据
一般:
usefilename[,clearnolabel](clearnolabel是两个选项)此时filename为当前工作目录下的文件
3.利用Excel复制数据进入Stata系统中
2.4Stata中的表达式
1.算术符号:
+、-、*、/、^(乘方)、-(负号)
2.关系符号(六种):
==(等于),!
=(不等于),
3.逻辑符号:
!
(或),
(且),“|”(非)
2.5Stata中的常用函数
2.6使用in、if和by语句定义数据子集
许多命令都可以限制为对数据的个子集执行,这就需要在命令中加上in或者if选择条件
1.in的语法:
commandinrange(command是命令,range可以是数字#,也可以是从某
数字到另一个观测值“#/#”或者从某个数字到最后“#/1”,以及从开始到最后“f/#”
2.if的语法:
commandifexp(exp是需要满足的表达式)
3.by语句的使用:
大多数Stata命令都允许使用by前置语句,用来对某些变量具有相同赋值的样本子集重复执行命令,
by的语法:
byvarlist:
Stata_cmdbysortvarlist:
Stata_cmd(Stata_cmd表示要执行的命令,bysort和by本质相同,只不过前者先对varlist排序再分组,一般用bysort
2.7变量的相关操作
1.建立新的变量generate
generate语法:
generate[type]newva=exp[if][in]
(type是可选项用于指定创建的变量的类型,newva是新变量名称,exp是赋值表达式
注意:
(1)一定要区分“=”和“==”
(2)生成新变量中往往会产生缺失值
2.更改已有的变量replace
Replace的语法:
replaceoldvar=exp[if][in][,nopromote]
选项nopromote阻止Stata改变变量的类型来适应新的赋值,较少使用
3.egen命令
egen表示对generate命令的扩展,它有自己一系列用于完成generate命令无法轻易完成的函数egen语法:
egen[type]newvar=fcn(arguments)[if][in][,options]
(fcn是egen命令中特有的函数,arguments表示表达式、变量名或者数字列表,它们依函数而定,选项也依函数而定
2.8数值和字符串的转换
1.encode和decode命令
encode命令可为已经存在的字符串变量添加一个去了标签的数值型变量
decode命令可以根据一个数值型变量和它的标签生成一个字符型变量,
字符型到数值型变量语法:
encodevarname[if][in],generate(newvar)[label(name)]
Varname表示要进行转换的变量,newvar表示要生成的新变量,label(name)是指定新变量的标签名,没有的话,默认与原变量相同
数值型到字符型变量语法:
decodevarname[if][in],generate(newvar)[maxlength(#)]
maxlength(#)用来指定新生变量的长度
2.real函数
real()用于从合适的字符串表达式中得到数值,如real(“5.2”)+1=6.2如果字符串中不含数字则返回“.”
2.9生成分类变量和虚拟变量
1.生成虚假变量
虚拟变量的取值非此即彼,如female=1表示男性,female=0表示女性
(1)使用generate和replace生成虚拟变量,如:
usewage,replace
gencollege=0
replacecollege=1ifeduc>
=12
listeduccollegein1/10
(2)使用generatenewvar=(varname>
#)生成虚拟变量
generatenewvar=(varname>
#)是一个生成虚拟变量的快捷方式,在这个命令中,第一个等号表示定义:
满足其后小括号中的观测案例将会在新的变量中定义为1,其余的情况则定义为0
上
(1)有程序
generatecollege=(educ>
=12)
2.生成分类变量
(1)generate加replace命令生成分类变量
如将edu6教育水平划分为6个等级,和虚拟变量不同之处在于这是6组
(3)recode命令
recode类似replace也可对已有变量重新赋值,语法如下:
recodevarlist(rule)[(rule)…][,generate(newvar)]
(varlist是需要进行转换赋值的变量名,rule是事先确定的转换规则,选项[,generate(newvar)]用于将转换后的变量保存为一个新的变量
recode的常见赋值规则有#=#,##=#,#/#=#,nonmissing=#,minssing=#
如:
recodex1(1=2)(2=1),gen(nx1)
3.使用autocode()、recode()和group()3个函数生成分类变量
genvarlist=autocode(x,n,xmin,xmax)
genvarlist=group(x)
genvarlist=autocode(x,
)
2.10数据的整理(将存放在不同的数据文件里的数据文件合并)
1.数据的横向合并:
指将两个数据文件的变量加总在一起。
合并后数据的样本不变,但变量的数目增加了,也就是使得数据文件变宽了。
用merge命令语法:
merge[varlist]usingfilename[filename…][,options]
varlist指的是合并序号变量,[filename…]用于合并两个以上的数据,易出错。
Options选项可以有:
merge(newvar),update,replace,nokeep,nosummary
2.数据的纵向合并:
指的是把两个数据的样本加总在一起,合并后的数据变量数目不变,但样本数目增加了,也就是使得数据变长了。
用append命令语法:
appendusingfilename[,options](选项有keep,nolabel,nonotes)
3.数据的交叉合并:
指的是把一个数据的个案和另外一个数据的个案交叉搭配生成新的数据。
(1)用jobby进行组内交叉语法:
joinby[varlist]usingfilename[,options]
(2)用cross进行一一交叉语法:
crossusingfilename
4.数据的抽取:
对于大型数据,需抽取再分析
sample命令:
sample#[if][in][,countby(groupvars)]
#是样本容量(或样本百分比),如果指定count,那么#就是样本内观测值个数;
如果没有指定count,那么#就是抽取样本的百分比。
by(groupvars)可进行组内抽取,还可以用setseed5来保证每次抽取的样本相同
第三章图形绘制基础
3.1Stata绘图简介
用户可用Graphics菜单制图,但不推荐。
1.主要的图形类型:
直方图、扇形图、条形图、散点图、直线图以及数据拟合图(一维或二维图),还可绘如盒形图,长钉图,圆点图、面积图以及其他常见图。
2.图形的组成部分与制图命令的结构
3.寻求帮助:
helpgraph
3.2绘制散点图
1.绘制散点图的命令和最基本的使用:
语法如下
[twoway]scattervarlist[if][in][weight][,options]
以下三种也可识别scatter语句
graphtwowayscatter…
twowayscatter…
scatter…
如果命令后紧跟两个变量名,则Stata会默认第一个为y轴变量,第二个为x轴变量;
如果命令后有两个以上的变量,那么Stata会将除最后一个以外的变量作为y轴变量,而将最后一个变量当成x轴变量。
scatter命令是graphtwoway(二维绘图命令)中最基本的一个,其它的都是在散点图的基础上进行的。
Scatter绘图还可以与其他类型二维制图命令放在一起,绘制重叠的复合图形比如:
twoway(scatter…)(line…)(lfit…)
scatter…||line…||lfit..||…
2.散点显示选项的设定:
包括形状、颜色、大小
3.散点标签选项:
散点标签一般是指位于每个散点旁的用于说明散点所代表个体的文字。
4.连线选项的设定:
用来设定如何用线将散点图上各点连接起来,这样可以更加清楚地看变动的趋势
5.振荡选项的设定:
有时候,由于数据点太密集,甚至产生了重叠,使得在观察数据中的趋势受到影响,需要将这些数据点轻微的挪动位置,使得重合的数据点相互分开。
使用jitter(#)选项
3.3二维绘图选项
3.2主要讲解了散点图所特有的选项,这节讲所有二维绘图所共有的选项:
标题选项、坐标选项、图例选项、增加线选项,by选项、scheme选项、轴线选择选项、图形保存选项以及图形输出选项。
1.坐标轴尺度选项组的设定
坐标轴尺度选项:
yscale(axis_suboptions),设定y轴的外观
xscale(axis_suboptions),设定x轴的外观
tscale(axis_suboptions),设定t轴的外观
还有子选项的设定,即设定坐标轴尺度选项中可以填充的内容
2.坐标轴刻度选项组的设定:
用于控制坐标轴的刻度和刻度的标识
3.坐标轴选项组的设定:
用于设定坐标轴的标题
4.标题选项组的设定:
用于设定绘图的标题以解释图像的内容
5.图例选项的设定:
当图形中包含多个组别的相似内容时,Stata将生成图例。
图例表示图形当中不同符号对应着的内容,它使得读者能够轻松读懂图中不同符号的含义。
6.by选项的设定:
一旦设定选项by(),Stata会根据括号中变量的不同取值重复作图,因此by的依据往往是分类变量,比如性别、民族、国内国外等。
by(varlist[,byopts]
7.scheme选项的设定:
控制图形显示格式
8.轴线选择选项的设定
9.增加线选项的设定:
用于在二维图形上添加增加线
10.scale选项的设定:
调整整个图像包括文本、标记和线段的大小
11.图形保存选项:
Stata将本身生成的图形存储分为两种形式:
一种是内存的激活状态,另一种是存入硬盘的状态
graphsavemyfile,replace,可将文件存储到硬盘中,保存成myfile文件,replace表示覆盖相同的名称的文件
12.图形的输出选项:
(1)图形打印
(2)存储为其他格式
第4章其他图形绘制
4.1绘制曲线标绘图和连线标绘图
1.绘制曲线标绘图:
所谓曲线标绘画,就是其中点用线段连接起来的散点图,不过新的选项可以控制曲线本身的特征
曲线标绘图的命令语法:
[twoway]linevarlist[if][in][,options]
2.绘制连线标绘图:
连线标绘图是将每个散点连接起来,但不隐藏点。
命令:
twowayconnectedvarlist[if][in][weight][,scatter_options]
4.2绘制拟合图形
1.绘制一次拟合图形:
实际分两步,首先使用Stata使用yvar为因变量,xvar为自变量进行一元线性回归,然后得到yvar的拟合值比如说是hat,然后用hat对xva做曲线标绘图,同是复合原始数据的散点图。
twowaylfityvarxvwr[if][in][weight][,options]
sysuseauto
Scattermpgweight||lfitmpgweight
2.绘制二次拟合图形:
命令twowayqfityvarxvar[if][in][weight][,options]
如sysuseauto
scattermpgweight||qfitmpgweight
4.绘制lowess拟合图形:
由于具有对拟合过程进行控制的选项,lowess命令总的来说更为专业也更为强大。
twowaylowessyvarxvwr[if][in][weight][,options]
twowayscattermpgweight||lfitmpgweight||lowessmpgweight
4.3绘制条形图
graphbaryvars[if][in][weight][,options](绘制纵向条形图)
graphbarhyvars[if][in][weight][,options](绘制横向条形图)
1.关于分类变量的讲解
2.关于外形图外观的讲解
第5章描述性统计分析
描述性统计的统计量大致可分为三类:
一是描述中心位置的度量;
二是描述波动情况的度量;
三是描述数据集中一个观测值相对位置的度量。
另一个重要功能是分析异常值
5.1描述性统计的原理
1.定性变量:
频率和频数
2.定量变量:
(1)集中趋势的度量:
算术平均、中位数和众数
(2)变异程度的度量:
极差(最大和最小观测值之差)、方差、和标准差
(注意切比雪夫法则)
(3)相对位置的度量:
百分数和z得分(100p百分位数是数据集的相对频率分布中有100p%的面积位于它的左边,有100(1-p)%的面积位于它的右边,z=
(4)偏度和峰度:
偏度系数SK=
5.2描述性统计量的Stata实现
1.使用summarize命令计算和导出描述性统计量
summarize[varlist][if][in][weight][,options]
2.使用tabstat命令计算描述性统计量
tabstatvarlist[if][in][weight][,options]
Tabstat与summarize的不一样之处在于其by()选项允许对by()中变量不同的取值分别做描述性统计
5.3探测异常值
1.计算z得分
quietlysummarizewage
genz=(wage-r(mean))/r(sd)
listwagezifz>
3
3.箱线图(不太理解)
graphboxyvars[if][in][weight][,options]
graphhboxyvars[if][in][weight][,options]
5.4数据的正态性检验和数据转换
正态性的检验包括:
图形检验、卡方检验和其他统计检验
1.分位正态图的绘制的命令格式:
qnormvarname[if][in][,options]
2.偏度-峰度检验:
sktestvarlist[if][in][weight][,noadjust]
3.Shapiro-WilkW检验swilkvarlist[if][in][,options]
4.Shapiro-FranciaW’检验sfranciavarlist[if][in]
5.D’Agostino检验sktestdcvarlist[=esp][ifexp][inrange][,noadjust]
5.5相关系数
常用的相关系数共有如下4类:
pearson相关系数、Kendall
相关系数、Spearman秩相关系数以及偏相关系数
1.pearson相关系数:
correlate[varlist][if][in][weight][,correlate_options]
pwcorr[varlist][if][in][weight][,pwcorr_options]
2.spearman和Kendall相关系数:
ktauwageeducexpertenure,star(.05)
3.偏相关系数:
pcorrvarnamelvarlist[if][in][weight]
第6章列联表分析
6.1列联表分析
列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法
1.独立性检验统计量:
常用到皮尔逊卡方统计量和似然比统计量
2.列联表中的相关测量统计量:
度量两变量的关联强度,可以考察各种相关测量统计量,对于名义变量而言,这些统计量有Phi系数、列联系数、Cramers’V系数;
对于定序变量而言,可以使用
统计量、Kendall
统计量、Stuart
统计量,它们的数值越大就表明行变量和列变量之间的关联越强
6.2Stata的列联表分析—table和tabulate命令
其中table命令可以很方便地生成列联表,而tabulate可以进行独立性检验
1.table命令格式:
tablerowvar[colvar[supercolvar]][if][in][weight][,options]
rowvar代表行变量,colvar代表列变量,supercolvar代表更高阶的列变量,weight表示权重
2.tabulate命令进行列联表分析
(1)一维tabulate命令,主要用于生成含有频数的一维表格
tabulatevarname[if][in][weight][,tabulate1_options]
(2)二维tabulate命令
二维tabulate命令在生成二维表格的同时,可以计算多种独立性检验统计量和相关测量统计量
命令格式:
tabulatevarname1varname2[if][in][weight][,options]
6.3利用Stata生成包含描述性统计量的列表
1.tabstat可以在一个表格中显示多个变量的多种描述性统计量
Tabstatvarlist[if][in][weight][,options]
3.tabulate,summarize()用于生成一维或者二维的包含均值和标准差的表格,事实上,table比tabulate,summarize()更加灵活,而tabulate,summarize()的特点在于运行更快
tabulate,summarize()命令格式:
tabulatevarname1[varname2][if][in][weight][,options]
第7章方差分析
7.1t检验(样本小于30)
1.t检验的Stata基本命令
(1)单样本t检验的Stata操作
命令1:
ttestvarname==#[if][in][,level(#)](通过样本进行t检验)
命令2:
ttesti#obs#mean#sd#val[,level(#)](通过样本的统计指标进行t检验)
其中,#obs为样本容量,#mean为样本均值,#sd为标准差,#val为待检验数值,level为置信度水平
2.两
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- stata 统计分析 应用 笔记 汇总