stata入门中文讲义.docx
- 文档编号:10022471
- 上传时间:2023-02-08
- 格式:DOCX
- 页数:54
- 大小:664.01KB
stata入门中文讲义.docx
《stata入门中文讲义.docx》由会员分享,可在线阅读,更多相关《stata入门中文讲义.docx(54页珍藏版)》请在冰豆网上搜索。
stata入门中文讲义
及数据处理
第一章 基础
命令格式
缩写、关系式和错误信息
文件
标量和矩阵
使用命令的结果
宏
循环语句
用户写的程序
参考文献
练习
第二章数据管理和画图
数据类型和格式
数据输入
画图
第章线性回归基础
数据和数据描述
变量描述
简单统计
二维表
加统计信息的一维表
统计检验
数据画图
回归分析
相关分析
线性回归
假设检验
估计结果呈现
预测
资源
第章数据处理的组织方法
、可执行程序的编写与执行
方法:
文件
方法:
交互式命令
方法:
在文件中使用命令
方法:
文件合并
方法:
文件
、文件的组织
、数据导入
、和的用法
第一章 基础
的使用有两种方式,即菜单驱动和命令驱动。
菜单驱动比较适合于初学者,容易入学,而命令驱动更有效率,适合于高级用户。
我们主要着眼于经验分析,因而重点介绍命令驱动模式。
图 的基本界面
关于的使用,可以参考手册,特别是[],尤其是第1章和第2章。
有关使用的资料非常多,其中官方的有手册,比如对于初学者,[]是有用的起点,最有用的手册可能是[]’。
除此之外,还有很多的其他相关手册,相关介绍参见用户手册[]—。
()和()是的官方期刊,里面介绍一些没有包括在当前安装里的例子和程序。
其中,是的前身,自年起,改为。
另外,的网站上有很多有用的信息软件本身也提供很多有用的帮助命令,其中使用最多的可能是命令,比如当你忘记命令的使用方法时,可以在命令窗口输入,从而调出的窗口,提供命令的使用方法。
有时,你如果不知道具体的命令,也可以使用命令获得帮助,比如想了解特征的函数命令,但有忘记了,可以使用调出所有的函数。
另外,还提供、、等搜索命令。
会在官方帮助文件、、例子、、等搜索关键词,但不会搜索网络。
会在网络(包括)上搜索可安装的程序。
会进行更广范围的搜索,包括本机和网络信息,并且关键词不必完整。
会在本机上搜索所有的帮助文件(扩展名为或的文件),包括官方命令和用户写的命令。
1.1命令格式
所有命令基本具有下列模式
[:
][][][][][][][,]
方括号表示可选项,打字机体是直接输入,斜体需要用户替代,其中
表示前缀,是相应的命令,是变量列表,是表达式,是文件名,表示适用于该命令的一个或多个可选项。
比如,简单统计命令的命令格式为
[][][][][,]
下划线表示该命令也可缩写为。
以系统自带数据为例,看一下命令的使用。
可以利用查看它的可选项,比如用可选项,还可以把变量的偏度和峰度显示出来。
再比如回归命令的格式为
[][][][][,]
假设我们用(每加仑汽油可以跑多少英里,测度油耗)对价格和车重回归,如下
的系数是,表示如果车重增加磅,每加仑汽车将少跑英里。
一个更复杂一些的使用如下:
有时,我们不想看到输出结果,可以使用前缀,比如
1.2缩写、关系式和错误信息
命令可以缩写,比如可以缩写为,可以缩写为,在文件中,命令下划线部分即该命令可以缩写的最短形式。
加外,任意符*可以表示任意字母,比如*表示对所有首字母为的变量进行简单统计。
数学运算符有加()、减()、乘(*)、除()、指数(^)、负(前缀);关系运算符有大于(>)、小于(<)、等()、不等于(或)。
逻辑运算符有与()、或()、非(!
或)。
运行出错时,会提供错误代码,比如(),用户可以交互式的通过命令,获得错误代码的意思或直接在输出窗口中点击()得到相应解释。
1.3文件
文件是将命令列表形式生成的一个文本文件,运行该文件时,即会按照文件命令的排列顺序逐条执行。
文件是软件的一个重要特色,在数据处理和实证分析中特别有用。
的书写可以使用任何文本编辑器进行,也可以使用自带的编辑器书写,可以用命令直接调出自带文本编辑器进行编辑。
比如我们写一个简单的文件,将命令,、,放在同一个文件中,起名为。
则我可以使用命令来执行该文件。
当文件比较大,命令比较多时,加入解释和说明是必要的。
允许在文件中加入说明。
有三种方式,
第种,直接以*开头进行的一行的说明。
第种在命令后面直接加
第种用**或加注
比如下面的文件
*
*
*
**
当然,也可以通过改变结尾分隔符的方式来做,比如
*
;
*;
;,;
;
;
为了程序可读性,我们通常用而不使用改变分隔符的形式。
文件的运行非常简单,直接在命令窗口输入即可。
1.4标量和矩阵
一个标量可以用来储存数字或字符,比如
矩阵的使用有两种方式,一种是直接在命令窗口利用前缀,另一种使用命令。
1.5使用命令的结果
命令的结果有两类,一类是类、一类是类,中分析数据但不估计参数的命令称为类命令,这类命令的结果会保存在()中,通过命令可以列出该命令产生的所有结果,比如,
因而,可以利用这些信息计算一些有用的参数,比如我们计算的极差,
那些估计参数的命令称为类命令,其结果会保存在()中,利用可以列出所有的结果。
比如回归命令,
1.6宏
宏()是利用一个字符串代表另一个字符串。
比如,我们可以利用宏来代替””。
这种替代可以使程序更短,增加易读性,并且很容易修改。
宏分为全局宏和局部宏。
全局宏用进行定义,并用$进行引用,比如,
全局宏可以适用于软件的整个期间。
比如修改,调整宏,都会起作用的。
$
`’
局部宏用进行定义,用`’进行引用(其中左引号通常在键上,与通常的单引号是不同的)。
另一个例子
1.7循环语句
的循环语句有三种:
、、。
是根据列表中的每一项进行循环,是根据连续整数进行循环,是根据用户的条件是否满足进行循环。
先看两处数据产生命令和,和随机数产生器()。
下面,我们分别用三种循环语句实现个变量的求和。
首先用
*
{
`'
}
下面用
(){
`'
}
利用命令
`'<{
`'
`'
}
有用的其他命令
用户手册中提出的每个人需要知道的最常用的条命令
[]’
,
,
,[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[][]
[]
[]
[]
[],[]
[]
[]
[]
[],
[]
[]:
[]
[]—
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
1.8用户写的程序
比如,,可以运用并安装使用
1.9参考文献
.
....,,,,.
1.10练习
.运用数据,获得价格的简单统计信息,并利用()的储存的信息计算价格的变异系数(即标准差除以平均值)。
.利用数据,做对,的回归,并利用()中储存的信息计算。
.利用数据,定义一个全局宏变量,代替变量,,,并获得所代表变量的简单统计信息,利用局部宏重复上述过程。
.利用数据,利用循环语句产生一个新的变量,等于和的加和,并用命令检验均值是否正确。
参考答案:
.
()()
.
()(()())
.
$
`’
.
{
`’
}
第二章数据管理和画图
数据类型和格式
内部数值型数据有五种模式
存在类型字节数最小最大
хх
хх
另外,还有字符型数据,与其相关的两条命令是,将字符型变量转变为数值型,则将数值型转化为字符型。
数据显示格式可以利用命令来进行调整,具体参数有
固定形式
一般形式
指数形式
千分位加豆号
可以利用命令了解数据显示格式的更多内容。
数据输入
()
()
格式数据的输入
[,]
[][][][,]
例:
输入文本文件数据
[][,]
[]
("")
'
[]
例:
[],
….
调入文件(工业企业数据)
:
\\\
(“”)
直接从键盘输入
两种方法:
和
.
.
.
.
.
其他输入方式,参考
*软件可以进行不同格式数据转换
画图
.散点图
[][][][][,]
[][][][,]
(())()
(),()
(,())(,()),("")
加置信区间:
,,
[][,]
或直接用选项
([,])
保存的图可以组合起来,打开盘中的图用
.直方图
[][][][,[]]
.核密度图()
[][][][,]
[][][][,]
()显示在两张独立的图上
()(),((“”)(“”)同一图中
更多资源
参考[]和[]。
有用的在线帮助命令包括:
),,;),,,,;),,,,,,,,,,,,;),,,,,。
第章线性回归基础
3.1数据和数据描述
比如我们研究收入决定模型,使用年的中国城镇居民收入调查数据。
首先,将数据调入系统,对变量进行描述。
3.1.1变量描述
[]
3.1.2简单统计
可以用来对变量列表
3.1.3二维表
[,]
三维表
3.1.4加统计信息的一维表
[]
统计表格
()()
3.1.5统计检验
可以用来检验变量总体均值是否等于某一常数(:
μμ*),或检验两个均值是否相等(:
μμ)
3.1.6数据画图
和可以用来画变量的分布,比如工资的分布
()
()(),(()())
3.2回归分析
3.2.1相关分析
相关系数,仅对所有变量同时取值时,不考虑缺失值
相关系数,两两计算相关系数,考虑缺失值,可以加参数、(显著性)
3.2.2线性回归
[][][][][,]
3.2.3假设检验
联合假设
有约束回归
()
3.2.4估计结果呈现
可以将()中的回归结果保存起来。
可以将的结果以表格的形式呈现出来。
可以将样本容量和似然函数值统计出来。
:
:
()()
一个更好的结果呈现命令:
,是用户写的非官方命令,用时需要先安装。
[][][,]
:
()
((),(),())
:
()
((),(),())
()()(******)
()(******)
将内存中的保存的估计结果清除掉。
()()()
()()
3.3预测
[][][][,]
预测值
残差,在使用预测命令时,最好加上条件()以保证预测时所使用的样本和估计时使用的一样。
比较命令
(),的不同
边际效应()
[][][][][,]
用于求解边际影响,可以用于求解导数、弹性、半弹性等,特别适用非线性模型边际效应的计算。
用于线性回归或非线性回归之后。
老版本命令
()
3.4资源
关键参考资料:
[]’和[],[],[],[],[]。
用户自写程序。
第章数据处理的组织方法
、可执行程序的编写与执行
方法:
文件
文件是一个文本文件,里面包含了相关的命令。
执行文件时,会逐条执行文件里面的命令。
文件可以运用各种文字编辑器编辑,可以使用自带的记事本,或自带的文本编辑器(可以用命令调用),最好不要使用等加格式的编辑器。
比如一个简单的文件:
,内容如下:
*
“,”
*
在命令输入窗口输入
就会运行文件里面的命令,其中带*的是注释语句,会自动忽略,直接执行“,”,在显示区将结果输出。
方法:
交互式命令
另一种方式是在命令窗口直接交互式的使用命令定义程序,比如在命令窗口输入:
.“,”
.
当我们想运行该程序时,直接在命令窗口输入
则即可运行刚才输入的程序
在实际使用中,我们很少直接使用交互式定义程序。
另外,如果我们想修改该程序,比如我们在“,”之后再加一条命令“,”。
你在命令窗口输入
()
会返回错误,因为会记住程序定义。
如果你想重新定义一个程序,必须先利用命令把同名程序清除:
.
.“,”
.“,”
.
使用命令定义程序的另一个问题是不知道内部命令的名称,如果你定义的程序名称和内容命令同名,当你运行该程序时,实际将执行的内容命令。
比如你定义程序
1.“,”
2.
当执行上述命令时,实际运行的将是命令。
第个问题是不检测语法,因而如果定义的中命令有错误,在运行该程序时将出错。
如果定义的程序命令行很长,可以打开的跟踪功能寻找可能发生的错误。
打开跟踪时不要忘记关掉,不然你将发现的输出内容会很多。
当修改比较复杂的程序时,可以利用
*打开跟踪*
*将分屏显示关闭*
*开始一个名为的日志文件*
.运行程序
*关闭日志文件*
*将分屏显示打开*
第个问题是一个单个文件包含不能超过行命令,并且在要小于个字符。
第个问题不能编辑修改程序。
方法:
在文件中使用命令
在文件中使用的好处是随时可以修改你的程序,比如我们建议一个文件
*
“,”
*
让我们运行一个该文件,
();
出错了,为什么,因为刚才我们利用充互方式已经定义了一个同名的程序,因此要运行我们的文件,必须先将内存中的同名程序清除,利用
<我们输入的
<输入的
.“,”
.
我们执行文件时,才把程序调入系统,但并没有执行该程序。
这时,我们在命令窗口直接输入程序名,才会执行程序,如下:
我们也可以用命令将文件中的程序调入系统,和相同,但不会将文件中的命令行显示出来。
方法:
文件合并
文件可以做更多,交互式能做的,都可以放在文件中,因而,我们可以将程序定义,及程序执行全部放在同一个文件中,比如
*
","
*.
用执行该文件,系统会提示错误,因为我们系统中刚才已经定义了程序,所以要先用清除掉,我们可以直接在文件中将该条命令加入第行,但如果系统中没有程序,运行清除命令时又会提示出错,我们可以在清除命令前加入,表示后面的命令出错时,不会报错,也不会停下来,会直接执行后面的语句,但它会将错误保存下来。
修改后的程序如下:
*
","
*.
方法:
文件
文件实际上是以文件形式写程序方式的扩展,称为自执行文件,其运行类似于内部命令。
加到文件
*
“,”
*
直接将文件保存为,内容不变,即
*
","
*
运行该文件时,先用清除系统内的程序,然后在命令窗口直接输入
注意:
在修改文件后,运行之前要用清除原文件,从而刷新文件,否则你可能发现修改很多次的文件运行结果一直没有改变。
、文件的组织
、数据导入
数据格式文件,直接用可以打开,如果是利用电子表格文件转化来的文本文件,可以使用命令导入。
如果数据具有固定格式,需要用命令导入。
假设我们要处理一个包含家庭信息及个人信息的数据,基本数据信息如下:
家庭信息
个人信息
个人信息
家庭信息
个人信息
......
假设家庭记录:
第-列为家庭代码,第列为“”表示家庭信息,第列为住房类型。
个人记录:
第-列为个人代码,第列为“”表示个人信息,第-列为年龄,第列为性别代码。
现在我们想产生一个数据,包含下列信息:
家庭代码、住房类型、个人代码、年龄、性别代码。
每个记录只包含一个个人信息,并且来自同一家庭的个人家庭信息相同。
如果原始数据中个人记录中也有家庭代码信息,则可以分别将家庭信息和个人信息读入系统,建立两个数据文件,然后根据家庭代码多对一合并数据即可。
但原始记录中个人记录中没有家庭代码,这里需要我们自己构造一个新的家庭代码。
首先,根据数据结构,建立两个数据字典文件和,分别如下:
*
{
""
()""
()""
}
*
*
{
""
()""
()"()"
()""
}
*
首先检验一下字典是否能够正确的将数据导入系统
如果不存在什么问题,上述语句修改后,可以放在文件里面。
基本的文件安排是首先读入家庭信息,产生家庭数据,然后读入个人信息,产生个人数据,最后将家庭数据和个人数据合并。
为了实现第三步的合并,这里我们需要产生一个识别代码。
首先,第一步,
*产生一个识别码*
然后,我们读入个人数据,不过,我们会将原始数据中家庭信息作为个人信息一样读入系统,读入后数据如下:
..家庭信息
.
.
..家庭信息
.
我们利用产生一个代码全是的变量,结果如下:
..
..
..
..
..
然后,利用(),产生如下结果:
..
.
.
..
.
最后,将类型为家庭信息的记录删除,则仅剩下个人信息的记录,并且个人记录里包含了家庭记录的识别代码。
将个人数据与家庭数据按照进行合并即可。
最终程序如下:
*
()
*
关于
命令可以用来检验变量取值是否存在问题,当后面的条件成立时,不会有任何提示,如果条件不成立,将给出提示,如果在文件中,文件将停止执行。
可复制性
程序中避免随机因素的存在,否则每次运行文件可能会产生不同结果。
可以利用,比如如果使用的数据比较大,在初步试分析中可以利用命令抽取一个较小的样本进行分析,命令抽象时是随机的,所以为了保证每次运行获得的结果一致,可以使用保证抽得的样本一样。
在进行随机模拟和里,也经常需要加上。
另外,有时仅有也不能保证不确定性的发生。
比如命令,
将观测按地区进行排序,但在同一区域内观测的排序是随机的,为了保证每次运行得到同样的结果,可以排序时加上参数,即
、和的用法
[]
和
作用是一样的。
[]
则为的滞后变量,其中[]为缺失值。
[]
为的先导变量,[]为缺失值
[]
的所有观测值均为[]
[]
是逆序观测值
:
结果和按照分组生成不同的数据,然后再分别对不同数据运行的作用一样。
:
:
附录:
复制()表
*
*,,*
""
{
`'
{
`'`'
}
}
()
*(),,
(),.*
""
""
*
`'()()()
*
`'()()()
*
`'()()()
*
`'()()()
*
`'()()()
*
`'()()()
*
`'()()()
*
`'()()()
()()
下面我们用一个例子来说明数据处理问题
中国居民收入调查()例子
*":
\\\\\\\"
在当前目录直接打开
*
是一个用户写的命令,需要安装,用,然后再运行程序
*
:
根据代码排序,并针对每一个代码产生一个数值是的内部变量
>
:
确认没有重复观测值了
改城市为,为了与另一数据库一致,便于合并
()*产生家庭代码
仅保留我们感兴趣的变量
保存数据
*":
\\\\\\\"
打开另一个数据库
:
合并数据
仅保留同时来自两库的数据
*******
**
********
*
()*产生一个个人
加标签
*
()()(.)()将变量征集编码
*
*
(.)("小学以下")("小学")("初中")("高中")("大专")("大学")()教育程度
*
(.)()()()
*
*
*
(.)()()()(),()
*
(.)()()()()()()()()()()()()()
*
(.)()()()()()(),()
*
>仅考虑工资为正的数据
()产生对数工资
*
*
""
""
""
""
""
""
""
""
*
.
(><)
(><)
*********
*
()
年的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- stata 入门 中文 讲义