数据分析与Stata软件应用-第3章.pptx
- 文档编号:30858743
- 上传时间:2024-04-09
- 格式:PPTX
- 页数:17
- 大小:245.09KB
数据分析与Stata软件应用-第3章.pptx
《数据分析与Stata软件应用-第3章.pptx》由会员分享,可在线阅读,更多相关《数据分析与Stata软件应用-第3章.pptx(17页珍藏版)》请在冰豆网上搜索。
数据的描述与Stata实现u数值变量数据的分布特征描述u分类变量数据的分布特征描述u数据的图形描述3数据的描述与Stata实现3数据的描述与Stata实现3数据的描述与Stata实现3.1数值变量数据的分布特征描述数值变量数据的分布特征描述3.1.1集中趋势描述集中趋势描述常用的表示数据集中趋势的统计量有均值、中位数和众数。
其中均值是参数统计量,中位数和众数是位置统计量。
3.1.2离散趋势描述离散趋势描述常用的表示数据离散趋势的统计量有方差、标准差、全距、分位数和均值标准误。
3.1.3分布状态描述分布状态描述常用的数据分布形态的描述统计量是偏度和峰度。
3数据的描述与Stata实现3.1.4Stata基本命令基本命令1.查看数据概要查看数据概要查看数据概要的主要命令为describe,除此之外,还可使用list、codebook等命令进行数据全方位的概述展示。
describe命令可列出数据的基本信息,包括变量名称、存储方式、显示格式、标签和数值标签等。
describe命令可简写为d,若读者只想观察数据文件的基本信息,则可在describe后面加上选择项,simple,也可简写为s。
即:
.d,s3数据的描述与Stata实现list命令用于列出已有数据,并查看数据的取值,是极为常用的数据描述命令,简写为li。
list命令的基本语法为:
.list.listvarlistifin,optionscodebook命令用于查看变量的包括取值区间在内的详细信息。
其基本语法为:
.codebookvarlistifinvarlist可以是一个变量,也可是多个变量。
3数据的描述与Stata实现2.描述统计量的计算Stata中用于计算描述性统计量的命令主要有summarize和tabstat。
summarize可简写为sum,可以给出所有数值变量的基本描述统计量,也可以在summarize命令后加上变量名称,输出指定变量的基本描述统计量。
.summarizevarlisttabstat命令用于计算并输出描述统计量,计算结果以表格的形式输出。
使用tabstat命令不仅需要指定变量,同时还需要指定计算的统计量名称,如果不指定统计量名称,则默认只输出均值。
.tabstatvarlist,stats(stats_options)3数据的描述与Stata实现3.2分类变量数据的分布特征描述分类变量数据的分布特征描述3.2.1列联表分析基本原理列联表分析基本原理交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一定的相关性。
Stata提供了多种适用于不同相关系数的相关关系,相关系数显著性检验的原假设相同,均是:
行列变量之间彼此独立,不存在显著的相关关系。
Stata将自动给出检验的相伴概率,如果相伴概率小于显著性水平0.05,那么应拒绝原假设,认为行列变量之间彼此相关。
3数据的描述与Stata实现3.2.2Stata基本命令基本命令1.table命令命令table命令可以生成不同维度的交叉列联表。
table命令除可在交叉列联表中输出频数外,还可输出其他一些变量常用的描述统计量。
table命令的基本语法为:
.tablerowvarcolvarsupercolvarifinweight,table_options其中,rowvar为行变量,colvar为列变量,supercolvar为更高维度交叉列联表中的列变量,3数据的描述与Stata实现2.tabulate命令命令Stata中tabulate命令主要用于生成一维列联表和二维交叉列联表,在生成二维交叉列联表的同时,还可对行列变量的独立性进行检验。
一维列联表的构建:
.tabulatevarnameifinweight,tabulate_options1二维交叉列联表的构建及检验.tabulatevarname1varname2ifinweight,tabulate_options2tabulate命令在生成二维交叉列联表的同时,还可以对行列变量的相关系数进行计算,并进行独立性检验。
varname1为生成的交叉列联表的列变量,varname2为生成的交叉列联表的行变量3数据的描述与Stata实现3.3数据的图形描述数据的图形描述3.3.1Stata绘图简介绘图简介Stata中绘制的图形由4个部分组成:
由横轴和纵轴围成的图形核心部分;核心部分中的附加部分,如轴线间隔、连线、数值显示等;核心部分周围的附加部分,如图形名称、坐标值说明、图例名称、数据来源等;在复杂图形中,用户可在图形核心部分上叠加其他的图形。
3数据的描述与Stata实现3.3.2直方图直方图绘制直方图的命令为histogram,也可简写为hist,命令主干部分为:
.histogramvarname.histvarname可通过添加选项来实现图形绘制时的特殊要求,命令语法形式为:
.histogramvarname,hist_options3数据的描述与Stata实现3.3.3散点图散点图Stata中绘制散点图的命令语法如下:
.scattervarlistifin,scatter_options.graphtwowayscattervarlistifin,scatter_options.twowayscattervarlistifin,scatter_options上述几个命令是等价的,实际使用中第一个最为常用。
3数据的描述与Stata实现3.3.4饼图饼图第1种,绘制关于观测个案数目的饼图:
.graphpie,over(varname)此时绘制的饼图中每一个扇形表示对应变量(varname)的一个组别,各个扇形的大小代表对应组别观测个案的数目。
第2种,根据其他变量分组的饼图:
.graphpievarname1,over(varname2)根据varname2的各个组别进行分组,每个扇形的大小为varname1变量在varname2变量的各个组别上的和。
即第1个扇形的大小为varname2变量设定为第1个类别时,所有观测个案的varname1变量的取值的和。
第3种,绘制多个变量的饼图:
.graphpievarname1varname2此时得到的饼图中每一个扇形对应一个变量,每一个扇形的大小对应该变量在所有观测个案上的取值的和。
3数据的描述与Stata实现3.3.5条形图条形图简单条形图是指根据单个变量分组的单变量条形图,其基本命令语法为:
.graphbarvarname1,over(varname2)此时根据varname2的不同类别形成不同的条形,每个条形的大小由不同类别下观测个案的varname1取值之和决定。
3数据的描述与Stata实现多个变量分组的简单条形图是指根据多个变量交叉分组情况下的条形图的绘制,基本命令语法为:
.graphbarvarname1,over(varname2,label(alter)over(varname3)此时根据varname3的不同类别先进行分组,在varname3的不同类别下再按照varname2的不同类别形成不同的条形,每个条形的大小由不同类别下观测个案的varname1取值之和决定。
在这里label(alter)表示显示varname2标签时使用错开的格式,否则显示结果将无法阅读。
3数据的描述与Stata实现多变量条形图是指使用条形图同时观察多个变量的均值。
多变量条形图是指使用条形图同时观察多个变量的均值。
基本命令语法为:
.graphbarvarname1varname2,over(varname3)此时根据varname3的不同类别形成不同的条形组,每个条形组下条形的数量由varname1varname2变量的个数决定,每个条形代表一个varname变量下varname3对应类别观测个案取值的均值。
3数据的描述与Stata实现3.1数值变量数据的分布特征描述数值变量数据的分布特征描述
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 Stata 软件 应用