描述性统计研究分析.docx
- 文档编号:7094665
- 上传时间:2023-01-17
- 格式:DOCX
- 页数:12
- 大小:24.40KB
描述性统计研究分析.docx
《描述性统计研究分析.docx》由会员分享,可在线阅读,更多相关《描述性统计研究分析.docx(12页珍藏版)》请在冰豆网上搜索。
描述性统计研究分析
描述性统计分析本文由应用教程贡献
LOGO
描述性统计分析
统计分析的基本概念
武汉大学计算中心
LOGO
进行数据分析首先应:
进行数据分析首先应:
明确分析的目的明确分析的对象确定是否需要抽样在一些问题中,要考查整个总体往往是不可能的,因为要耗费太多的时间和资源确定需要记录的数据项目
武汉大学计算中心
LOGO
1.总体和样本
总体(总体(population)是所研究)的指标测量值的集合.的指标测量值的集合.
抽样(sampling)是指从总体中抽取部分的做法.样本(sample)通过抽样得到的总体的一个子集.
总体样本
武汉大学计算中心
LOGO
抽样方法
简单随机抽样:
在抽样的过程中,简单随机抽样:
在抽样的过程中,任何一个样本被选中的机会都相同.被选中的机会都相同.利用计算机产生的随机数(对于有限总体),可模拟简单随机抽样,如对学生的学号用随机数进行抽样对于无限总体不能进行标号,抽样过程不能用
随机数,难于实施分层抽样:
按数据的层次进行抽样.分层抽样:
按数据的层次进行抽样.如小学生的身高,按每年级分为一个层
武汉大学计算中心
LOGO
分层抽样的优点
抽取的样本在总体中分布得更均匀,抽取的样本在总体中分布得更均匀,更合理个层内单位之间差异程度相对减小,个层内单位之间差异程度相对减小,使在该层内抽取的样本对该层的代表性得到提高层内成员差异小,而层间成员差异较大时,层内成员差异小,而层间成员差异较大时,分层抽样可以提高估计的精度
武汉大学计算中心
LOGO
2.参数和统计量
对总体概括度量值和对样本概括度量值所用的方法及名称是不同的.法及名称是不同的.总体的度量值称为参数(parameters),样本的总体的度量值称为参数,度量值称为统计量(statistics).度量值称为统计量.通常,总体参数是未知的总体参数是未知的,SAS系统给出的描述统通常总体参数是未知的系统给出的描述统计量适用于样本.计量适用于样本.
武汉大学计算中心
LOGO
2.参数和统计量
参数():
总体的度量值参数(parameters):
总体的度量值.):
总体的度量值.统计量():
样本的度量值统计量(statistics):
样本的度量值.):
样本的度量值.一般总体参数用希腊字母表示:
一般总体参数用希腊字母表示:
均值方差标准差(T(T2总体样本Xs2s
武汉大学计算中心
LOGO
3.自由度
自由度是某一统计量中,自由度是某一统计量中,变量可以自由取值的个数表示自由度.用df表示自由度.表示自由度[例]变量有n个取值,df=n;若它们受到变量X有个取值个取值,例变量;k(k LOGO 4.表示数据位置的统计量 均值(均值(M ean): ): 所有观测值的平均值.所有观测值的平均值. x=(刀xi)/n i=1 n 中位数(): 用以描述数据取中位数(Median或Med): 用以描述数据取或): 值的中心位置. 值的中心位置.中位数的计算方法: 先将数据从小到大排序,x1,x2,…,xn然后计算: 中位数的优点是它不受个别极端数据的影响,具有稳健性 武汉大学计算中心 LOGO 4.表示数据位置的统计量 众数(): 观测值中出现最多的数众数(Mode): 观测值中出现最多的数.): 观测值中出现最多 的数.百分位数(Percentile): 描述数据分布和位置的统计百分位数量.0.5分位数就是 中位数,0.75分位数和0.25分位数分别称为上,下四分位数,记为Q3和Q1.一般地,k百分位数(k-percentile),即约有k%的观测值小于它. 武汉大学计算中心 LOGO 5.表示数据分散程度的统计量 极差(Range): 数据中最大值和最小值之差.: 数据中最大值和最小值之差.极差 极差=max{xi}min{xi} 方差(Varianee)以变量取值相对于均方差()值的偏差平方平均来度量(又称均方MS).值 的偏差平方平均来度量(又称均方). s=(刀(xix))/(n1) 22i=1 武汉大学计算中心 n LOGO [例]SAS计算样本方差的步骤例计算样本方差的步骤 计算样本均值计算每个观测值同均值的差值把这些差值分别平方再求这些平方的和把平方和除以n-1,n为差值的个数(样本容量)为差值的个数(把平方和除以,为差值的个数样本容量)假设样本值分别为10,11,12,15,均值为,样假设样本值分别为,均值为12,本容量为4,方差按下式计算: 本容量为,方差按下式计算: s2=((((10-12)2+(12-12)2+(11-12)2+(15-12)2)/(4-1)(()()()()()=4.67 武汉大学计算中心 LOGO 5.表示数据分散程度的统计量标准差(): 方标准差(Standarddeviation或StdDev): 方或): 差的开平方.差的开平方.标准差的量纲与原变量一致.方差和标准差所反映的是数据对其均值的某种离散程度.标准差(或方差)较小的观测数据一定是比较集中在均值附近,反之则是比较离散的.变异系数(CoefficientofVariation或CV)变异系数或变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的. CVs(标准差)X100%x(均值) 武汉大学计算中心 LOGO 5.表示数据分布形状的统计量 偏度(Skewness): 描述数据对称性的指标.: 描述数据对称性的指标.偏度 xixSK刀1si=在SAS中,均值对称的数据,其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏•峰度(Kurtosis): 描述数据向分布尾段散布的趋势峰度描述数据向分布尾段散布的趋势42n=(n1)(n2) n 3 nn(n+1)xix3(n1)K= 刀s(n2)(n3)(n1)(n2)(n3)i=1 利用峰度研究数据分布形状是以正态分布为标准,比较两端极端数据的分布情况,若 近似于标准正态分布,峰度接近于零;尾部较正态分布更分散,则峰度为正;尾部较正态分布更集中,则峰度为负武汉大学计算中心LOGO 正态分布 如果数据来自正态分布总体,如果数据来自正态分布总体,则: 68%的值落在距均值个标准差的范围之内的值落在距均值1个标准差的范围之内的值落在 距均值95%的值落在距均值个标准差的范围之内的值落在距均值2个标准差的范围之内 的值落在距均值99%的值落在距均值个标准差的范围之内的值落在距均值3个标准差的范 围之内的值落在距均值 例如: 由12岁女孩体重组成一个总体,这个总体服从均值为39公斤,标准差4.5公斤,则: 68% 的值落在34.5~43.5公斤之间95%的值落在30~48公斤之间99%的值落在25.5~52.5公斤之间 武汉大学计算中心 LOGO 概率P(probability)概率概率是度量某随机事件发生可能性大小的一个数量.概率的取值范围在0~1之间.若某一事件必然不发生,P=0;某一事件必然发生,P=1概率论是数理统计的基础,统计分析的许多结论,都是建立在概率大小的基础之上的. 武汉大学计算中心 LOGO 统计的过程如下: 总体抽样样本计算统计量推断描述统计量 描述: 描述样本的各主要特征推断: 扩大所收集信息的使用范围,用样本的特征来推断总体的特征.LOGO 武汉大学计算中心 [例]儿童体检数据如下例 刘明蔡行李敏李涛夏天郭红胡月程彬杨兵刘进王苗苗7张思凡73344455 666女女男男女男男女女女男男1.161.150.940.911.391.021.061.01 1.021.071.121.1419.9318.213.5914.216.1515.4415.315.0415.0717.0418.09 18.855.551.450.45051.651.95151.952.753.754.153.5 试用作描述性统计分析 武汉大学计算中心 LOGO 二,用SAS/ASSIST进行描述统计进行描述统计选择解决方案选择解决方案/ASSIST,并在欢迎窗口中点击解决方案,<继续按钮继续>按钮继续选择CascadingMenu为新的为新的ASSIST工作选择为新的工作模式;选择BlockMenu为ASSIST6的菜单模式;选择为的菜单工作模式.工作模式.选择DataAnalysis/Elementary/SummaryStatistics打开数据统计分析的操作窗口. 武汉大学计算中心 LOGO 点击Table按钮,确定要操作的数据集按钮,点击按钮点击Columns按钮,确定要分析的变 量按钮,点击按钮点击Class按钮,确定分组变量按钮,点击按钮点击OutputTable按钮可将本次分析的结果点击按钮可将本次分析的结果数据输出到一个数据集中作为原始数保存起来SummaryStatistic窗口的下方,确定所求Statistic窗口的下方窗口的下方, 的统计量,可以根据需要选择一项或多项 武汉大学计算中心 LOGO 所求的统计量 Numberofnonmissingvalues包括分析变量缺项值的观测数Numberofmissingvalues不包括分析变量缺项值的观测数Minimum最小值Maximum最大值Range全距,全距,极差 Sum和Mean(平)均值Variance方差StandardDeviation标准差Standarderrorofthemean均数的标准误Coefficientofvariation变异系数Skewness偏度Kurtosis峰度武汉大学计算中心 LOGO 三,用SAS/INSIGHT进行数据描述进行数据描述 1.用INSIGHT作直方图作直方图 选择解决方案/分析交互式数据分析命令启动SAS/INSIGHT选择解决方案分析/交互式数据分析命令启动分析软件确定数据所在的数据集(确定数据所在的数据集(CLASS)选择分析/直方图条形图(y)项绘制某变量的柱状图直方图直方图/条形图项绘制某变量的柱状图/直方图直方图条形图项绘制某变量的柱状图将WEIGHT选为Y再点击确定若单独 考察女生的年龄分布,若单独考察女生的年龄分布,可在既存的图下作如下操作编辑/窗口/动画,在弹出的对话框中选SEX中的G即可,若再点击”应用”则以动态的方式交替显示不同性别的直方图,拖动"速度"处的游标可以调节交替的速度 武汉大学计算中心 LOGO 2,用SAS/INSIGHT进行分布检验,进行分布检验解决方案/分析分析/交互式数据分析选择解决方案分析交互式数据分析命令启动SAS/INSIGHT软件软件确定数据所在的数据集分布(Y)项绘制某连续变量的盒状图和分布图选择分析/分布分布项绘制某连续变量的盒状图和分布图在分布(Y)对话框右侧的列表框中选择对话框右侧的列表框中选择WEIGHT变量,单击变量,在分布对话框右侧的列表框中选择变量<Y>按钮按钮单击<输 出按钮,输出>按钮单击输出按钮,选累积分布分布检验"下方选择"正态"在"分布检验 "下方选择"正态"在置信带下选95%置信水平在置信带下选置信水平 依次点击<确定依次点击确定>确定 武汉大学计算中心 LOGO 2,用SAS/INSIGHT进行分布检验,进行分布检验 在显示的图形中,中间是经验分布曲线,两侧的是在显示的图形中,中间是经验分布曲线,置信限.置信水平可用鼠标拖动改变.置信水平可用鼠标拖动改变.检验结果汇总在下方的分布检验表中并提供了统计量的数值及相应的检验概率值: 并提供了统计量的数值及相应的检验概率值: 原假设为总体分布为正态的.设为总体分布为正态的.本例相应的p值本例相应的值>0.15>0.05=a.所以无法拒绝•原假设,原假设,可以接受总体分布为正态的 武汉大学计算中心 LOGO 用分析家作频数统计 选择"解决方案分析分析家"分析/分析家选择"解决方 案/分析分析家”进入分析家环境点击”文件/按名称打开"点击"文件按SAS名称打开”打开数据集名称打开点击"统计/描述性统计频数统计"在弹出的对描述性统计/频数统计点击"统计描述性统计频数统计",在弹出的对话框中: 话框中: AGE=>Frequencies,Sex=>Frequencies点击OK 武汉大学计算中心 LOGO 用程序作基本统计分析SAS提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用FREQ,MEAN和UNIVARIATE这三个过程来计算简单的描述统计量.FREQ过程常用来计算分类变量取值的频数,而MEANS^UNIVARIATE过程则对数值型变 量计算均值,标准差等统计量. 武汉大学计算中心 LOGO 用程序作基本统计分析 Procfreqdata=数据集名[选项;选项];数据集名选项tables变量名列表选项;变量名列表[/选项选项];Run; Tables语句中的选项: 语句中的选项: 语句中的选项nocum—不要累计的频数和百分数不 要累计的频数和百分数nopercent--不要百分数和累计的百分数不要百分数和累计的百分 数Procfreq语句中的选项: 语句中的选项: 语句中的选项order=internal按变量值排序按变量值排序freq按频数降序排序按频数降序排序data按数据集中的值的次序排序按 数据集中的值的次序排序formatted按变量格式化的值排序按变量格式化的值排序 武汉大学计算中心 LOGO [例]例 Procfreqdata=temp.classorder=freq;tablesage;Run; [2] Procfreqdata=temp.classorder=freq;tablesw;Run; 可见,数据的统计意义不大.但是若将体重数据分组显示频数,是有意义的 LOGO 武汉大学计算中心 MEANS过程2.MEANS过程 (1)语法格式MEANS过程的一般格式: 过程的一般格式: 过程的一般格式 -PRO(MEANS)ATA=数据集名>[<统计量关键字列表>];-[VAR<分析变量列表>;]-[BY<分组变量名>;]-[CLASS<分组变量名>;]-RUN; 武汉大学计算中心 LOGO PROCMEAN语句后的选项主要用来指定所语句后的选项主要用来指定所要计算的统计量, 默认情况下,要计算的统计量,默认情况下,MEANS过程会过程会给出频数,均数,标准差,最大值和最小值等,给出频数,均数,标准差,最大值和最小值等,其余统计量的计算均需要在选项中指定.其余统计量的计算均需要在选项中指定.VAR语句引导所要进行分析的所有变量的列语句引导所要进行分析的所有变量的列将对VAR语句所引导的所有变量分别 表,SAS将对将对语句所引导的所有变量分别进行描述性统计分析•进行描述性统计分析 BY语句与语句与CLASS语句所指定的分类变量用来语句与语句所指定的分类变量用来进 行分组统计,但输出格式不同.进行分组统计,但输出格式不同. 武汉大学计算中心 LOGO 如对数据集class中的中的hight变量计算简单统计量,变量计算简单统计量,如对数据集中的变量计算简单统计量只要用如下MEAN过程: 过程: 只要用如下过程 procmeansdata=class;varhight;run; 武汉大学计算中心 LOGO (2)使用统计量关键字列表在PROCMEAN语句中使用统计量关键字列表: 语句中使用统 计量关键字列表: 语句中使用统计量关键字列表 procmeansdata=classnmeanmedianp1p5p95p99q1q3maxmin;varhight;run; 武汉大学计算中心 LOGO 可以计算的描述性统计量关键字及其含义见下表.可以计算的描述性统计量关键字及其含义见下表. 关键字nnmissmeanstdstderrvarmedianmodecvmaxminsumsumwgtcssuss所代 表的含义有效数据记录数缺失数据记录数均值标准差标准误方差中位数众数变异系数最大值最小值总计加权值总计校正平方和未校正平方和 武汉大学计算中心 关键字rangeskewnesskurtosistprobtq1q3qrangep1p5p10p90p95p99 所代表的含义极差偏度峰度分布位置假设检验之t统计量上述t统计量对应的概率值第一四分位数第三四分位数四分位数间距第一百分位数第五百分位数第十百分位数第九十百分位数第九十五百分位数第九十九百分位数 LOGO (3)使用使用CLASSI句和语句语句和BY语句语句和使用CLASSI句和语句可以分组计算分析语句和BY语句可以分组计算分析使用语句和变量的描述统计量值,语句和BY语句变量的描述统计量值,由CLASS语句和语句语句和指定的变量在分析中起分组 (的作用,指定的变量在分析中起分组(类)的作用,被称为分类变量.两个语句的区别是: 为分类变量•两个语句的区别是: 使用BY语句时要求数据集须按语句时要求数据集须按BY 变量排•使用BY语句时要求数据集须按BY变量排使用CLASS语句无此要求•语句无此要求•序,使用语句无此要求使用BY语句时输出按语句时输出按BY变量的每个值分•使 用语句时输出按变量的每个值分别提供一个表,使用CLASS语句则将所有结果别提供一个表,使用语句则将所有结果排列在一个表之中.排列在一个表之中. 武汉大学计算中心 LOGO使用BY语句之前先排序,使用语句之前先排序,如下代码可以在上语句之前先排序例中按变量sex分组统计: 分组统计: 例中按变量分组统计 procsortdata=class;bysex;run;procmeansdata=classnmeanmedianp1 p5p95p99q1q3maxmin;varhight;bysex;run; 武汉大学计算中心 LOGO 使用CLASS语句分组较为简单,如下代码也可以语句分组较为简单,使用语句分组较为简 单在上例中按变量sex分组统计: 分组统计: 在上例中按变量分组统计 procmeansdata=classnmeanmedianp1p5p95p99q1q3maxmin;varhight;classsex;RUN; 武汉大学计算中心 LOGO UNIVARIATE过程3.UNIVARIATE过程 UNIVARIATE过程的一般格式为: 过程的一般格式为: 过程的一般格式为 -PROCJNIVARIATEDATA=<数据集名>[<统计量关键字列表>];-[VAR<分析变量列表>;] -[BY|CLASS<分组变量名>;]-[HISTOGRAM变量名称>/<选项列表>;]-[OUTPUTOUT=<数据集名><统计量关键字>=<自定义变量名>;]-RUN; 武汉大学计算中心 LOGO UNIVARIATE过程和过程和MEANSi程的格式非常过程的格式非常过程和相似,相同的语句和选项其含义也相同,相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE^程中计的是某些统计量只能在过程中计如众数),而且UNIVARIATE过程 中具有),而且算(如众数),而且过程中具有绘图功能.绘图功能.其中,语句用来指示SAS对其其中‘HISTOGRAM语句用来指示语句用来指示对其后所指定的变量绘制直方图,后所指定的变量绘制直方图,其后的选项用来指添加不同类型的拟合图形(示SAS添加不同类型的拟合图形(如正态分布添加不同类型的拟合图形的分布密度曲线).的分布密度曲线). 武汉大学计算中心 LOGO 输出包括五个部分.输出包括五个部分.第一部分是各统计量.第一部分是各统计量.第二部分为基本的位置和分散程度统计量,第二部分为基本的位置和分散程度统计量,位置统计量包括均值,中位数,众数,位置统计量包括均值,中位数,众数,分散程度统计量包括标准差方差,极差,统计量包括标准差,方差,极差,四分位间距第三部分为关于均值等于零的三种 检验的结包括t检验符号检验和符号秩检验.检验,果,包括检验,符号检验和符号秩检验.第四部分为各个重要的分位数.第四部分为各个重要的分位数.第五部分是观测数据的五个最低值和五个最高值.高值. 武汉大学计算中心 LOGO 六‘FORMAT过程过程 FORMAT过程用于定义变量的输出格式•定义: PROCFORMAT;VALUE格式变量名分组形式;RUN;其中: 格式变量名由用户命名,在其他在其他过程中可以引用该格式名.引用: PROC过程名DATA=>据集名;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 描述 统计 研究 分析