学习系列19PROCMEANS均值以及均值的T检验.docx
- 文档编号:3151669
- 上传时间:2022-11-18
- 格式:DOCX
- 页数:7
- 大小:27.04KB
学习系列19PROCMEANS均值以及均值的T检验.docx
《学习系列19PROCMEANS均值以及均值的T检验.docx》由会员分享,可在线阅读,更多相关《学习系列19PROCMEANS均值以及均值的T检验.docx(7页珍藏版)》请在冰豆网上搜索。
学习系列19PROCMEANS均值以及均值的T检验
19.PROCMEANS均值以及均值的T检验
(一)PROCMEANS过程步
由PROCUNIVARIATE过程步生成的大多数统计描述,用PROC
MEANS过程步也可以实现。
区别是,UNIVARIATE是做更深入的统计分析;如果只是需要计算少数的统计量,PROCMEANS更适合(不能做图形输出)。
基本语法:
PROCMEANSdata=数据集statistic-keywords;
CLASSvariable;
VARvariable-list;
说明:
(1)CLASS指定分组变量,VAR指定要做统计分析的变量;
(2)默认置信水平是0.05(即95%的置信限),若要设定在统计量关键词位置加上,例如,ALPHA=0.1;
(3)若不加统计量关键词,默认输出:
均值、非缺省值个数、
标准差、最小值、最大值。
可选的统计量关键词包括:
关键词
说明
关键词
说明
CLM
双边置信限
RANGE
极差
CSS
校正平■方和
SKEWNESS
偏度
CV
变异系数
STDDEV
标准差
KURTOSIS
峰度
STDERR
均值的标准误
LCLM
置信下限
SUM
求和
MAX
最大值
SUMWGT
求权重和
MIN
最小值
UCLM
置信下限
MEAN
均值
USS
未修正的平■方和
MODE
众数
N
非缺省值个数
NMISS
缺省值个数
PROBT
T检验的概率
T
T值
Q1或P25
第1四分位数
MEDIAN
或P50
中位数
Q3或P75
第3四分位数
P1
1%分位数
P5
5%分位数
P10
10%分位数
P90
90%分位数
P95
95%分位数
P99
99%分位数
例1儿童书作家考察市面上儿童书的页数作为出书的参考,搜集数
据(C:
\MyRawData\Picbooks.dat)如下:
读入数据,计算数据个数、均值、中位数,以及90%的置信限。
代码:
databooklengths;
infile'c:
\MyRawData\Picbooks.dat';
inputNumberOfPages@@;run;
*Producesummarystatistics;
procmeansdata=booklengthsNMEANMEDIANCLMALPHA=0.10MAXDEC=2;
title'SummaryofPictureBookLengths';
run;
说明:
有90%的把握说“儿童书的页数范围是:
[26.44,29.56]”.
(二)假设检验的P值法
一、什么是假设检验?
实际中,我们只能得到抽取的样本(部分)的统计结果,要进一
步推断总体(全部)的特征,但是这种推断必然有可能犯错,犯错的概率为多少时应该接受这种推断呢?
为此,统计学家就开发了一些统计方法进行统计检定,通过把所
得到的统计检定值,与统计学家树立了一些随机变量的概率分布进行对比,我们可以知道在百分之多少的机遇下会得到目前的结果。
倘若经比较后发现,涌现这结果的机率很少,即是说,是在时机很少、很罕有的情况下才出现;那我们便可以有信念地说,这不是巧合,该推断结果是具有统计学上的意义的。
否则,就是推断结果不具有统计学意义。
二、假设检验的基本思想一一小概率反证法思想
小概率思想是指小概率事件(P 反证法思想是先提出原假设(H。 ),再用适当的统计方法确定假设成立的可能性(P值)大小,如可能性小(P 三、原假设与备择假设 原假设与备择假设是是完备且相互独立的事件组,一般, 原假设(H。 )一一研究者想收集证据予以反对的假设; 备择假设(Hi)——研究者想收集证据予以支持的假设; 假设检验的P值是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著水平。 四、假设检验分类及步骤(以T检验为例) 1.双侧检验 I.原假设H0: 11=0,备择假设Hi: v乒V0; II.根据样本数据计算出统计量t的观察值to; m.P值=P(|t|>|to|}=to的双侧尾部的面积; IV.若P值Va(在右尾部分),则在显著水平a下拒绝Ho; 若P值>a,则在显著水平a下接受Ho; 注意: a为临界值,看P值在不在阴影部分(拒绝域),空白部分为接受域。 2.左侧检验 I.原假设Ho: vAVo,备择假设Hi: vviio; n.根据样本数据计算出统计量t的观察值to(vo); m.P值=P(t IV.若P值Va(在左尾部分),则在显著水平a下拒绝Ho; 若P值>a,则在显著水平a下接受Ho; 3.右侧检验 I.原假设Ho: o,备择假设Hi: v>Vo; n.根据样本数据计算出统计量t的观察值to(>o); m.P值=P(t>to}=to的右侧尾部的面积; IV.若P值va(在右尾部分),则在显著水平a下拒绝Ho; 若P值>a,则在显著水平a下接受Ho; (3)T分布与T检验 一、T分布 若样本均数服从正态分布,经过U变换,可以变成标准正态分布N(0,12),也成为U分布. 实际工作中,由于总体标准差未知,用样本标准差代替,则不再服从标准正态分布,而是服从T分布: 其中,S为样本方差,n为样本含量,v为白由度。 T分布只有一个参数白由度v.VT8时,T分布无限接近标准正态分布。 T分布的图形 说明: 单侧概率(单侧尾部面积)用表示; 双侧概率(双侧尾部面积)用表示; 例如,to.o5,io=1.812,贝UP(tV-1.812)=P(tA1.812)=0.05 to.o5/2,io=2.228,贝UP(tV-2.228)+P(tA2.228)=0.05 二、T检验 T检验,是一种参数假设检验,用来检验“单样本均数与已知均数、两独立样本均数、配对设计资料的均数”是否存在差异,这种差 异是否能推论至总体 T检验适用于样本含量较小(比如n<60,大样本数据可以用U检验),适用条件: 1数据服从正态分布(做正态性检验); 2满足方差齐性(即两样本的总体方差相等,做F检验); 若满足①,②,可以尝试对数据做变量变换: 对数变换、平方根变换、倒数变换、平方根反正弦变换等。 正态性检验: (1)W检验,Shapiro-Wilk检验是基于次序统计量对它们期望值的回归而构成的。 所用检验统计量为W,又称为W检验。 在样本量3 (2)D检验,Kolmogorov-Smirnov检验的统计量为D,所以也称D检验,在样本量50 假设检验H0: 数据总体服从正态分布,Hi: 数据总体不服从正态分布。 F检验 要求两样本数据的总体均服从正态分布,统计量F为为较大的方差与较小的方差的比值: 假设检验H。 : 两总体方差相等;Hi: 两总体方差不相等。 取a =0.10(a较大以减少II类错误),当P0C时,不拒绝H0,认为两总体方差相等。 (四)均值的T检验 T检验“单样本均数与已知均数、两独立样本均数、配对设计资料的均数”是否存在差异。 例如,检查学生成绩平均分是否在某个分值之上;比较同一老师教的两个班的学生平均分是否存在差异;正常饲料组和维E缺乏组大白鼠肝中维生素A含量的均值是否存在差异。 T检验在SAS中用PROCTTEST过程步实现。 一、单样本与指定均值 基本语法: PROCTTESTdata=数据集H0=mu0options; VARvariable; 说明: “H0=mu0”,对变量的均值与指定均值mu0(默认是H0=0),做T检验。 原假设是头=v0. 二、两独立样本的均值 基本语法: PROCTTESTdata=数据集options; CLASSvariable; VARvariable; 说明: CLASS语句指定分组变量,进行组间均值的比较。 三、配对设计资料的均值 基本语法: PROCTTESToptions; PAIREDvariablel*variable2; 说明: 配对均值T检验,是检验两个变量各数据的差的均值是否等于0. 四、Options可选项 (1)ALPHA=n 指定显著水平0C; (2)CI=type 指定标准差的置信区间的类型,EQUAL(默认)为 equal-tailed的置信区间,UMPU为基于一致最优无偏检验的 置信区间,NONE不输出置信区间; (3)SIDES=type 指定单侧、双侧检验,默认type=2为双侧检验,L为左侧 检验,U右侧检验; 五、绘制T检验的图形 在TTEST语句中使用参数PLOTS=(绘图类型)即可。 基本语法: PROCTTESTdata=数据集PLOTS=(绘图类型);可选的绘图类型: ALL或NONE——绘制全部图形或不绘制任何图形; BOXPLOT——盒形图; HISTOGRAM——直方图(包括正态分布、核密度线); INTERVALPLOT——均值的置信区间的图形; QQPLOT——QQ图; SUMMARYPLOT——在一张图中绘制直方图和盒形图; AGREEMENTPLOT——AGREEMENT图; PROFILESPLOT——PROFILESPLOT图; 注意: TTEST过程步都默认绘制QQ图和SUMMARYPLOT图,配对T检验还默认绘制AGREEMENTPLOT图和PROFILESPLOT图另外,指定绘制图形类型之后,那些默认图仍然会绘制,除非加上(ONLY): PROCTTESTdata=数据集PLOTS(ONLY)=(绘图类型); 例250米女子白由泳的数据(C: \MyRawData\Olympic50mSwim.dat),变量包括姓名、决赛用时、半决赛用时: 读入数据,用配对T检验考察决赛和半决赛用时有无明显差异。 代码: dataSwim; infile'c: \MyRawData\Olympic50mSwim.dat'; inputSwimmer$FinalTimeSemiFinalTime@@; run; procttestdata=Swim; pairedSemiFinalTime*FinalTime; title'50mFreestyleSemifinalvs.FinalResults'; run; 运行结果: 程序说明: (1)总决赛用时与半决赛用时之差的均值为0.0850,其95%置信区间为[0.239,0.1461];标准差为0.0731,其95%置信区间为[0.0483,0.1488]; (2)白由度为7的t值=3.29,P值=0.0133小于显著性水平也=0.05 (P值在双尾部分“拒绝域”),故拒绝原假设H0.结论: 两个均值不相同,其结果有统计学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学习 系列 19 PROCMEANS 均值 以及 检验