有关SAS统计检验的模型_精品文档.doc
- 文档编号:963460
- 上传时间:2022-10-14
- 格式:DOC
- 页数:32
- 大小:871KB
有关SAS统计检验的模型_精品文档.doc
《有关SAS统计检验的模型_精品文档.doc》由会员分享,可在线阅读,更多相关《有关SAS统计检验的模型_精品文档.doc(32页珍藏版)》请在冰豆网上搜索。
第4章SAS基本统计分析功能
教学要求:
l了解几种假设检验、线性回归、方差分析、拟合优度检验、列联表检验的原理背景
l掌握SAS语言进行均值假设检验
l掌握SAS语言进行线性回归与方差分析
l掌握SAS语言进行拟合优度检验与列联表检验
引言:
前面介绍SAS的编程来进行初步的统计分析、报表、绘图。
本章我们讲述用SAS进行统计检验、线性回归、方差分析、拟合优度检验和列联表检验。
4.1假设检验
4.1.1正态性检验(univariate过程)
1.背景原理:
正态分布是一种最常见的分布,也是一种最重要的连续型分布,它以均值为对称轴呈对称的钟型分布。
检验的零假设Ho:
数据资料服从正态分布。
备择假设H1:
数据资料不服从正态分布。
当样本量n≤2000时,应选用shapiro-wilk检验法,检验统计量为
W值越接近于1,P值越大,表明资料越服从正态分布,反之W越偏离1,P值越小,表明资料越不服从正态分布。
当n>2000时,应用Kolmogorov-smirnov检验法,检验统计量为
D值越大,P值越小,表明资料越不服从正态分布,反之,D值越小,P值越大,表明资料越服从正态分布。
2.举例
在procunivariate语句中加上normal选项可以进行正态性检验。
【例1】检验数据集sasuser.gpa中变量gpa是否服从正态分布?
输出结果中正态检验部分为:
分析:
检验的零假设为Ho:
gpa变量服从正态分布,其中shapiro-wilk检验的统计量为w=0.966294,检验的p值小于0.0001,当然小于给定的显著性水平α=0.05,故应拒绝零假设,即有95%把握认为gpa非正态。
说明:
使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计”→“描述性统计”→“分布”,除了可以检验变量是否服从正态分布外,还可以检验对数正态、指数和韦布尔分布。
4.1.2单样本均值的T检验(univariate过程)
1.原理背景
设总体X~N(μ,σ2),μ、σ2未知,给定检验水平α,对常数μ0要检验
设X1,X2,…Xn为X的简单随机样本,在H0成立时有
其中S为变量的标准差,n为样本量。
检验的拒绝域为:
补充P值检验法:
t1-α/2(n-1)
α/2
t0
p/2
分位数t1-α/2(n-1)满足Pr{|t|>t1-α/2(n-1)}=α
设由已经得到的样本具体计算得到的t值为t0,若|t0|>t1-α/2(n-1),则拒绝H0,否则接受H0。
对大量重复试验而言,t是随机变量,且服从t分布t(n-1)。
当|t0| Pr{|t|>t0}>Pr{|t|>t1-α/2(n-1)}=α 反之亦然。 令p=Pr{|t|>t0},则|t0| 所以,假设检验的p值方法为: 对给定的显著水平α,当p<α时,拒绝H0,当p>α时,接受H0 此例介绍的p值检验法对其他统计检验也使用,一般说来,检验的p值是检验统计量取其观测值及更极端值得概率,统计软件对假设检验都会计算检验的p值。 2.应用举例 在SAS中用univariate过程默认进行某个变量均值为零(μ0=0)的t检验,若要检验μ=μ0,则需进行变量代换。 例2: 检验数据集sasuser.class中学生的身高均值与63有无显著性差异。 程序: 输出结果为: 分析: 先作正态性检验。 Ho: 变量y服从正态分布,其中shapiro-wilk检验的统计量为w=0.979083,检验的p值=0.9312>α=0.05,故应接受零假设,即有95%把握认为变量y正态。 故采用单样本均值T检验。 对变量y的零假设为Ho: μ0=0。 由输出结果知T检验的统计量t=-0.5638,双边检验的p值为0.5798>α=0.05,故接受原假设,即有95%的把握接受学生的平均身高为63。 说明: l当变量服从正态分布时,优先采用t检验,当变量服从非正态时,可以采用符号秩(signedRank)检验,符号检验(sign)的检验功效较差,一般不常用它。 l对同一问题不同的检验方法一般是一致的,但有时也有互相矛盾的结果。 l使用SAS软件中的分析家,打开数据集后,利用菜单“统计”→“假设检验”→“均值的单样本T检验”可以进行双边和单边检验。 4.1.3两独立样本均值检验(TTest过程、npar1way过程) 1.原理背景 假设两组样本来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。 如果两个总体都服从正态分布,则可使用两独立样本均值的T检验。 有关公式如下: 设两个样本的均值为,方差为,观测量为。 两个样本方差相等与不相等时使用的检验统计量是不一样的,所以应该先对方差的齐性进行检验。 l方差齐性检验的零假设为H0: 两个独立样本的来自方差相等的总体,即,检验统计量为 l方差齐时,检验两样本的均值是否相同的零假设为H0: 两个独立样本的来自均值相等的总体,即,检验统计量为 其中为合并方差。 l方差不齐时,检验两样本的均值是否相同,用校正t检验。 检验零假设为H0: 两个独立样本的来自均值相等的总体,即,检验统计量为 2.Ttest过程 格式: PROCTTEST[选项]; CLASS变量名; VAR变量名; BY变量名; RUN; 说明: (1)proc语句中的“选项”有: Data=数据集,指明要分析的数据集; Cochran要求在方差不齐时用Cochran和Cox法计算t’检验的概率水平; (2)Class语句中的变量必须是一个两水平的分组变量,系统会把数据集中的观测按这个变量的两个水平分成比较的两组。 (3)by语句和var语句作用同前。 【例3】某克山病区测得11例克山病人与13名健康人的血磷值(mmol/L)如表,据此判断该地急性克山病人与健康人的血磷值是否相同? 患者组 0.84 1.05 1.2 1.39 1.53 1.67 1.8 1.87 2.07 2.11 健康组 0.54 0.64 0.64 0.76 0.81 1.16 1.2 1.34 1.35 1.48 1.58 1.87 程序为: 输出为: 分析: (1)先作正态性检验如下: 零假设为Ho: 患者组的血磷值变量x服从正态分布,其中患者组的shapiro-wilk检验的统计量为w=0.959147,检验的p=0.7610>α=0.05,故应接受零假设,即有95%把握认为x正态。 零假设为Ho: 健康组的血磷值变量x服从正态分布,其中健康组的shapiro-wilk检验的统计量为w=0.927983,检验的p=0.3207>α=0.05,故应接受零假设,即有95%把握认为x正态。 (2)因此可采用两独立样本均值的T检验。 由ttest过程输出先作方差齐性检验如下: H0: 患者组和健康组来自方差相等的总体,即,检验的统计量F=1.01,P=1.000>α=0.05,故应接受零假设,即有95%把握认为患者组和健康组方差满足齐性。 再作T检验。 H0: 患者组和健康组来自均值相等的总体,即。 选择方差齐性一行的结果知t=2.51,p=0.02<α=0.05,故应拒绝零假设,即有95%把握认为患者组与健康组血磷值的均值有显著差异,且是患者组比健康组的均值要高。 注: l使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计”→“假设检验”→“均值的双样本T检验”,可以进行单边和双边检验。 l如果数据不服从正态分布可以采用非参数检验,检验两个独立样本的中心位置是否相同的非参数方法有wilxocon秩和方法,使用npar1way过程加wilcoxon选项,如教材P123。 【例4】检验数据集sasuser.gpa中男、女生的gpa分数有无显著差异? 分析: 在例1中我们讨论过变量gpa是非正态分布,故要采用wilxocon秩和非参数检验方法。 零假设为H0: 男生和女生来自中心位置相同的总体。 由输出结果的wilcoxon秩和检验中用正态近似得到的双边检验的z=0.5276,p=0.5978>α=0.05,故应接受零假设,即有95%把握认为男生和女生的gpa无显著性差异。 4.1.4两相关样本均值检验(Univariate过程) 1.原理背景: 适用于有两种情况,一种是将研究对象按一定的条件先配对,每对中的两个对象随机分配到实验组和对照组,一个试验由若干对组成,称为配对试验设计;另一种情况是同一批研究对象经过某种处理前后的指标值比较,或者是同一批样品经过两种不同方法的测定结果的比较。 此时这两个变量不再独立,而是相关的,检验两个相关变量的均值是否相等,等价于检验这两个变量间的差值变量的均值是否为零。 当差值变量服从正态分布时,可用配对样本T检验的统计量为 其中X为两个样本的差值变量,、S分别为差值变量的均值和标准差。 2.实例分析 为了检验两个相关样本的均值是否有显著差异,先用一个数据步计算差值,然后对差值变量用univariate过程可以实现检验差值变量的均值是否显著为零。 【例5】用克矽平雾化吸入治疗矽肺患者7人,没得治疗前后的血清粘蛋白(mg/L)7对观测值如表,据此能否认为治疗会引起血清蛋白的变化? (α=0.05) 患者号 1 2 3 4 5 6 7 治疗前 65 73 73 30 73 56 73 治疗后 34 36 037 26 43 37 50 程序为: 输出部分结果: 分析: 先作正态性检验如下: 零假设为Ho: 差值变量x服从正态分布,由输出结果知shapiro-wilk检验的统计量为w=0.896832,检验的p=0.3122>α=0.05,故应接受零假设,即有95%把握认为x正态。 故可采用两相关样本均值T检验。 H0: 治疗前后的差值变量x的均值为0。 由输出结果知T检验的统计量t=5.879298,双边检验的p值为0.0011<α=0.05,故拒绝原假设,即有95%的把握认为治疗后血清蛋白有下降。 注: l使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计”→“假设检验”→“均值的双样本成对T检验”,除了可以进行单边和双边检验。 l如果数据不服从正态分布可以采用非参数检验,如符号检验、符号秩检验,在SAS中可用univariate过程实现。 【例6】为了检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量,在一个农场中选择了10块田地,每块等分为两部分,其中任指定一部分使用新的复合肥料,另一部分使用原肥料,小麦成熟后称得各部分小麦的产量(单位: kg)如下: 田块 1 2 3 4 5 6 7 8 9 10 新复合肥 459 367 303 392 310 342 421 446 430 412 原肥料 414 306 321 443 281 301 353 391 405 390 用符号检验法检验新复合肥是否会显著提高小麦产量? (α=0.05) 程序为: 输出为: 分析: 先作正态性检验如下: 零假设为Ho: 差值变量diff服从正态分布,由输出结果知shapiro-wilk检验的统计量为w=0.835307,检验的p=0.0388<α=0.05,故应拒绝零假设,即有95%把握认为差值变量diff不服从正态分布。 故采用符号秩非参数检验。 H0: 差值变量diff的均值为0。 由输出结果知符号秩检验的统计量S=20.5,双边检验的p值为0.03
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 有关 SAS 统计 检验 模型 精品 文档
![提示](https://static.bdocx.com/images/bang_tan.gif)