第六章非参数统计分析方法的SAS编程实现.docx
- 文档编号:11878947
- 上传时间:2023-04-08
- 格式:DOCX
- 页数:15
- 大小:22.95KB
第六章非参数统计分析方法的SAS编程实现.docx
《第六章非参数统计分析方法的SAS编程实现.docx》由会员分享,可在线阅读,更多相关《第六章非参数统计分析方法的SAS编程实现.docx(15页珍藏版)》请在冰豆网上搜索。
第六章非参数统计分析方法的SAS编程实现
第六章 非参数统计分析方法的SAS编程实现
作者:
薛富波 最终修改日期:
一、npar1way过程语句格式简介
二、不同类型资料的非参数检验方法
1.两独立样本差别的秩和检验
2.配对设计资料的秩检验
3.完全随机设计多组数据分布位置差别的秩和检验
三、几条重要提示
非参数统计分析方法(non-parametricstatistics)是相对参数统计分析方法而言的,又称为不拘分布(distribution-freestatistics)的统计分析方法或无分布形式假定(assumptionfreestatistics)的统计分析方法。
其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等,它们分别对应不同设计类型的资料。
SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析。
下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。
一、npar1way过程语句格式简介
npar1way过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。
Npar1way过程的基本语句格式如下。
PROCNPAR1WAY<选项>;
BY变量名;
CLASS变量名;
EXACT统计量选项运算选项>;
FREQ变量名;
OUTPUT
VAR变量名;
RUN;
QUIT;
Procnpar1way语句标志npar1way过程的开始,默认情况下(不列举任何选项):
npar1way过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置的差异进行检验(与选项WILCOXON,MEDIAN,SAVAGE以及VW等效),并进行经验分布函数检验(等同于EDF选项)。
此语句后可用的选项见表6.1。
表6.1 Procnpar1way语句选项及其含义
选项名称
选项功能或含义
AB
运用Ansari-Bradley评分进行分析
DATA=数据集名
指定要进行分析的数据集
MEDIAN
运用中位数评分进行分析,即进行中位数检验
NOPRINT
禁止所有的输出,用在仅需要创建输出数据集时
ST
运用Siegel-Tukey评分进行分析
ANOVA
对原始数据进行方差分析
EDF
要求计算基于经验分布的统计量
MISSING
指定分组变量的缺失值为一有效的分组水平
SAVAGE
运用Savage评分进行分析
VW
运用VanderWaerden评分进行分析计算
CORRECT=NO
在两样本时,禁止Wilcoxon和Siegel-Tukey检验的连续性校正过程
KLOTZ
运用Klotz评分进行分析
MOOD
运用Mood评分进行分析
SCORES=DATA
以原始数据为评分值进行分析
WILCOXON
对两样本进行Wilcoxon秩和检验,对多样本进行Kruskal-Wallis检验
在构成npar1way过程的语句中,by语句、class语句以及freq语句和其它我们已经讨论过的过程完全相同,不再多嘴。
1.exact语句
exact语句要求SAS对指定的统计量(选项)进行精确概率的计算。
其后的统计量选项可为以下项目,分别对应相应的统计计算方式(可参见表6.1)。
AB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW等。
运算选项为精确概率的计算过程指定一些控制项目,如选项“mc”要求以MonteCarlo方法计算精确概率。
2.output语句
output语句与其它过程中相应的语句大同小异,不同之处在于语句最后的选项。
此处的选项绝大多数包括在表6.1中,指定在输出数据集中包含所指定项目所对应的统计量。
3.var语句
此处的var语句与其它过程的也基本相同,用以指定要进行分析的变量,变量必须为数值型。
若省略此语句,SAS将对除by语句、class语句以及freq语句中指定的变量之外的所有数值型变量进行分析。
关于npar1way过程的内容基本上就这些,了解这么多足够处理一般的统计学问题,下面我们结合实例来演示非参数检验的SAS编程实现过程。
二、不同类型资料的非参数检验方法
1.两独立样本差别的秩和检验
例6-1 下表(表6.2)为来自两个样本A、B的测量数据,经检验知两样本方差不齐,试做非参数检验比较两组数据的差别。
表6.2 两独立样本A、B测量数据
A组
B组
7
3
14
5
22
6
36
10
40
17
48
18
63
20
98
39
对于此资料,我们应选用Wilcoxon秩和检验(ranksumtest)方法,编制SAS程序如下。
datatemp;
dog=1to2;
inputx@@;
output;
end;
datalines;
73
145
226
3610
4017
4818
6320
9839
;
procnpar1waywilcoxon;
classg;
varx;
Run;quit;
程序中因素“g”分组因素,“1”代表A组,“2”代表B组,“x”为待分析的变量。
Procnpar1way语句后的选项“Wilcoxon”指定SAS进行Wilcoxon秩和检验。
提交以上程序,运行结果如下。
TheSASSystem 22:
08Tuesday,December10,2002 1
TheNPAR1WAYProcedure
WilcoxonScores(RankSums)forVariablex
ClassifiedbyVariableg
Sumof Expected StdDev Mean
g N Scores UnderH0 UnderH0 Score
----------------------------------------------------------------------------------------------------
1 8 89.0 68.0 9.521905 11.1250
2 8 47.0 68.0 9.521905 5.8750
WilcoxonTwo-SampleTest
Statistic 89.0000
NormalApproximation
Z 2.1529
One-SidedPr> Z 0.0157
Two-SidedPr>|Z| 0.0313
tApproximation
One-SidedPr> Z 0.0240
Two-SidedPr>|Z| 0.0480
Zincludesacontinuitycorrectionof0.5.
TheSASSystem 22:
08Tuesday,December10,2002 2
TheNPAR1WAYProcedure
Kruskal-WallisTest
Chi-Square 4.8640
DF 1
Pr>Chi-Square 0.0274
SAS给出的结果较为详细,比医学统计教科书上的内容要多很多,首先给出两组数据的的基本信息(样本量、秩和等),还给出在零假设下各组统计量(Sumofscores项)的期望值(EcpectedUnderH0项)及标准差(StdDevUnderH0项),最后还给出以近似z检验以及近似t检验所得的统计量和所对应的单、双侧概率值。
另外,默认状态下,SAS还同时给出Kruskal-Wallis检验的结果。
所不同的是,在两样本量相同时,SAS以秩和较大者作为对象统计量进行概率值的计算,而非医学统计学教材上所说的以较小秩和为对象统计量。
在两样本量不同时,SAS以样本量较小组的秩和为对象统计量,这一点则与教材上的相同。
下面我们再对两组等级资料的非参数检验方法进行练习。
例6-2 用某药治疗不同病情的老年慢性支气管炎病人,疗效见表6.3,试比较该药对两种病情的疗效。
表6.3 某药对两种不同病情的支气管炎疗效
疗效
单纯型
单纯型合并肺气肿
控制
65
42
显效
18
6
有效
30
23
近控
13
11
对于此例,我们将疗效看成待分析的变量x,从“控制”到“近控”分别对其赋值1、2、3、4,病情则作为分组因素,同时需引入一个频度因素f,以代表不同取值状态下x的频数。
编制程序如下。
datatemp;
dox=1to4;
dog=1to2;
inputf@@;
output;
end;
end;
datalines;
6542
186
3023
1311
;
procnpar1waywilcoxon;
classg;
varx;
freqf;
run;quit;
程序和例6-1的基本相同,只根据资料特点增加了freq语句。
提交程序,运行结果如下。
TheSASSystem 22:
08Tuesday,December10,2002 7
TheNPAR1WAYProcedure
WilcoxonScores(RankSums)forVariablex
ClassifiedbyVariableg
Sumof Expected StdDev Mean
g N Scores UnderH0 UnderH0 Score
--------------------------------------------------------------------------------------------------
1 126 12955.50 13167.0 389.776482 102.821429
2 82 8780.50 8569.0 389.776482 107.079268
Averagescoreswereusedforties.
WilcoxonTwo-SampleTest
Statistic 8780.5000
NormalApproximation
Z 0.5413
One-SidedPr> Z 0.2941
Two-SidedPr>|Z| 0.5883
tApproximation
One-SidedPr> Z 0.2944
Two-SidedPr>|Z| 0.5889
Zincludesacontinuitycorrectionof0.5.
TheSASSystem 22:
08Tuesday,December10,2002 8
TheNPAR1WAYProcedure
Kruskal-WallisTest
Chi-Square 0.2944
DF 1
Pr>Chi-Square 0.5874
结果给出的内容和例6-1也是完全相同的,这里所用的统计量为样本量较小组的秩和。
2.配对设计资料的秩检验
配对设计资料一般采用配对t检验方法进行分析,但若配对数据差数的分布非正态分布,但其总体分布基本对称,则可采用Wilcoxon符号秩检验(signedranktest)作为配对t检验的替代方法。
Wilcoxon符号秩检验功效很高,在数据满足配对t检验的要求时,符号秩检验的功效可达配对t检验功效的95%。
令我搞不懂的是,SAS中符号检验(signtest)和符号秩检验的功能不是在npar1way过程中实现,而是通过univariate过程来实现的。
我想可能因为这两项功能涉及的是关于单变量分析的缘故。
所以,这里我们只好再来复习一下univariate过程的内容。
例6-3 采用配对设计,用某种放射线的A,B两种方式分别局部照射家兔的两个部位,观察放射性急性皮肤损伤程度,结果见表6.4。
试用符号秩检验比较A,B的损伤程度是否不同。
表6.4 家兔皮肤损伤程度
编号
方式A
方式B
1
39
55
2
42
54
3
51
55
4
43
47
5
55
53
6
45
63
7
22
52
8
48
44
9
40
48
10
45
55
11
40
32
12
49
57
根据题目意图,编制SAS程序如下。
datatemp;
inputx1x2;
d=x1-x2;
datalines;
3955
4254
5155
4347
5553
4563
2252
4844
4048
4555
4032
4957
;
procunivariateloccount;
vard;
run;quit;
此例中,我们须对两次测得数据的差值进行单变量分析,所以数据步中用到赋值语句“d=x1-x2;”。
Univariate过程在默认状态下即给出关于待分析变量的符号检验以及符号秩检验结果,“procunivariate”语句后的“loccount”选项指定SAS给出样本数据在系统指定位置参数(默认值为0)两侧的分布情况,即相当于对符号检验结果的进一步描述。
提交执行以上程序,结果如下。
TheSASSystem 21:
13Thursday,December12,2002 1
TheUNIVARIATEProcedure
Variable:
d
BasicStatisticalMeasures
Location Variability
Mean -8.00000 StdDeviation 10.44466
Median -8.00000 Variance 109.09091
Mode -8.00000 Range 38.00000
InterquartileRange 13.00000
NOTE:
Themodedisplayedisthesmallestof2modeswithacountof2.
TestsforLocation:
Mu0=0
Test -Statistic- -----pValue------
Student'st t -2.6533 Pr>|t| 0.0225
Sign M -3 Pr>=|M| 0.1460
SignedRank S -29 Pr>=|S| 0.0220
LocationCounts:
Mu0=0.00
Count Value
NumObs>Mu0 3
NumObs^=Mu0 12
NumObs 此结果大家应当比较熟悉(删去了其余关于参数检验的部分),注意标有“TestsforLocation: Mu0=0”的部分,即为我们所要的结果,其中第一行为参数检验的t检验结果,后两行则分别为符号检验以及符号秩检验的分析结果。 标有“LocationCounts: Mu0=0.00”的部分是关于样本分布情况的描述,本例为3个受试对象的差值大于零,9个小于零。 大家需要注意,这里的符号秩检验计算所得的秩和与我们在教科书上看到的结果不同(教科书上计算的统计量即秩和T=10),应是所依据的算法不同所致,但所得的P值是相同的,不会影响分析的结果。 3.完全随机设计多组数据分布位置差别的秩和检验 这一部分的内容相当于参数检验中的方差分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六章 非参数统计分析方法的SAS编程实现 第六 参数 统计分析 方法 SAS 编程 实现