第6章方差分析.docx
- 文档编号:8028796
- 上传时间:2023-01-28
- 格式:DOCX
- 页数:56
- 大小:68.04KB
第6章方差分析.docx
《第6章方差分析.docx》由会员分享,可在线阅读,更多相关《第6章方差分析.docx(56页珍藏版)》请在冰豆网上搜索。
第6章方差分析
第六章方差分析
方差分析(AnalysisofVariance,ANOVA)是将待分析资料的总变异剖分为不同的变异来源,以获得不同变异来源的总体方差的估计值。
通过F检验,完成多个样本平均数之间的差异显著性检验(即多重比较),若处理效应为随机模型时,则进行方差组分的估计。
6.1方差分析的SAS过程
用于方差分析的主要过程有方差分析(ANOVA)和广义线性模型(GLM)。
对于无缺省(缺值、缺组等)资料,或称平衡资料,一般采用(ANOVA)过程,对缺省资料(非平衡资料)应采用(GLM)过程。
事实上根据效应模型的不同,还有VARCOME(方差组分)过程,MIXED(混合模型)过程等。
6.1.1ANOVA过程
1.名词解释
自变量与依变量在方差分析中,自变量可称为独立变量、定性变量(QualitativeVariale)、分类变量(ClassiflcationVariable)或类别变量(CategorcalVariable),相当于因素处理、水平变量。
依变量又称反应变量(ResponseVariable),相当于观察值变量。
实验效应方差分析的目的是找出对依变量产生的实验效应,这种效应可分为3种:
主效应,常以自变量的英文字母表示,如A、B等。
互作效应,常以星号联接自变量表示,如A*B。
嵌套效应,以小括号表示,如A(B)表示A效应嵌套在B效应之内。
2过程格式:
PROC
ANOVA
CLASS
MODEL
MEANS
FREQ
TEST
MANOVA
BY
选项串;
变量名称串;
依变量名称串=效应串/选项串;
效应名称串/选项串;
变量名称;
H=效应名称E=效应名称
H=效应名称E=效应名称M=变量的转换式;
PREFIX=新变量的名称代号;
MNAMES=新变量的名称串/选项串;
变量名称串
语句说明:
CLASS指令必须出现在MODEL指令之前,如选用TEST、MANOVA指令,则它们必须出现在MODEL指令之后。
MEANS、TEST及MANOVA等指令可重复使用,其他指令则只能出现一次。
PROCANOVA选项串中:
⑴DATA=输入数据集名称,指明对它执行ANOVA分析。
⑵MANOVA要求将含一个或一个以上依变量遗漏数据的观察值剔除。
⑶OUTPUT=(含分析结果的)输出文件名称,包括平方和(SS),F检验值,以及各效应的显著程度。
CLASS变量名称串指明自变量,自变量可以是数值的或文字的。
MODEL指令定义分析所用的线性数学模型(见表6—1),删除号(/)后的选项:
⑴NOUNI:
不印出单变量方差分析的结果,适用于多变量的方差分析。
⑵INT:
要求SAS把线性模型内的截距(即资料的总平均数)当成一个参数,同时对这个截距作是否为零的假设检验。
MEANS指令前半部要求算出某些自变量(或互作)中各组的平均数,后半部(删除号后)共有24个选项,前17个选项分别对MEANS指令中所列的主效应平均数进行多种方法的多重比较。
这些选项有:
⑴BON:
修正最小显著差异t检验。
⑵DUNCAN:
邓肯多重范围检验,即邓肯氏新复极差法。
⑶DUNNETT(控制组组名):
邓尼特控制差异检验。
它是依据t分布由各组平均数与控制组(指定组如对照组)进行比较,采用双尾检验。
⑷DUNNETTL(控制组组名):
邓尼特小于控制均数检验。
与控制组平均数的比较,采用单尾检验,临界值订在t分布的下端。
⑸DUNNETTU(控制组组名):
邓尼特大于控制均数检验。
与控制组平均数的比较,采用单尾检验,临界值订在t分布的上端。
⑹GABRIEL:
贵博氏多重比较。
⑺REGWF:
R—E—G—W多重F检验。
⑻REGWQ:
R—E—G—W多种t检验。
⑼SCHEFFE:
执行沙菲氏(Scheffe)的多重比较检验。
⑽SIDAK:
Sidak调整T检验。
⑾SUM(或⑿GTI):
Sidak独立样本t检验。
当两组样本含量不等时为哈氏(Hochberg)的GTI检验。
⒀SNK:
纽曼—库尔多重范围检验,即q检验。
⒁T(或⒂LSD):
配对t检验或费歇尔最小显著差异检验。
⒃TUKEY:
图基固定极差检验。
⒄WALLER:
娃尔—邓肯K—比率t检验。
以上17种检验法最常用的为⑵、⑶、⑸、⒀、⒁。
其它主要选项还有⒅ALPHA=P:
界定检验的显著水准。
内设值为P=0.05。
当上面选项与选项⑵并用时,P值必须是0.10、0.05、0.01三者之一。
与上面其他检验选项时,P可以是0.0001与0.9999间任何的值。
⒆LINES:
将显著性检验的平均数,由大到小排列。
若某一对平均数之间无显著差异,则将它们印在同一行上,并以虚线将它们与其他有显著差异的平均数分开。
当选用⑵、⑺、⑻、⒀或⒄等检验时,此选项会自动被包括在内,否则,必须附加此选项。
⒇CLM:
效应的各组平均数以置信区间方式表示。
此项必须与⑴、⑹、⑼、⑽、⑾、⒁、⒂等联用。
(21)CLDIFF:
与(20)相仿,选用⑵、⑺、⑻、⒀、⒄时,附加此选项,将以置信区间方式显示各组平均数。
(22)E=效应名称:
它界定各显著检验的分母,缺省时以误差项的均方自动成为分母。
FREQ指令指明该变量值为各观察值重复出现的次数。
TEST指令用来指定F检验的分子与分母,H=分子,E=分母;一般而言,系统自动采用误差项的均方作为F检验的分母。
但对于随机模型等,可选此项。
MANOVA指令主要用于执行多变量(多元)方差分析。
BY指令用于把数据文件分成几个小文件,然后逐一进行ANOVA分析,但文件内的数据必须先按照BY变量串的值做由小到大的重新排列。
此步骤可籍PROCSORT达成。
以上指令中MODEL指令至关重要,同一资料,分析结果依模型不同而异。
常用的模型定义语句有:
MODELY=A;单因素方差分析,MODELY=AB两因素主效应模型,MODELY=ABA*B两因素带互作模型,MODELY=AB(A)嵌套(NESTED)模型用于系统分组资料。
MODELY1、Y2=A两元单因素方差分析。
在模型定义中,可用“|”和“@n”简化表达。
“|”等价于按Searle规则将效应从左到右展开,“@n”表示互作效应和嵌套效应所包含的最多变量数。
各种模型简化表示法及其等价形式列于下表。
表6—1模型简化表示法及其等价形式
简化表示法
等价形式
A|B
A|B|C
A|B|C@2
A|C(B)
A(B)|C(B)
A|B(A)|C
A|B(A)|C@2
ABA*B
ABA*BCA*CB*CA*B*C
ABA*BCA*CB*C
AC(B)A*C(B)
A(B)C(B)A*C(B)
AB(A)CA*CB*C(A)
AB(A)CA*C
结果输出包括分类变量信息表,方差分析表及多重比较表等。
6.1.2GLM过程
1.概述
GLM是广义线性模型(GeneralLinearModel)的简称,其推算参数的理论依据是最小误差平方法(TheLeastSquaresMethod)。
最适宜于非平衡设计的资料,该过程可应用于多种不同的统计分析。
本章仅介绍在方差分析方面的用途。
2.过程格式:
PROC
GLM
CLASS
MODEL
MEANS
CONTRAST
ESTIMATE
LSMEANS
MANOVA
OUTPUT
RANDOM
TEST
FREQ
BY
选项串;
变量名称串;
依变量名称串=效应串/选项串;
效应名称串/选项串;
‘比较式的名称’各组效应系数据/选项串;
‘估计值的名称’各组效应系数据/选项串;
效应名称串/选项串;
H=效应名称E=效应名称M=变量的转换式;
PREFIX=新变量的名称代号;
MNAMES=新变量的名称串/选项串;
OUT=输出文件名称关键字=变量串;
效应名称串/选项串;
H=效应名称E=效应名称/选项串;
变量名称;
变量名称
语句说明:
格式中第1、3条指令是不可省略的,CLASS指令必须出现在MODEL、MEANS指令之前,其余均应出现在MODEL指令之后(但BY可出现在RUN前任何一处)。
PROCGLM选项串中:
⑴DATA、⑵MANOVA、⑶OUTPUT的含义与ANOVA选项串中的相同。
⑷NOPRINT:
要求分析结果不在报表上打印出来,一般不用此选项。
⑸MULTIPASS:
要求重读输入资料文件内的数据,也不常用。
⑹ORDER=FREQ|DATA|INTERNAL|FORMATTED:
界定自变量内各水平(组别)的次序,该选项与CONTRAST及ESTIMATE指令相关。
当ORDER=FREQ时,观察值个数最多的那一组为第一组,余类推。
当ORDER=DATA时,组别按输入资料文件中各组第一次出现的次序而定。
当ORDER=INTERNAL时,组别按其代号由小到大排列,或按各组名称的英文字母顺序排列。
当ORDER=FORMATTED时,则组别的顺序以外部的格式而定,此项为内设值。
CLASS指令指明自变量。
MODEL指令的前半部可参见表4—1,删除号后的选项串大致可分四类。
第一类与截距(常数项)有关。
⑴NOINT:
把截距排除模型之外。
⑵INT:
印出截距统计检验。
第二类与报表有关。
⑴NOUNI:
不打印单因素方差分析结果(常用于多变量分析)。
⑵SOLUTION:
打印一般线模型中参数的估计值,当省略CLASS指令时,程序会自动印出此解。
⑶TOLERANCE:
印出容忍量。
其定义为1-R2,R2为自变量与依变量的相关指数。
第三类与无效假设的检验有关。
⑴E:
要求印出所有可估计函数(EstimableFunctions)的值。
⑵E1;或E2:
或E3:
或E4:
只要求印出每一效应第一、或第二、或第三、或第四型可估计函数值。
⑶SSI:
或SS2:
或SS3:
或SS4:
只印出每一效应第一、或第二、或第三、或第四型的平方和。
第四类与控制计算过程的打印有关。
⑴XPX:
要求印出(X'X)的向量积距阵⑵INVERST(或I):
要求印出(X'X)的逆距阵,或(X'X)通用逆距阵。
MEANS指令的后半部分(删除号后)的选项,前22项可参见ANOVA过程。
另有DEPONLY:
要求印出依变量的平均数,若省略此项,程序会印出文件中所有连续性变量的平均数。
ETYPE=1(或2、或3、或4):
界定F检验中分母距阵的均方类型,内设为分析过程检验中最高的一型。
HTYPE=1(或2、或3、或4):
与WALLER选项并用,界定F检验中分子距阵的均方类型,内设为分析过程检验中最高的一型。
CONTRAST指令用于对比检验,即以线性方程序重新组合参数据执行检验。
其中“比较式的名字”必须放在单引号内,名字长度以20个字母为限;各组效应系数前必须先注明所要比较的效应,这些效应必须是MODEL中出现过的。
横行系数总和必须是0,不接受分数。
若有多个比较式,则以逗号将各横行隔开。
删除号后有E:
印出线性函数的向量L。
E=效应名称:
界定F检验的分母内设为误差项均方。
ETYPE=1(或2:
或3:
或4):
界定平方和的类型等。
ESTIMATE指令用于检验参数线性组合。
LSMEANS指令用于计算依据最小误差平方法所得的平均数。
主要选项有:
⑴E:
最小误差平方平均数(Lsm)计算过程中所用到的可估计函数值。
⑵STDERR:
印出t检验(Ho:
Lsm≠0)的分母与其显著程度。
⑶TDIFF:
印出各平均数比较的t值及显著程度。
⑷PDIFF:
印出各平均数比较后的显著程度。
⑸E=效应名称:
必须与⑵、⑶、⑷选项并用,指定某一效应均方作为t检验的分母。
缺省时,GLM自动采用误差项的均方作为t检验的分母。
⑹ETYPE=1(或2:
或3:
或4):
指定⑸中效应均方的类型。
MANOVA指令请参阅6.3。
OUTPUT指令中,OUT=输出资料文件名称,这个文件含原输入资料文件的所有变量,以及指令中所提到的关键字。
关键字=变量名称串:
关键字主要有⑴P=预测值。
⑵R=预测误差。
⑶L95M(或U95M)=依变量平均数95%置信区间的下限(或上限)。
⑷L95(或U95)=依变量预测值95%置信区间的下(或上)限。
⑸STDP=预测值平均数的标准差。
⑹KSTDP=误差的标准差。
⑺STDI=个别预测值的标准差。
⑻STUDENT=经过标准化的误差。
⑼H=影响力,定义为Xi(X'X)Xi。
RANDOM指令指定模型中的随机效应。
选项串中⑴Q:
给出所有固定效应的二次形。
⑵TEST:
对各式随机效应执行适当的F检验,并且F检验的分母完全根据效应的期望均方而定。
FREQ、BY、指令与ANOAV过程中相似。
6.1.3VARCOMP过程
1.概述
VARCOMP过程是用于估计广义线性模型中方差组分的值,尤其是对随机模型的资料,或系统设计的资料,可用该过程完成方差组分的估计。
本过程估计方差组分的方法有四种:
⑴TYPE1(一型平方和)法:
因为该型平方和与模型效应的前后顺序相关(如系统设计)。
所以需要对其后效应的大小作调整,据此计算出各效应均方后进行F检验,其所对应的选项为:
METHOD=TYPE1。
⑵MIVQUE0(最小方差二次无偏估计)法:
该法估计的方差不受线性模型中固定效应的影响,随机效应的方差只对固定效应作调整,所以该法计算过程非常节省时间,并作为VARCOMP的内设值。
其选项为:
METHOD=MIVQUE0。
⑶ML(极大似然)法,该法的估计过程是循环式的,直到目标函数值稳定下来为止。
其选项为METHOD=ML。
⑷REML(约束极大似然)法,该法与⑶相异之处是先将线性模型中的随机效应与固定效应分开,然后进行循环式的估计,直到随机效应所对应的目标函数值稳定下来为止。
而⑶则不加以区分。
该法的选项为:
METHOD=REML。
2.过程格式:
PROC
VARCOMP
CLASS
MODEL
BY
选项串;
自变量名称串;
依变量名称串=效应串/选项串;
变量名称串;
语句说明:
VARCOMP选项中⑴METHOD=TYPE1|MIVQUEO|ML|REML见概述。
⑵MAXITER=正整数:
界定MLREML中循环的最高次数,内设值等于50。
⑶EPSILON=小的正实数:
界定ML或REML中目标函数稳定性的标准,内设10-8。
若两次循环所产生的函数值之差小于此数,则目标函数已达稳定。
CLASS、BY指令与ANOVA或GLM过程相同。
MODEL指令的前半部,亦与上述两个过程相同,删除号后的选项只有一个,FIXD=n(大于0的正整数,如:
2):
它指明指令等号右边的前n
(2)个效应是固定效应,其后的效应都是随机效应。
6.2程序应用
6.2.1单因素方差分析
例6—1选用条件基本一致的小白鼠30只,随机分成3组,分别接种11C、9D、DSL三种菌型的伤寒杆菌,观察接种后小白鼠的存活天数如下列程序数据行中。
试比较3组小白鼠的存活天数有无显著差异。
这是一个单因素设计的资料,a因素分3个水平,每个水平含10个观察值,拟用ANOVA过程分析。
1.编程法分析
(1)程序
optionsnodatenonumber;
dataxu6a;
doa=1to3;
doi=1to10;
inputx@@;output;
end;end;
cards;
55678855710
2432477254
5677121311789
;
procformat;
valuetrtf1="11C"2="9D"3="DSL";
procanova;formatatrtf.;
classa;modelx=a;
meansa/duncan;meansa/duncanalpha=0.01;
meansa;
run;
(2)输出结果
⑴TheANOVAProcedure
ClassLevelInformation
Class
Levels
Values
a
3
11C9DDSL
Numberofobservations30
⑵DependentVariable:
x
Source
DF
SumofSquares
MeanSquare
FValue
Pr>F
Model
2
102.0666667
51.0333333
11.21
0.0003
Error
27
122.9000000
4.5518519
CorrectedTotal
29
224.9666667
R-Square
CoeffVar
RootMSE
xMean
0.453697
33.51058
2.133507
6.366667
Source
DF
AnovaSS
MeanSquare
FValue
Pr>F
a
2
102.0666667
51.0333333
11.21
0.0003
⑶Duncan'sMultipleRangeTestforx
Alpha
0.05
0.01
ErrorDegreesofFreedom
27
27
ErrorMeanSquare
4.551852
4.551852
NumberofMeans
2
3
2
3
CriticalRange
1.958
2.057
2.644
2.757
Meanswiththesameletterarenotsignificantlydifferent.
0.05
0.01
DuncanGrouping
Mean
N
a
Duncanrouping
Mean
N
a
A
8.5000
10
DSL
A
8.5000
10
DSL
A
6.6000
10
11C
BA
6.6000
10
11C
B
4.0000
10
9D
B
4.0000
10
9D
⑷Levelof------------------x----------------
a
N
Mean
StdDev
11C
10
6.60000000
1.71269768
9D
10
4.00000000
1.88561808
DSL
10
8.50000000
2.67706307
【程序说明】
数据步中有两个循环体,外循环a取值1、2、3,循环3次(为a的水平数),内循环i取值1—10,循环10次(为各水平内观察值个数),所以,整个大循环共读入观察值变量x(依变量)的30个数据。
过程步中FORMAT语句用于设定变量格式。
VALUE语句定义格式名trtf,当某变量使用trtf.格式时,该变量若取值1、2、3,将分别用格式中定义的11C、9D、DSL表示。
其语句为:
FORMAT变量名格式名.,本例为:
FORMATatrtf.;即指定a的输出格式,输出时将a的取值1、2、3,分别用11C、9D、DSL代替。
设定格式和输出格式的存在与否不影响分析结果,仅仅是为了解释结果的方便而已。
CLASS语句指明自变量a。
MODEL语句定义单项分组资料的线性数学模型。
MEANS语句前两个指定计算处理平均数,并用邓肯新复极差法(SSR法)进行0.05及0.01显著水平下的多重比较。
后一个MEANS语句指定印出各处理的平均数、标准差。
【结果分析】
输出结果为:
⑴显示资料的分组(自变量)信息。
a有3个水平,取值为11C、9D、DSL,观察值个数为30。
⑵为方差分析表。
项目有:
变异来源(Source)、自由度(DF)、平方和(SunofSquares)、均方(MeanSquare)、F值(FValue)及概率P(PrsF)。
变异来源中有模型变异(Model),即整个处理效应的总变异,误差项(Error)的变异以及总变异(CorrectedTotal)。
因为只有一个A因素,因此,其下表中a间变异即为总效应的变异。
F检验结果(F=11.21,P=.0003)表明,处理间差异达到极显著水平。
在该表下为a(自变量)与x(依变量)间的相关指数(R—Square)为:
R2=模型平方和/总平方和=102.067/224.967=0.453697。
RootMSE为误差项均方根(相当于方程估测误差)Sx=4.5518521/2=2.133507。
依变量(x)的平均数
=6.366667,CoeffVar为剔除处理效应后依变量的变异系数CV=100%×Sx/
=100%×2.1335/6.3667=33.5106。
⑶为多重比较表,表中列有检验所用的显著水平、自由度、标准误及LSR值(CriticalRange),并注明均数前字母相同者为差异不显著,不同者为差异显著或极显著。
经检验结果表明,9D与11C、DSL两个菌型的毒性分别达到显著(p<0.05)和极显著(p<0.01)的差异,DSL与11C之间差异不明显(p>0.05)。
⑷列出各水平的样本含量、平均数及标准差。
2.非编程法分析
先创建数据集work.xu4a,采用SAS/ASSIST进行分析,其步骤为:
Solutions→ASSIST→DataAnalysis→ANOVA→AnalysisofVariance→Table→work→xu6a→ok→Dependent→x→
→ok→Classification→a→
→ok→AdditionalOptions→Outputstatistics→Mean→a→Optionsformeans→ComparisonTests→Duncan`smultiple—rangetest→ok→ok→Goback→Goback→Run→Submit
【说明】
结果显示于OUTPUT窗口,其内容与编程法分析中多重比较为0.05显著水平的相当。
例6—2在产卵场捕得12尾鲫鱼,它们的成熟系数(%)按年龄分成2年(g2)、3年(g3)及≥4(g4)年3个组别列于程序数据行中。
试检验不同年龄组鲫鱼成熟系数有无显著差异。
这是一个单因素3个水平内观察次数不等的资料,拟用GLM过程进行分析。
1.编程法分析
(1)程序
optionsnodatenonumber;
dataxu6b;
inputg$n;
doi=1ton;
inputx@@;
output;end;
cards;
g24
11.514.014.312.0
g35
13.212.618.519.015.7
g43
18.118.620.0
;
procglm;
classg;modelx=g/ss3;
meansg/hovtestsnk;
meansg;run;
procnpar1waywilcoxon;
classg;varx;exact;
run;
(2)输出结果
①DependentVariable:
x
Source
DF
SumofSquares
MeanSquare
FValue
Pr>F
Model
2
60.9525000
30.47
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方差分析