书签分享收藏举报版权申诉 / 56

立即下载加入VIP,免费下载

当前位置：首页 > PPT模板 > 卡通动漫 > 第6章方差分析.docx

第6章方差分析.docx

文档编号：8028796
上传时间：2023-01-28
格式：DOCX
页数：56
大小：68.04KB

第6章方差分析.docx

《第6章方差分析.docx》由会员分享，可在线阅读，更多相关《第6章方差分析.docx（56页珍藏版）》请在冰豆网上搜索。

第6章方差分析.docx

第6章方差分析

第六章方差分析

方差分析（AnalysisofVariance，ANOVA）是将待分析资料的总变异剖分为不同的变异来源，以获得不同变异来源的总体方差的估计值。

通过F检验，完成多个样本平均数之间的差异显著性检验（即多重比较），若处理效应为随机模型时，则进行方差组分的估计。

6.1方差分析的SAS过程

用于方差分析的主要过程有方差分析（ANOVA）和广义线性模型（GLM）。

对于无缺省（缺值、缺组等）资料，或称平衡资料，一般采用（ANOVA）过程，对缺省资料（非平衡资料）应采用（GLM）过程。

事实上根据效应模型的不同，还有VARCOME（方差组分）过程,MIXED（混合模型）过程等。

6.1.1ANOVA过程

1.名词解释

自变量与依变量在方差分析中，自变量可称为独立变量、定性变量（QualitativeVariale）、分类变量（ClassiflcationVariable）或类别变量（CategorcalVariable），相当于因素处理、水平变量。

依变量又称反应变量（ResponseVariable），相当于观察值变量。

实验效应方差分析的目的是找出对依变量产生的实验效应，这种效应可分为3种：

主效应，常以自变量的英文字母表示，如A、B等。

互作效应，常以星号联接自变量表示，如A*B。

嵌套效应，以小括号表示，如A（B）表示A效应嵌套在B效应之内。

2过程格式：

PROC

ANOVA

CLASS

MODEL

MEANS

FREQ

TEST

MANOVA

BY

选项串；

变量名称串；

依变量名称串=效应串/选项串；

效应名称串/选项串；

变量名称；

H=效应名称E=效应名称

H=效应名称E=效应名称M=变量的转换式；

PREFIX=新变量的名称代号；

MNAMES=新变量的名称串/选项串；

变量名称串

语句说明：

CLASS指令必须出现在MODEL指令之前，如选用TEST、MANOVA指令，则它们必须出现在MODEL指令之后。

MEANS、TEST及MANOVA等指令可重复使用，其他指令则只能出现一次。

PROCANOVA选项串中：

⑴DATA=输入数据集名称，指明对它执行ANOVA分析。

⑵MANOVA要求将含一个或一个以上依变量遗漏数据的观察值剔除。

⑶OUTPUT=（含分析结果的）输出文件名称，包括平方和（SS），F检验值，以及各效应的显著程度。

CLASS变量名称串指明自变量，自变量可以是数值的或文字的。

MODEL指令定义分析所用的线性数学模型（见表6—1），删除号（/）后的选项：

⑴NOUNI：

不印出单变量方差分析的结果，适用于多变量的方差分析。

⑵INT：

要求SAS把线性模型内的截距（即资料的总平均数）当成一个参数，同时对这个截距作是否为零的假设检验。

MEANS指令前半部要求算出某些自变量（或互作）中各组的平均数，后半部（删除号后）共有24个选项，前17个选项分别对MEANS指令中所列的主效应平均数进行多种方法的多重比较。

这些选项有：

⑴BON：

修正最小显著差异t检验。

⑵DUNCAN：

邓肯多重范围检验，即邓肯氏新复极差法。

⑶DUNNETT（控制组组名）：

邓尼特控制差异检验。

它是依据t分布由各组平均数与控制组（指定组如对照组）进行比较，采用双尾检验。

⑷DUNNETTL（控制组组名）：

邓尼特小于控制均数检验。

与控制组平均数的比较，采用单尾检验，临界值订在t分布的下端。

⑸DUNNETTU（控制组组名）：

邓尼特大于控制均数检验。

与控制组平均数的比较，采用单尾检验，临界值订在t分布的上端。

⑹GABRIEL：

贵博氏多重比较。

⑺REGWF：

R—E—G—W多重F检验。

⑻REGWQ：

R—E—G—W多种t检验。

⑼SCHEFFE：

执行沙菲氏（Scheffe）的多重比较检验。

⑽SIDAK：

Sidak调整T检验。

⑾SUM（或⑿GTI）：

Sidak独立样本t检验。

当两组样本含量不等时为哈氏（Hochberg）的GTI检验。

⒀SNK：

纽曼—库尔多重范围检验，即q检验。

⒁T（或⒂LSD）：

配对t检验或费歇尔最小显著差异检验。

⒃TUKEY：

图基固定极差检验。

⒄WALLER：

娃尔—邓肯K—比率t检验。

以上17种检验法最常用的为⑵、⑶、⑸、⒀、⒁。

其它主要选项还有⒅ALPHA=P：

界定检验的显著水准。

内设值为P=0.05。

当上面选项与选项⑵并用时，P值必须是0.10、0.05、0.01三者之一。

与上面其他检验选项时，P可以是0.0001与0.9999间任何的值。

⒆LINES：

将显著性检验的平均数，由大到小排列。

若某一对平均数之间无显著差异，则将它们印在同一行上，并以虚线将它们与其他有显著差异的平均数分开。

当选用⑵、⑺、⑻、⒀或⒄等检验时，此选项会自动被包括在内，否则，必须附加此选项。

⒇CLM：

效应的各组平均数以置信区间方式表示。

此项必须与⑴、⑹、⑼、⑽、⑾、⒁、⒂等联用。

（21）CLDIFF：

与（20）相仿，选用⑵、⑺、⑻、⒀、⒄时，附加此选项，将以置信区间方式显示各组平均数。

（22）E=效应名称：

它界定各显著检验的分母，缺省时以误差项的均方自动成为分母。

FREQ指令指明该变量值为各观察值重复出现的次数。

TEST指令用来指定F检验的分子与分母，H=分子，E=分母；一般而言，系统自动采用误差项的均方作为F检验的分母。

但对于随机模型等，可选此项。

MANOVA指令主要用于执行多变量（多元）方差分析。

BY指令用于把数据文件分成几个小文件，然后逐一进行ANOVA分析，但文件内的数据必须先按照BY变量串的值做由小到大的重新排列。

此步骤可籍PROCSORT达成。

以上指令中MODEL指令至关重要，同一资料，分析结果依模型不同而异。

常用的模型定义语句有：

MODELY=A；单因素方差分析，MODELY=AB两因素主效应模型，MODELY=ABA*B两因素带互作模型，MODELY=AB（A）嵌套（NESTED）模型用于系统分组资料。

MODELY1、Y2=A两元单因素方差分析。

在模型定义中，可用“|”和“@n”简化表达。

“|”等价于按Searle规则将效应从左到右展开，“＠n”表示互作效应和嵌套效应所包含的最多变量数。

各种模型简化表示法及其等价形式列于下表。

表6—1模型简化表示法及其等价形式

简化表示法

等价形式

A|B

A|B|C

A|B|C＠2

A|C（B）

A（B）|C（B）

A|B（A）|C

A|B（A）|C＠2

ABA*B

ABA*BCA*CB*CA*B*C

ABA*BCA*CB*C

AC（B）A*C（B）

A（B）C（B）A*C（B）

AB（A）CA*CB*C（A）

AB（A）CA*C

结果输出包括分类变量信息表，方差分析表及多重比较表等。

6.1.2GLM过程

1.概述

GLM是广义线性模型（GeneralLinearModel）的简称，其推算参数的理论依据是最小误差平方法（TheLeastSquaresMethod）。

最适宜于非平衡设计的资料，该过程可应用于多种不同的统计分析。

本章仅介绍在方差分析方面的用途。

2.过程格式：

PROC

GLM

CLASS

MODEL

MEANS

CONTRAST

ESTIMATE

LSMEANS

MANOVA

OUTPUT

RANDOM

TEST

FREQ

BY

选项串；

变量名称串；

依变量名称串=效应串/选项串；

效应名称串/选项串；

‘比较式的名称’各组效应系数据/选项串；

‘估计值的名称’各组效应系数据/选项串；

效应名称串/选项串；

H=效应名称E=效应名称M=变量的转换式；

PREFIX=新变量的名称代号；

MNAMES=新变量的名称串/选项串；

OUT=输出文件名称关键字=变量串；

效应名称串/选项串；

H=效应名称E=效应名称/选项串；

变量名称；

变量名称

语句说明：

格式中第1、3条指令是不可省略的，CLASS指令必须出现在MODEL、MEANS指令之前，其余均应出现在MODEL指令之后（但BY可出现在RUN前任何一处）。

PROCGLM选项串中：

⑴DATA、⑵MANOVA、⑶OUTPUT的含义与ANOVA选项串中的相同。

⑷NOPRINT：

要求分析结果不在报表上打印出来，一般不用此选项。

⑸MULTIPASS：

要求重读输入资料文件内的数据，也不常用。

⑹ORDER=FREQ|DATA|INTERNAL|FORMATTED：

界定自变量内各水平（组别）的次序，该选项与CONTRAST及ESTIMATE指令相关。

当ORDER=FREQ时，观察值个数最多的那一组为第一组，余类推。

当ORDER=DATA时，组别按输入资料文件中各组第一次出现的次序而定。

当ORDER=INTERNAL时，组别按其代号由小到大排列，或按各组名称的英文字母顺序排列。

当ORDER=FORMATTED时，则组别的顺序以外部的格式而定，此项为内设值。

CLASS指令指明自变量。

MODEL指令的前半部可参见表4—1，删除号后的选项串大致可分四类。

第一类与截距（常数项）有关。

⑴NOINT：

把截距排除模型之外。

⑵INT：

印出截距统计检验。

第二类与报表有关。

⑴NOUNI：

不打印单因素方差分析结果（常用于多变量分析）。

⑵SOLUTION：

打印一般线模型中参数的估计值，当省略CLASS指令时，程序会自动印出此解。

⑶TOLERANCE：

印出容忍量。

其定义为1－R2，R2为自变量与依变量的相关指数。

第三类与无效假设的检验有关。

⑴E：

要求印出所有可估计函数（EstimableFunctions）的值。

⑵E1；或E2：

或E3：

或E4：

只要求印出每一效应第一、或第二、或第三、或第四型可估计函数值。

⑶SSI：

或SS2：

或SS3：

或SS4：

只印出每一效应第一、或第二、或第三、或第四型的平方和。

第四类与控制计算过程的打印有关。

⑴XPX：

要求印出（X＇X）的向量积距阵⑵INVERST（或I）：

要求印出（X＇X）的逆距阵，或（X＇X）通用逆距阵。

MEANS指令的后半部分（删除号后）的选项，前22项可参见ANOVA过程。

另有DEPONLY：

要求印出依变量的平均数，若省略此项，程序会印出文件中所有连续性变量的平均数。

ETYPE=1（或2、或3、或4）：

界定F检验中分母距阵的均方类型，内设为分析过程检验中最高的一型。

HTYPE=1（或2、或3、或4）：

与WALLER选项并用，界定F检验中分子距阵的均方类型，内设为分析过程检验中最高的一型。

CONTRAST指令用于对比检验，即以线性方程序重新组合参数据执行检验。

其中“比较式的名字”必须放在单引号内，名字长度以20个字母为限；各组效应系数前必须先注明所要比较的效应，这些效应必须是MODEL中出现过的。

横行系数总和必须是0，不接受分数。

若有多个比较式，则以逗号将各横行隔开。

删除号后有E：

印出线性函数的向量L。

E=效应名称：

界定F检验的分母内设为误差项均方。

ETYPE=1（或2：

或3：

或4）：

界定平方和的类型等。

ESTIMATE指令用于检验参数线性组合。

LSMEANS指令用于计算依据最小误差平方法所得的平均数。

主要选项有：

⑴E：

最小误差平方平均数（Lsm）计算过程中所用到的可估计函数值。

⑵STDERR：

印出t检验（Ho：

Lsm≠0）的分母与其显著程度。

⑶TDIFF：

印出各平均数比较的t值及显著程度。

⑷PDIFF：

印出各平均数比较后的显著程度。

⑸E=效应名称：

必须与⑵、⑶、⑷选项并用，指定某一效应均方作为t检验的分母。

缺省时，GLM自动采用误差项的均方作为t检验的分母。

⑹ETYPE=1（或2：

或3：

或4）：

指定⑸中效应均方的类型。

MANOVA指令请参阅6.3。

OUTPUT指令中，OUT=输出资料文件名称，这个文件含原输入资料文件的所有变量，以及指令中所提到的关键字。

关键字=变量名称串：

关键字主要有⑴P=预测值。

⑵R=预测误差。

⑶L95M（或U95M）=依变量平均数95%置信区间的下限（或上限）。

⑷L95（或U95）=依变量预测值95%置信区间的下（或上）限。

⑸STDP=预测值平均数的标准差。

⑹KSTDP=误差的标准差。

⑺STDI=个别预测值的标准差。

⑻STUDENT=经过标准化的误差。

⑼H=影响力，定义为Xi（X＇X）Xi。

RANDOM指令指定模型中的随机效应。

选项串中⑴Q：

给出所有固定效应的二次形。

⑵TEST：

对各式随机效应执行适当的F检验，并且F检验的分母完全根据效应的期望均方而定。

FREQ、BY、指令与ANOAV过程中相似。

6.1.3VARCOMP过程

1.概述

VARCOMP过程是用于估计广义线性模型中方差组分的值，尤其是对随机模型的资料，或系统设计的资料，可用该过程完成方差组分的估计。

本过程估计方差组分的方法有四种：

⑴TYPE1（一型平方和）法：

因为该型平方和与模型效应的前后顺序相关（如系统设计）。

所以需要对其后效应的大小作调整，据此计算出各效应均方后进行F检验，其所对应的选项为：

METHOD=TYPE1。

⑵MIVQUE0（最小方差二次无偏估计）法：

该法估计的方差不受线性模型中固定效应的影响，随机效应的方差只对固定效应作调整，所以该法计算过程非常节省时间，并作为VARCOMP的内设值。

其选项为：

METHOD=MIVQUE0。

⑶ML（极大似然）法，该法的估计过程是循环式的，直到目标函数值稳定下来为止。

其选项为METHOD=ML。

⑷REML（约束极大似然）法，该法与⑶相异之处是先将线性模型中的随机效应与固定效应分开，然后进行循环式的估计，直到随机效应所对应的目标函数值稳定下来为止。

而⑶则不加以区分。

该法的选项为：

METHOD=REML。

2.过程格式：

PROC

VARCOMP

CLASS

MODEL

BY

选项串；

自变量名称串；

依变量名称串=效应串/选项串；

变量名称串；

语句说明：

VARCOMP选项中⑴METHOD=TYPE1|MIVQUEO|ML|REML见概述。

⑵MAXITER=正整数：

界定MLREML中循环的最高次数，内设值等于50。

⑶EPSILON=小的正实数：

界定ML或REML中目标函数稳定性的标准，内设10-8。

若两次循环所产生的函数值之差小于此数，则目标函数已达稳定。

CLASS、BY指令与ANOVA或GLM过程相同。

MODEL指令的前半部，亦与上述两个过程相同，删除号后的选项只有一个，FIXD=n（大于0的正整数，如：

2）：

它指明指令等号右边的前n

（2）个效应是固定效应，其后的效应都是随机效应。

6.2程序应用

6.2.1单因素方差分析

例6—1选用条件基本一致的小白鼠30只，随机分成3组，分别接种11C、9D、DSL三种菌型的伤寒杆菌，观察接种后小白鼠的存活天数如下列程序数据行中。

试比较3组小白鼠的存活天数有无显著差异。

这是一个单因素设计的资料，a因素分3个水平，每个水平含10个观察值，拟用ANOVA过程分析。

1.编程法分析

（1）程序

optionsnodatenonumber;

dataxu6a;

doa=1to3;

doi=1to10;

inputx@@;output;

end;end;

cards;

55678855710

2432477254

5677121311789

;

procformat;

valuetrtf1="11C"2="9D"3="DSL";

procanova;formatatrtf.;

classa;modelx=a;

meansa/duncan;meansa/duncanalpha=0.01;

meansa;

run;

（2）输出结果

⑴TheANOVAProcedure

ClassLevelInformation

Class

Levels

Values

a

3

11C9DDSL

Numberofobservations30

⑵DependentVariable:

x

Source

DF

SumofSquares

MeanSquare

FValue

Pr>F

Model

2

102.0666667

51.0333333

11.21

0.0003

Error

27

122.9000000

4.5518519

CorrectedTotal

29

224.9666667

R-Square

CoeffVar

RootMSE

xMean

0.453697

33.51058

2.133507

6.366667

Source

DF

AnovaSS

MeanSquare

FValue

Pr>F

a

2

102.0666667

51.0333333

11.21

0.0003

⑶Duncan'sMultipleRangeTestforx

Alpha

0.05

0.01

ErrorDegreesofFreedom

27

ErrorMeanSquare

4.551852

NumberofMeans

2

3

2

3

CriticalRange

1.958

2.057

2.644

2.757

Meanswiththesameletterarenotsignificantlydifferent.

0.05

0.01

DuncanGrouping

Mean

N

a

Duncanrouping

Mean

N

a

A

8.5000

10

DSL

A

8.5000

10

DSL

A

6.6000

10

11C

BA

6.6000

10

11C

B

4.0000

10

9D

B

4.0000

10

9D

⑷Levelof------------------x----------------

a

N

Mean

StdDev

11C

10

6.60000000

1.71269768

9D

10

4.00000000

1.88561808

DSL

10

8.50000000

2.67706307

【程序说明】

数据步中有两个循环体，外循环a取值1、2、3，循环3次（为a的水平数），内循环i取值1—10，循环10次（为各水平内观察值个数），所以，整个大循环共读入观察值变量x（依变量）的30个数据。

过程步中FORMAT语句用于设定变量格式。

VALUE语句定义格式名trtf，当某变量使用trtf．格式时，该变量若取值1、2、3，将分别用格式中定义的11C、9D、DSL表示。

其语句为：

FORMAT变量名格式名．，本例为：

FORMATatrtf．；即指定a的输出格式，输出时将a的取值1、2、3，分别用11C、9D、DSL代替。

设定格式和输出格式的存在与否不影响分析结果，仅仅是为了解释结果的方便而已。

CLASS语句指明自变量a。

MODEL语句定义单项分组资料的线性数学模型。

MEANS语句前两个指定计算处理平均数，并用邓肯新复极差法（SSR法）进行0.05及0.01显著水平下的多重比较。

后一个MEANS语句指定印出各处理的平均数、标准差。

【结果分析】

输出结果为：

⑴显示资料的分组（自变量）信息。

a有3个水平，取值为11C、9D、DSL，观察值个数为30。

⑵为方差分析表。

项目有：

变异来源（Source）、自由度（DF）、平方和（SunofSquares）、均方（MeanSquare）、F值（FValue）及概率P（PrsF）。

变异来源中有模型变异（Model），即整个处理效应的总变异，误差项（Error）的变异以及总变异（CorrectedTotal）。

因为只有一个A因素，因此，其下表中a间变异即为总效应的变异。

F检验结果（F=11.21，P=.0003）表明，处理间差异达到极显著水平。

在该表下为a（自变量）与x（依变量）间的相关指数（R—Square）为：

R2=模型平方和/总平方和=102.067/224.967=0.453697。

RootMSE为误差项均方根（相当于方程估测误差）Sx=4.5518521/2=2.133507。

依变量（x）的平均数

=6.366667，CoeffVar为剔除处理效应后依变量的变异系数CV=100%×Sx/

=100%×2.1335/6.3667=33.5106。

⑶为多重比较表，表中列有检验所用的显著水平、自由度、标准误及LSR值（CriticalRange），并注明均数前字母相同者为差异不显著，不同者为差异显著或极显著。

经检验结果表明，9D与11C、DSL两个菌型的毒性分别达到显著（p<0.05）和极显著（p<0.01）的差异，DSL与11C之间差异不明显（p>0.05）。

⑷列出各水平的样本含量、平均数及标准差。

2.非编程法分析

先创建数据集work.xu4a，采用SAS/ASSIST进行分析，其步骤为：

Solutions→ASSIST→DataAnalysis→ANOVA→AnalysisofVariance→Table→work→xu6a→ok→Dependent→x→

→ok→Classification→a→

→ok→AdditionalOptions→Outputstatistics→Mean→a→Optionsformeans→ComparisonTests→Duncan｀smultiple—rangetest→ok→ok→Goback→Goback→Run→Submit

【说明】

结果显示于OUTPUT窗口，其内容与编程法分析中多重比较为0.05显著水平的相当。

例6—2在产卵场捕得12尾鲫鱼，它们的成熟系数（%）按年龄分成2年（g2）、3年（g3）及≥4（g4）年3个组别列于程序数据行中。

试检验不同年龄组鲫鱼成熟系数有无显著差异。

这是一个单因素3个水平内观察次数不等的资料，拟用GLM过程进行分析。

1.编程法分析

（1）程序

optionsnodatenonumber;

dataxu6b;

inputg$n;

doi=1ton;

inputx@@;

output;end;

cards;

g24

11.514.014.312.0

g35

13.212.618.519.015.7

g43

18.118.620.0

;

procglm;

classg;modelx=g/ss3;

meansg/hovtestsnk;

meansg;run;

procnpar1waywilcoxon;

classg;varx;exact;

run;

（2）输出结果

①DependentVariable:

x

Source

DF

SumofSquares

MeanSquare

FValue

Pr>F

Model

2

60.9525000

30.47

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 方差分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第6章方差分析.docx
链接地址：https://www.bdocx.com/doc/8028796.html

第6章方差分析.docx

热门标签