书签分享收藏举报版权申诉 / 30

立即下载加入VIP,免费下载

当前位置：首页 > 工作范文 > 行政公文 > SAS学习系列29 方差分析ⅡANOVAGLM过程步.docx

SAS学习系列29 方差分析ⅡANOVAGLM过程步.docx

文档编号：30702908
上传时间：2023-08-19
格式：DOCX
页数：30
大小：696.91KB

《SAS学习系列29 方差分析ⅡANOVAGLM过程步.docx》由会员分享，可在线阅读，更多相关《SAS学习系列29 方差分析ⅡANOVAGLM过程步.docx（30页珍藏版）》请在冰豆网上搜索。

SAS学习系列29 方差分析ⅡANOVAGLM过程步.docx

SAS学习系列29方差分析ⅡANOVAGLM过程步

28.方差分析Ⅱ—ANOVA,GLM过程步

SAS提供了ANOVA和GLM过程步进行方差分析。

ANOVA过程步主要处理均衡数据（分类变量的每个水平的观察数是相等），该过程考虑到均衡设计的特殊构造，处理起来速度更快更省内存，也可以处理拉丁方设计、若干不完全的均衡区组设计数据等。

若试验设计不均衡，也不是前面几种实验设计数据，则应该使用GLM过程。

（一）PROCANOVA过程步

一、基本语法

PROCANOVAdata=数据集<可选项>;

CLASS分类变量列表;

MODEL因变量=效应变量列表;

;>

E=效应变量列表;>

说明：

（1）CLASS语句是必不可少的，必须放在MODEL语句之前，用来指定分类、区组变量（单因素方差分析只有一个变量）；

（2）MODEL语句也是必不可少的，该语句用来规定因变量和自变量效应（单因素方差分析的自变量就是分类变量）。

若没有规定自变量的效应，则只拟合截距，假设检验为因变量的均值是否为0.Model语句的主要形式有4种：

①主效应模型

modely=abc;

②含有交叉因素的模型

modely=abca*ba*cb*ca*b*c;

③嵌套模型

modely=abc（ab）;

④包含嵌套、交叉和主效应的模型

modely=ab（a）c（a）b*c（a）;

（3）MEANS语句必须出现在MODEL语句之后，用来计算在效应变量所对应的因变量均值，但这些均值没有针对模型中的效应进行修正。

若要计算修正的均值需要用GLM过程步的LSMEANS语句；

（4）MEANS语句的可选项主要有两个内容，一是选择多重比较的检验方法，二是设定这些检验的参数（只能用于主效应）；

bon——对所有主效应均值之差进行Bonferroni的t检验；

duncan——对所有主效应均值进行Duncan的多重极差检验；

smm|gt2——当样本量不等时，基于学生化最大模和Sidak不相关t不等式，等到Hochberg的GT2方法，对主效应均值进行两两对比检验；

snk——对所有主效应均值进行Student-Newman-Keuls的多重极差检验；

t|lsd——对所有主效应均值进行两两t检验，它相当于在单元观察数相等时Fisher的最小显著差检验；

tukey——对所有主效应均值进行Tukey的学生化极差检验；

waller——对所有主效应均值进行Waller-Duncan的k比率检验；

……

alpha=p——设置显著水平；

clm——对变量的每个水平的均值按置信区间形式输出；

e=效应变量——指定在多重对比检验中所使用的误差均方。

默认使用残差均方。

指定的效应变量必须是在model语句中出现过的；

kratio=值——给出Waller-Duncan检验的类型1/类型2的误差限制比例。

Kratio的合理值为50、100（默认）、500，大约相当于两水平时alpha值为0.1、0.05、0.01.

hovtest——要求输出组间方差齐性的Levene检验；

……

（5）TEST语句指定效应变量（H=）和误差变量（E=）做F检验，误差变量必须要指定且只能指定1个效应变量。

默认是用残差均方作为误差项对所有平方和（SS）计算F值。

例1来自四个地区少女篮球队队员身高的数据，变量包括地区、身高（C:

\MyRawData\GirlHeights.dat）：

读入数据，做单因素（身高）方差分析，判断她们的身高是否存在显著性地区差异。

代码：

dataheights;

infile'c:

\MyRawData\GirlHeights.dat';

inputRegion$Height@@;

run;

*UseANOVAtorunone-wayanalysisofvariance;

procanovadata=heights;

classRegion;

modelHeight=Region;

meansRegion/SCHEFFE;

title"Girls'HeightsfromFourRegions";

run;

运行结果及说明：

CLASS语句中分类变量有4个不同的水平值，共64个观测值；

因变量Height的方差分析表，因变量的总平方和（1030.000）、属于模型部分的平方和（196.625）、属于误差部分的平方和（833.375），自由度为（3,60,63），模型的均方MS（65.541667），误差的均方MSE（13.889583），F值=MS/MSE=4.72,P值=0.0051<α=0.05,否定原假设，即不同地区Height的均值不全相等（至少有两个不相等）。

R2=196.625/1030.000=0.90898,

变异系数CV=6.134771=100×根MSE/Height均值（%）,

因变量的标准差（根MSE）为3.726873

效应变量Region的方差分析表，同因变量的方差分析表中“模型”行。

下面是默认输出的盒形图：

Levene的方差齐性检验结果（0.4514>0.05）表明：

不能拒绝不同地区身高的方差是相等的原假设。

MEANS语句中的SCHEFFE选项，比较不同区域的平均身高，Scheffe分组A、B，在显著水平α=0.05下，认为同组内身高没有差异。

例2接例1四个地区的Height均值不同，但可能存在某2个或某3个或地区的身高均值相同。

除了用SCHEFFE选项，还可以对均值做多重比较和置信区间分析。

代码（部分）：

procanovadata=heights;

classRegion;

modelHeight=Region;

meansRegion/DUNCAN;

meansRegion/LSDCLMCLDIFF;

运行结果及说明：

DUNCAN选项，输出组间均值比较的多重极差检验，各组均值按从小到大排列，3个均值间的比较，就看3个地区最大和最小均值之差是否大于临界值2.773，North、East、West均值之差60.750-58.688=2.062<2.773,故这三个地区均值没有显著差异（α=0.05）

各地区Height均值t检验的置信区间：

均值±1.863714.

LSD最小显著差检验，0.05显著水平下，两两比较的最小显著差为2.6357，若显著则被标上“***”，例如，South与North均值之差为2.750>2.6357，故有显著差异。

（二）PROCGLM过程步

GLM过程步分析符合一般线性模型（GeneralLinearModels）的数据，因此取名GLM。

可用在简单回归、多元回归、方差分析、协方差分析、加权回归、多项式回归、偏相关分析、多元方差分析等。

GLM过程步的语法与ANOVA过程步基本相同。

区别是GLM过程多了些MODEL模型，并可以多三条语句：

contrast、estimate和lsmeans.

1.MODEL模型（a、b、c表示分类变量；y1、y2、x1、x2代表连续变量）：

Modely=x1;——线性回归

Modely=x1x2;——多元线性回归

Modely=x1x1*x1;——多项式回归

Modely1y2=x1x2;——多元回归

Modely=a;——单因素方差分析

Modely=abc;——主效应模型

Modely=aba*b;——交叉因素模型

Modely=ab（a）c（ba）;——嵌套模型

Modely1y2=ab;——多元方差分析模型

Modely=ax1——协方差分析模型

……

e1/e2/e3/e4——输出模型中每一效应的类型1/类型2/类型3/类型4的可估函数，并计算相应的平方和；

ss1/ss2/ss3/ss4——对每个效应，输出与类型1/类型2/类型3/类型4的可估函数相关的平方和；

cli/clm——打印每一观察的预测值/预测均值的置信限，两者不能同时使用；

p——打印自变量没有缺失值的每一观察值、预测值、残差值，以及Durbin-Waston统计量；

2.contrast语句

用来检验均值的线性组合关系的原假设。

有三个基本参数，一是标签，二是分类变量名，三是效应均值线性组合的系数表（系数的次序是匹配分类变量按字母数字次序的水平值）。

示例：

contrast'USvsNON-U.S.'brand222-3-3;

检验H0：

2μ1+2μ2+2μ3-3μ4-3μ5=0

3.estimate语句

用来估计效应均值的线性组合的值，格式同contrast语句。

示例：

（分数系数的表示）

estimate'1/3（a+b）－2/3c'Man11-2/divisor=3;

4.lsmeans语句

用来计算效应变量修正后的均值，最小二乘均值（LSM），这是针对非均衡数据设计的。

可选参数：

stderr——输出LSM的标准差和H0：

LSM=0的概率值；

tdiff——输出假设检验H0：

LSM（i）=LSM（j）的t值和相应的概率值；

slice=效应变量——通过规定的这个效应来分开交叉的LSM效应。

例如，假定交叉项A*B是显著的，如果想对B的每个效应检验A的效应，使用下面语句：

lsmeansA*B/slice=B;

例3考虑在5种不同品牌的人工合成胶合板材料上进行磨损时间测试，每种品牌的材料做四次试验，且都是采用的同一种磨损措施，所有的试验都是在完全随机的顺序下在相同的机器上完成的。

品牌ACMX、AXAX和CHAMP来自美国制造商，而品牌TUFFY和XTRA来自非美国制造商。

我们想要比较美国品牌的均值与非美国品牌的均值是否有差异。

代码：

dataveneer;

inputbrand$wear@@;

datalines;

ACME2.3ACME2.1ACME2.4ACME2.5

CHAMP2.2CHAMP2.3CHAMP2.4CHAMP2.6

AJAX2.2AJAX2.0AJAX1.9AJAX2.1

TUFFY2.4TUFFY2.7TUFFY2.6TUFFY2.7

XTRA2.3XTRA2.5XTRA2.3XTRA2.4

;

run;

procglmdata=veneer;

classbrand;

modelwear=brand;

contrast'USvsNON-U.S.'brand222-3-3;

estimate'USvsNON-U.S.'brand222-3-3;

title'WearTestsforfivebrands';

run;

运行结果：

程序说明：

（1）根据题意，原假设

H0:

（μACME+μAJAX+μCHAMP）/3=（μTUFFY+μXTRA）/2

等价于H0:

2（μACME+μAJAX+μCHAMP）-3（μTUFFY+μXTRA）=0,故contrast语句的系数表为2,2,2,-3,-3.（注意到均值对应关系是按字母顺序排列）；

（2）美国品牌均值与非美国品牌均值比较的平方和为0.27075，F值为13=0.27075/0.020833，P值=0.0026<α=0.05，拒绝原假设H0，说明美国品牌均值与非美国品牌均值是不同的；

（3）效应线性组合的参数估计为

-1.425=3×（2.325+2.050+2.375）-2×（2.600+2.375）

对于原假设H0参数是否为0的t检验，t值=-3.60，P值=0.0026<α=0.05，拒绝原假设（注意到t检验的p值与F检验的p值相同，这是因为两种检验是相同的，F值等于t值的平方）。

例4（随机单位组试验设计的方差分析）

某食品公司对一种食品设计了四种包装。

为了考察哪种包装最受欢迎，选了10个有近似相同销售量的商店作试验，其中两种包装各指定两个商店，另两种包装各指定三个商店销售。

在试验期间各商店的货架排放位置、空间都尽量一致，营业员的促销方法也基本相同。

观察在一定时期的销售量（数据见下表）。

试比较四种包装的销售量是否一致。

表四种包装在10个商店中的销售量

包装类型

（treat）

商店（block）

商店数

n

1

2

3

A1

12

18

2

A2

14

12

13

3

A3

19

17

21

3

A4

24

30

2

注意，包装类型A1和A4在商店3里没有进行试验，所以这是有不平衡数据集的随机区组设计。

代码：

datapack;

inputtreat$n;

doblock=1ton;

inputy@@;

output;

end;

datalines;

A12

1218

A23

141213

A33

191721

A42

2430

;

run;

procprintdata=pack;

title'SalesforFourDifferentPack';

run;

procglmdata=pack;

classblocktreat;

modely=blocktreat;

meansblocktreat/SNK;

meansblocktreat/DUNNETT（'1'）;

meansblocktreat;

run;

运行结果及说明：

读入数据，用n商店数控制每次读入数据数目（output不能缺），并输出原始数据集。

有两个分组变量，一是包装类型treat，包含四个水平A1、A2、A3、A4；二是商店名block，包含三个水平1、2、3.共10个观测。

CLASS语句，指定分组变量：

包装类型treat，商店名block.

总模型方差分析结果：

P值=0.0515，基本上有显著意义；R2=0.884868=269/304,模型变异基本反映了总变异。

对于单因素不平衡数据的方差分析，类型Ⅰ和类型Ⅲ的平方和就不相同了，分组变量的变异计算应该采用类型Ⅲ的平方和。

分组变量block的方差分析结果p=0.5789>α=0.05，不具有显著意义，说明食品在3家不同商店进行销售时，销售量的均值没有显著差异；分组变量treat的方差分析结果p=0.0256<α=0.05，具有显著意义，说明4种不同包装食品的销售量的均值具有显著差异，但没有指出具体哪几种包装之间有显著差异。

MEANS语句的snk选项，指定采用多极差检验法对均值进行多级比较。

3个组比较时，大均值与小均值之差的临界值为8.607705，而2个组比较时，临界值为6.7057385.“SNK”分组结果表明：

3个商店（2,1,3）标有相同字母“A”，说明了3个商店的销售量均值没有显著差异。

对treat组进行snk多极差检验，“SNK”分组结果显示，包装A3，A1，A2出现了标有相同的字母“B”，没有显著差异，它们与包装A4有显著差异。

若看任意两种包装的差异，例如，A4与A2为27－13=14>10.992537，有显著差异。

结论：

A4包装的销售量均值最高，其他三种包装销售量基本相同。

另外，区组观察数的调和均数为2.4=4/（1/2+1/3+1/3+1/2）。

DUNNETT（‘1’）选项，要求所有分组均值分别与对照组均值进行比较，采用dunnett的双尾t检验；也可用dunnetl（单尾t检验，分组的均值是否显著地小于对照组的均值）或dunnetu（单尾t检验，分组的均值是否显著地大于对照组的均值）。

对照组在括号内规定为‘1’，即分组变量的第1个水平分组，第1家商店和A1包装。

用Dunnett双侧检验的t临界值为3.33563，A2组与A1组均值之差为2<2×3.33563，无显著意义；A3组与A1组均值之差为-0.25<2×3.33563，无显著意义；另外也输出了均值之差的置信限。

第三个MEANS语句，用来输出各个分组的均值和标准差。

例5（双因素实验设计的方差分析）

研究饮食和健美操对减肥的作用。

饮食对减肥肯定有一定作用，适当的健美操对减肥也有效果。

那么哪一种饮食配上哪一样健美操最为有效呢？

因为饮食与饮食这两种减肥手段之间存在着交互作用，会加强减肥的效果。

现有三套饮食方案称为a、b、c，五种不同的健美操标记为1、2、3、4、5。

构成成了3×5=15种水平组合，选择了情况基本相同的90个肥胖人进行试验，将他们随机地指派到这15个组中且每组6人。

经过一段时间后，体重的下降结果如下表所示：

表3×5双因素设计的试验结果

饮食方案

food

健美操train

1

2

3

4

5

a

22.1

24.1

19.1

22.1

25.1

18.1

27.1

15.1

20.6

28.6

15.1

24.6

22.3

25.8

22.8

28.3

21.3

18.3

19.8

28.3

26.8

27.3

26.8

20.0

17.0

24.0

22.5

28.0

22.5

b

13.5

14.5

11.5

6.0

27.0

18.0

16.9

17.4

10.4

19.4

11.9

15.4

15.7

10.2

16.7

19.7

18.2

12.2

15.1

6.5

17.1

7.6

13.6

21.1

21.8

22.8

18.8

21.3

16.3

14.3

c

19.0

22.0

20.0

14.5

19.0

16.0

20.0

22.0

25.5

16.5

18.0

17.5

16.4

14.4

21.4

19.9

10.4

21.4

24.5

16.0

11.0

7.5

14.5

15.5

11.8

14.3

21.3

6.3

7.8

13.8

代码：

datafatness;

doi=1to3;

Inputfood$;

dotrain=1to5;

doj=1to6;

inputy@@;

output;

end;

datalines;

a

22.124.119.122.125.118.1

27.115.120.628.615.124.6

22.325.822.828.321.318.3

19.828.326.827.326.826.8

20.017.024.022.528.022.5

b

13.514.511.56.027.018.0

16.917.410.419.411.915.4

15.710.216.719.718.212.2

15.16.517.17.613.621.1

21.822.818.821.316.314.3

c

19.022.020.014.519.016.0

20.022.025.516.518.017.5

16.414.421.419.910.421.4

24.516.011.07.514.515.5

11.814.321.36.37.813.8

;

run;

procprintdata=fatness;

title'Weight-lossProgramsBasedonFoodandTrain';

run;

procglmdata=fatness;

classfoodtrain;

modely=foodtrainfood*train;

lsmeansfoodtrainfood*train;

lsmeansfood*train/SLICE=foodSLICE=train;

Contrast't1vst4inf1'train100-10food*train100-10;

Contrast't2vst4inf1'train010-10food*train010-10;

Contrast't3vst4inf1'train001-10food*train001-10;

Contrast't4vst5inf1'train0001-1food*train0001-1;

Contrast't2vst5inf3'train0100-1food*train00000000000100-1;

run;

运行结果及说明：

原始数据集（部分）如下

共有两个因素food和train，故CLASS语句有这两个分组变量名。

除了要考察这两个因素的主效应外，还要考察这两个因素的交互效应，表示为food*train，所以需要在MODEL语句的后面加上这个交互效应。

用LSMEANS语句替代MEANS语句的主要原因是，对于非均衡的试验数据需要计算最小二乘均值，它是一种调整后的均值。

第二个LSMEAN语句的作用，考虑到交叉项food*train是显著情况时，通过SLICE选项规定的food效应和train效应来分开交叉的food*train效应。

CONTRAST语句是作更进一步的对比，前四个CONTRAST语句是把因素food固定在第一个水平a上，然后对food因素有显著交互作用的train因素的某两个水平之间进行比较；最后一个CONTRAST语句是把因素food固定在第三个水平c上，对train因素的第二个水平均值和第五个水平均值进行比较。

要注意food*train交叉效应的参数化形式的规则为：

先变右下标，即f1*t1,f1*t2,……,f1*t5,f2*t1、……,f3*t5.

总的模型方差分析结果：

F值=4.87，P值=0.0001，模型效应是显著的。

模型中有两个主效应food和train及一个交互效应food*train，其中主效应food和交互效应food*train是显著的，而主效应train，F值=0.14，P值=0.9648，是不显著的。

基本结论：

饮食控制和健美操对减肥是有作用的，3种不同的饮食控制方案对减肥效果是有区别的，而5种不同的健美操对减肥效果是没有区别的，同时饮食方案和健美操的不同组合对减肥效果也是有区别的。

由于主效应food是显著的，说明三种饮食方案对减肥的效果是不同的，再通过查看三种饮食方案减肥体重的最小二乘均值均值，可以得出a方案最好，c方案最差，且a方案和c方案的差异应该是显著的，至于a与b的比较及b与c比较，可以采用多重比较的方法进一步分析。