系统和数据分析协方差分析.docx
- 文档编号:25230149
- 上传时间:2023-06-06
- 格式:DOCX
- 页数:27
- 大小:98.18KB
系统和数据分析协方差分析.docx
《系统和数据分析协方差分析.docx》由会员分享,可在线阅读,更多相关《系统和数据分析协方差分析.docx(27页珍藏版)》请在冰豆网上搜索。
系统和数据分析协方差分析
第二十六课协方差分析
当定量的影响因素对观察结果有难以控制的影响,甚至还有交互作用时,采用协方差分析,这些影响变量称为协变量,扣除(或消除)协变量的影响,可以得到修正后的均值估计。
一、协方差分析概述
1.协方差分析概念
协方差分析(analysisofcovariance)又称带有协变量的方差分析(analysisofvariancewithcovariates),是将回归分析与方差分析结合起来使用的一种分析方法。
在各种试验设计中,对主要变量y研究时,常常希望其他可能影响和干扰y的变量保持一致以到达均衡或可比,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。
但是有时,这些变量难以控制,或者根本不能控制。
为此需要在试验中同时记录这些变量的值,把这些变量看作自变量,或称协变量(covariate),建立因变量y随协变量变化的回归方程,这样就可以利用回归分析把因变量y中受协变量影响的因素扣除掉,从而,能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均值之间是否有显著性的差别。
简单地说,协方差分析是扣除协变量的影响,或者将这些协变量处理成相等,再对修正的y的均值作方差分析。
2.协方差分析的假定
协方差分析需要满足的假定为:
各样本来自具有相同方差的正态分布总体,即要求各组方差齐性。
协变量与主要变量y间的总体回归系数不等于0。
各组的回归线平等,即回归系数
如果上述的假定满足,就作协方差分析。
前述的各种试验设计,如完全随机化设计、随机区组设计、析因设计、拉丁方设计等,都可以带一个或多个协变量,按设计方案扣除协变量的影响后,对主要变量y的修正均值作比较,得出统计结论。
3.协方差分析的模型
最简单的单因素一元协方差分析的模型,是由单因素效应模型
加上协变量的影响因素
而得出:
(26.1)
其中,为协变量,为协变量在分类水平i和j上的记录值,为所有协变量的平均值,为相关的回归系数。
设
,为平均截距。
上式可以化简成:
(26.2)
设
,上式可以化简成:
(26.3)
很明显是第i组回归线的截距,等于回归线的平均截距加上本组的效应。
这个式揭示了,观察值的模型可以表示成一组相似的回归线,且各组具有共同的回归系数,和各组自己的截距
。
用SAS中的glm过程进行协方差分析时,要注意不同试验设计时class语句和model语句的写法。
设分类变量为A、B,协变量为X,观察值为Y,则有:
单因素k水平设计的协方差分析模型
classA;
modelXA;
随机区组设计的协方差分析模型
classAB;
modelXAB;
两因素析因设计的协方差分析模型
classAB;
modelXABA*B;
二、实例分析
1.一元协方差分析
例26.1研究牡蛎在不同温度的水中不同位置上的生长情况。
有人做了如下试验:
分别在通向发电站的入口处(温度较低)不同位置(底部和表层)和出口处(温度较高)不同位置(底部和表层)及电站附近的深水处(底部和表层的中间)总共5个不同位置点上,随机地各放4袋牡蛎(每袋中有10个),共5×4=20袋。
在将每袋牡蛎放入位置点之前,先洗干净称出每袋的初始体重,放在5个不同点一个月后再称出最后体重。
试验结果数据如表26.1所示。
表26.1牡蛎在不同温度和位置上的生长数据
位置
trt
重复数rep(x为初始体重,y为最后体重)
1
2
3
4
x
y
x
y
x
y
x
y
1(入口底部)
27.2
32.6
32.0
36.6
33.0
37.7
26.8
31.0
2(入口顶部)
28.6
33.8
26.8
31.7
26.5
30.7
26.8
30.4
3(出口底部)
28.6
35.2
22.4
29.1
23.2
28.9
24.4
30.2
4(出口顶部)
29.3
35.0
21.8
27.0
30.3
36.4
24.3
30.5
5(附近中部)
20.4
24.6
19.6
23.4
25.1
30.3
18.1
21.8
程序如下:
datagrowth;
dotrt=1to5;
dorep=1to4;
inputxy@@;
output;
end;
end;
cards;
27.232.632.036.633.037.726.831.0
28.633.826.831.726.530.726.830.4
28.635.222.429.123.228.924.430.2
29.335.021.827.030.336.424.330.5
20.424.619.623.425.130.318.121.8
;
procanovadata=growth;
classtrt;
modely=trt;
procglmdata=growth;
classtrt;
modely=trtx/solution;
meanstrt;
lsmeanstrt/stderrtdiff;
contrast'trt12vstrt34'trt-1-1110;
estimate'trt1adjmean'intercept1trt10000x25.76;
estimate'trt2adjmean'intercept1trt01000x25.76;
estimate'adjtrtdiff'trt1-1000;
estimate'trt1unadjmean'intercept1trt10000x29.75;
estimate'trt2unadjmean'intercept1trt01000x27.175;
estimate'unadjtrtdiff'trt1-1000x2.575;
run;
程序说明:
定性变量trt的5个不同位置点对y可能有较大的影响,因此class语句中分组变量为trt,先选用anova过程进行方差分析。
然而,牡蛎的初始体重x对牡蛎的最后体重y可能也有一定的影响,故适合选用glm过程进行协方差分析,在model语句中不仅包括分组变量trt,而且应包括协变量x。
选择项solution要求输出回归系数的估计值及其标准误差和假设检验等结果。
means和lsmeans语句要求输出分组变量trt各水平下y的未修正均值和修正后的均值,选择项stderr要求输出y的修正均值的标准误差、各修正均值与0比较的假设检验结果;选择项tdiff要求输出y的各修正均值之间两两比较所对应的t值和p值。
Contrast语句是用来比较入口处底部和顶部均值之和与出口处底部和顶部均值之和是否相等。
前三条estimate语句是用来估计入口处底部和顶部调整后的均值及它们之差,并假设检验是否为0,后三条estimate语句是用来估计入口处底部和顶部未调整的均值及它们之差,并假设检验是否为0。
程序输出的主要结果如表26.2(a)、表26.2(b)、表26.2(c)所示。
表26.2(a)单因素trt一元x的协方差分析
TheSASSystem
AnalysisofVarianceProcedure
DependentVariable:
Y
SourceDFSumofSquaresMeanSquareFValuePr>F
Model4198.4070000049.601750004.640.0122
Error15160.2625000010.68416667
CorrectedTotal19358.66950000
R-SquareC.V.RootMSEYMean
0.55317510.597063.2686643630.84500000
SourceDFAnovaSSMeanSquareFValuePr>F
TRT4198.4070000049.601750004.640.0122
GeneralLinearModelsProcedure
DependentVariable:
Y
SourceDFSumofSquaresMeanSquareFValuePr>F
Model5354.4471767570.88943535235.050.0001
Error144.222323250.30159452
CorrectedTotal19358.66950000
R-SquareC.V.RootMSEYMean
0.9882281.7804380.5491762230.84500000
SourceDFTypeISSMeanSquareFValuePr>F
TRT4198.4070000049.60175000164.470.0001
X1156.04017675156.04017675517.380.0001
SourceDFTypeIIISSMeanSquareFValuePr>F
TRT412.089359283.0223398210.020.0005
X1156.04017675156.04017675517.380.0001
TforH0:
Pr>|T|StdErrorof
ParameterEstimateParameter=0Estimate
INTERCEPT2.494859769B2.430.02931.02786287
TRT1-0.244459378B-0.420.67800.57658196
2-0.280271345B-0.570.57860.49290825
31.654757698B3.850.00180.42943036
41.107113519B2.350.03420.47175112
50.000000000B...
X1.08317981922.750.00010.04762051
NOTE:
TheX'Xmatrixhasbeenfoundtobesingularandageneralizedinversewasusedtosolvethenormalequations.Estimatesfollowedbytheletter'B'arebiased,andarenotuniqueestimatorsoftheparameters.
表26.2(a)中结果分析:
对分组变量trt的方差分析表明,即使当初始体重x不考虑,各分组最后体重均值的区别也统计显著(0.0122<0.05),其中分组变量trt的平方和为198.40700000。
而在协方差分析中,分组变量trt的类型1的平方和等于方差分析中的平方和198.40700000,分组变量trt的类型3的平方和为12.08935928,大大小于类型1的平方和,是因为类型3的平方和反映了经过共同的协变量x调整后的平方和,减去了协变量的影响,所以平方和大幅减小。
类型1是一种未经过调整的平方和,因为它的优先级高于协变量的调整。
更进一步分析,我们注意到方差分析中均方误差为10.68416667,而协方差分析中却缩小到0.30159452,相应地分组变量trt的F统计量从4.64增加到10.02,说明包含了协变量后分组的区别更加显著,原因是简单方差分析中,大多数的误差是由于初始体重x的变异造成的。
表中的最后一部分是选择项solution的输出结果,对模型中的截距、各分组变量和协变量的回归系数进行估计和检验,在这个单因素trt的情况下,估计是以最后一个水平trt5(trt=5)为对照组,并且设置它的系数为0,因此截距intercept的估计值是分组trt5的估计值。
其他四个分组trt的系数估计是每一个与trt5进行比较而得到的。
注意,出口处的trt3和trt4分组不同于trt5分组。
协变量x的系数是合并各组内y和x所得到的回归系数,即由5个独立的trt分组分别回归y和x后得到回归系数然后加权平均。
协变量x的系数估计值表明,初始体重变动1个单位,最后,体重y相关地要变动1.083179819单位。
表26.2(b)未调整均值和调整均值及均值之间的比较
TheSASSystem
GeneralLinearModelsProcedure
Levelof--------------Y----------------------------X--------------
TRTNMeanSDMeanSD
1434.47500003.1889130929.75000003.20572405
2431.65000001.5373136727.17500000.96046864
3430.85000002.9557852924.65000002.75862284
4432.22500004.2975768426.42500004.04917687
5425.02500003.6989863520.80000003.02103735
LeastSquaresMeans
TRTYStdErrPr>|T|LSMEAN
LSMEANLSMEANH0:
LSMEAN=0Number
130.15311250.33391740.00011
230.11730060.28273500.00012
332.05232960.27962950.00013
431.50468540.27640820.00014
530.39757190.36219880.00015
TforH0:
LSMEAN(i)=LSMEAN(j)/Pr>|T|
i/j12345
1.0.087941-4.1466-3.22289-0.42398
0.93120.00100.00610.6780
2-0.08794.-4.76003-3.55771-0.56861
0.93120.00030.00320.5786
34.1465994.76003.1.3780023.853378
0.00100.00030.18980.0018
43.2228923.557715-1.378.2.346817
0.00610.00320.18980.0342
50.423980.568608-3.85338-2.34682.
0.67800.57860.00180.0342
NOTE:
Toensureoverallprotectionlevel,onlyprobabilitiesassociatedwithpre-plannedcomparisonsshouldbeused.
表26.2(b)中结果分析:
means语句要求计算按trt每个水平分组的未调整的y和x的均值。
如=34.475=(32.6+36.6+37.7+31)/4,=29.75=(27.2+32+33+26.8)/4。
Lsmeans语句要求计算调整后的y的均值,或称最小二乘均值估计,我们可以由公式(26.1)求分组平均得到:
(26.4)
再由公式(25.2)求分组平均代入上式:
(26.5)
例如,初始体重的整体平均值为=(29.750+27.175+24.650+26.425+20.800)/5=25.76,以trt1分组为例,调整后=30.1531125=34.475-1.083179819×(29.75-25.76)。
tdiff选择项要求对已调整均值的两两比较采用lsd检验,可以使用adjust=duncan/waller等选项替代lsd检验,获得其他多重比较的检验结果。
从最后的5×5修正均值比较结果表中,可得到(
)中的任何一个与(
)中的任何一个之间有显著或非常显著性差别。
表26.2(c)有计划的均值对比和参数估计
TheSASSystem
DependentVariable:
Y
ContrastDFContrastSSMeanSquareFValuePr>F
trt12vstrt3418.591080778.5910807728.490.0001
TforH0:
Pr>|T|StdErrorof
ParameterEstimateParameter=0Estimate
trt1adjmean30.153112590.300.00010.33391743
trt2adjmean30.1173006106.520.00010.28273504
adjtrtdiff0.03581200.090.93120.40722674
trt1unadjmean34.4750000125.550.00010.27458811
trt2unadjmean31.6500000115.260.00010.27458811
unadjtrtdiff2.82500007.270.00010.38832623
表26.2(c)中结果分析:
contrast语句通过其后的参数项设置,用来假设检验我们自己计划的原假设
,结果显示非常显著(0.0001<0.05),即入口处底部和顶部均值之和与出口处底部和顶部均值之和是有显著差异的,说明水中的温度不同对牡蛎生长是不同的。
本程序中的estimate语句,有计划地设计了对入口处的底部和顶部调整后均值进行估计,及它们之差是否为0的假设检验,结果为不显著。
但如果对未调整均值之差是否为0进行假设检验,结果却为非常显著。
因此,我们可以看到使用调整后均值进行估计是必要的。
2.多元协方差分析
例26.2研究男女儿童的体表面积是否相同。
考虑到儿童的身高和体重对表面积可能有影响,在某地测量了男女各15名初生至3周岁儿童的身高、体重和体表面积,得到测量数据如表26.3所示。
表26.33周岁男女儿童的身高、体重和体表面积
男(male)
女(female)
身高(x1)
体重(x2)
表面积(y)
身高(x1)
体重(x2)
表面积(y)
54.0
3.00
2446.2
54.0
3.00
2117.3
50.5
2.25
1928.4
53.0
2.25
2200.2
51.0
2.50
2094.5
51.5
2.50
1906.2
56.5
3.50
2506.7
51.0
3.00
1850.3
52.0
3.00
2121.0
51.0
3.00
1632.5
76.0
9.50
3845.9
77.0
7.50
3934.0
80.0
9.00
4380.8
77.0
10.0
4180.4
74.0
9.50
4314.2
77.0
9.50
4246.1
80.0
9.00
4078.4
74.0
9.00
3358.8
76.0
8.00
4134.5
73.0
7.50
3809.7
96.0
13.5
5830.2
91.0
12.0
5358.4
97.0
14.0
6013.6
91.0
13.0
5601.7
99.0
16.0
6410.6
94.0
15.0
6074.9
92.0
11.0
5283.3
92.0
12.0
5299.4
94.0
15.0
6101.6
91.0
12.5
5291.5
程序如下:
procformat;
valuesexname1=’male’2=’female’;
datachild;
doi=1to15;
dosex=1to2;
inputx1x2y@@;
formatsexsexname.;
output;
end;
end;
cards;
54.03.002446.254.03.002117.3
50.52.251928.453.02.252200.2
51.02.502094.551.52.501906.2
56.53.502506.751.03.001850.3
52.03.002121.051.03.001632.5
76.09.503845.977.07.503934.0
80.09.004380.877.010.04180.4
74.09.504314.277.09.504246.1
80.09.004078.474.09.003358.8
76.08.004134.573.07.503809.7
96.013.55830.291.012.05358.4
97.014.06013.691.013.05601.7
99.016.06410.694.015.06074.9
92.011.05283.392.012.05299.4
94.015.06101.691.012.55291.5
;
procglmdata=child;
classsex;
modely=sexx1x2/solution;
lsmeanssex/stderrtdiff;
run;
程序说明:
本例为带有两个协变量x1和x2,一个分组变量sex的完全随机化设计的多元协方差分析。
data步中为了便于读入数据,sex分组变量取值为1和2,但又为了显示清楚,用format过程自定义了sexname.格式,用于sex变量的显示格式。
在class语句中只能有sex分组变量,而在model语句中应把观察指标放在等号的左边,分组变量和协变量放在等号的右边,solution选项求回归方程的系数估计。
lsmeans语句求修正后均值,stderr选项求均值的标准误差,tdiff选项求均值对比的t值和p值。
程序输出的主要结果如表26.4所示。
表26.4单因素的多元协方差分析
TheSASSystem
GeneralLinearModelsProcedure
DependentVari
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统 数据 分析 协方差分析