第五讲 多组平均水平的比较.docx
- 文档编号:24091541
- 上传时间:2023-05-24
- 格式:DOCX
- 页数:22
- 大小:38.29KB
第五讲 多组平均水平的比较.docx
《第五讲 多组平均水平的比较.docx》由会员分享,可在线阅读,更多相关《第五讲 多组平均水平的比较.docx(22页珍藏版)》请在冰豆网上搜索。
第五讲多组平均水平的比较
Stata软件基本操作和数据分析入门
第五讲多组平均水平的比较
一、复习和补充两组比较的统计检验
1.配对设计资料(又称为DependentSamples)
a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验(ttest差值变量=0)
b)大样本的情况下,可以用配对t检验
c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank差值变量=0)
2.成组设计(TwoIndependentSamples)
a)如果方差齐性并且大样本情况下,可以用成组t检验(ttest效应指标变量,by(分组变量))
b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验
c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验(Ranksumtest)
group
x
0
79
0
93
0
91
0
92
0
94
0
77
0
93
0
74
0
91
0
101
0
83
0
73
0
88
0
102
0
90
0
100
0
81
0
91
0
83
0
106
0
84
0
78
0
87
0
95
0
101
1
101
1
100
1
114
1
86
1
106
1
107
1
107
1
94
1
89
1
104
1
98
1
110
1
89
1
103
1
89
1
121
1
94
1
95
1
92
1
109
1
98
1
98
1
120
1
104
1
110
二、多组比较
1.完全随机分组设计(要求各组资料之间相互独立)
a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用完全随机设计的方差分析方法(即:
单因素方差分析,OneWayANOVA)进行分析。
b)方差不齐或小样本情况下资料偏态,则用KruskalWallis检验(H检验)
例5.1为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四组人群的胃粘膜细胞中平均DNA含量是否相同?
组别
group
DNA含量(A.U)
浅表型胃炎
1
9.81
12.73
12.29
12.53
12.95
9.53
12.6
8.9
12.27
14.26
10.68
肠化生
2
14.61
17.54
15.1
17
13.39
15.32
13.74
18.24
13.81
12.63
14.53
16.17
早期胃癌
3
23.26
20.8
20.6
23.5
17.85
21.91
22.13
22.04
19.53
18.41
21.48
20.24
晚期胃癌
4
23.73
19.46
22.39
19.53
25.9
20.43
20.71
20.05
23.41
21.34
21.38
25.70
由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。
检验问题是考察四组DNA含量的平均水平相同吗。
如果每一组资料都正态分布并且方差齐性可以用Oneway-ANOVA进行分析,反之用KruskalWallis检验。
STATA数据输入格式
g
x
1
9.81
1
12.73
1
12.29
1
12.53
1
12.95
1
9.53
1
12.6
1
8.9
1
12.27
1
14.26
1
10.68
2
14.61
2
17.54
2
15.1
2
17
2
13.39
2
15.32
2
13.74
2
18.24
2
13.81
2
12.63
2
14.53
2
16.17
3
23.26
3
20.8
3
20.6
3
23.5
3
17.85
3
21.91
3
22.13
3
22.04
3
19.53
3
18.41
3
21.48
3
20.24
4
23.73
4
19.46
4
22.39
4
19.53
4
25.9
4
20.43
4
20.71
4
20.05
4
23.41
4
21.34
4
21.38
4
25.7
分组正态性检验,=0.05
.sktestxifg==1
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
x|0.4910.4851.070.5861
.sktestxifg==2
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
x|0.4820.5410.960.6201
.sktestxifg==3
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
x|0.5270.7500.520.7704
.sktestxifg==4
Skewness/KurtosistestsforNormality
-------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2
(2)Prob>chi2
-------------+-------------------------------------------------------
x|0.2600.6161.750.4166
上述结果表明每一组资料都服从正态分布。
单因素方差分析的STATA命令:
oneway效应指标变量分组变量,tb
其中t表示计算每一组均数和标准差,b表示采用Bonferroni统计方法进行两两比较。
本例命令为onewayxgroup,tb
.onewayxg,tb
|Summaryofx
g|MeanStd.Dev.Freq.
------------+------------------------------------
1|11.6863641.688438811
2|15.1733331.74917312
3|20.9791671.766827912
4|22.00252.242908712
------------+------------------------------------
Total|17.5831914.608078947
AnalysisofVariance
SourceSSdfMSFProb>F
------------------------------------------------------------------------
Betweengroups824.9425493274.9808577.870.0000
Withingroups151.839445433.53114987
------------------------------------------------------------------------
Total976.7819944621.2343912
Bartlett'stestforequalvariances:
chi2(3)=1.1354Prob>chi2=0.769
方差齐性的检验为:
卡方=1.1354,自由度=3,P值=0.769,因此可以认为方差是齐性的。
H0:
1=2=3=4四组总体均数相同
H1:
1,2,3,4不全相同
=0.05,相应的统计量F=77.87以及相应的自由度为3和43,P值<0.0001,因此4组均数的差别有统计学意义。
Comparisonofxbyg
(Bonferroni)
RowMean-|
ColMean|123
---------+---------------------------------
2|3.48697(第2组样本均数-第1组样本均数)
|0.000(H0:
1=2检验的P值)
|
3|9.29285.80583(第3组样本均数-第2组样本均数)
|0.0000.000(H0:
3=2检验的P值)
|
4|10.31616.829171.02333(第4组样本均数-第3组样本均数)
|0.0000.0001.000(H0:
3=4检验的P值)
上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两组均数比较检验的P值。
根据上述结果可以知道,第2组、第3组和第4组的AU均数均大于第1组的AU均数,并且差别有统计学意义。
说明肠化生患者和胃癌患者的DNA的AU含量平均水平均高于正常人的AU平均水平,并且差别有统计学意义。
第3组和第4组的AU均数也大于第2组的AU平均水平,并且差别有统计学意义。
说明胃癌患者的DNA的AU含量平均水平均高于肠化生患者的AU平均水平,并且差别有统计学意义。
第3组和第4组两组均数的差别没有统计学意义,说明没有足够的证据可以DNA的AU含量与癌症的早期与晚期有关系。
假如本例的资料不满足方差分析的要求,则用KruskalWallis检验,数据结构同上。
命令为:
kwallis效应指标变量,by(分组变量)
本例的命令为kwallisx,by(g)
H0:
4组的AU总体分布相同
H1:
4组的AU总体分布不全相同
=0.05
结果如下:
Test:
Equalityofpopulations(Kruskal-Wallistest)
g_Obs_RankSum
11172.00
212205.00
312411.50
412439.50
chi-squared=37.814with3d.f.
probability=0.0001
chi-squaredwithties=37.816with3d.f.
probability=0.0001
说明:
4组AU的总体分布不全相同,然后秩和检验,但应取小一些(多重比较时,会增大第一类错误的概率)。
根据Sidak检验的建议:
,其中k为要比较的次数,为多组比较总的检验水平(一般为0.05),’为两两比较时的检验水平。
如本例:
4组两两比较共比
次,因此
,
对于比较第1组和第2组的AU分布差别的操作命令为:
先计算中位数
sortg组别变量排序
byg:
centilex,centile(50)计算各组中位数
->g=1
--Binom.Interp.--
Variable|ObsPercentileCentile[95%Conf.Interval]
-------------+-------------------------------------------------------------
x|115012.299.72956412.7932
->g=2
--Binom.Interp.--
Variable|ObsPercentileCentile[95%Conf.Interval]
-------------+-------------------------------------------------------------
x|125014.85513.7474516.91172
->g=3
--Binom.Interp.--
Variable|ObsPercentileCentile[95%Conf.Interval]
-------------+-------------------------------------------------------------
x|125021.1419.6055222.12043
->g=4
--Binom.Interp.--
Variable|ObsPercentileCentile[95%Conf.Interval]
-------------+-------------------------------------------------------------
x|125021.3620.0904223.69596
得到这4组中位数分别为:
M1=12.29,M2=14.855,M3=21.14和M4=21.36
ranksumxifg==1|g==2,by(g)
Two-sampleWilcoxonrank-sum(Mann-Whitney)test
g|obsranksumexpected
-------------+---------------------------------
1|1172132
2|12204144
-------------+---------------------------------
combined|23276276
unadjustedvariance264.00
adjustmentforties0.00
----------
adjustedvariance264.00
Ho:
x(g==1)=x(g==2)
z=-3.693
Prob>|z|=0.0002
P值<’,因此第2组AU的平均水平要高于第1组的平均水平(M2>M1),并且差别有统计学意义。
第1组与第3组比较
ranksumxifg==1|g==3,by(g)
Two-sampleWilcoxonrank-sum(Mann-Whitney)test
g|obsranksumexpected
-------------+---------------------------------
1|1166132
3|12210144
-------------+---------------------------------
combined|23276276
unadjustedvariance264.00
adjustmentforties0.00
----------
adjustedvariance264.00
Ho:
x(g==1)=x(g==3)
z=-4.062
Prob>|z|=0.0000
P值<’,因此第3组AU的平均水平要高于第1组的平均水平(M3>M1),并且差别有统计学意义,其他比较类似进行。
要注意的问题:
◆在方差分析中,要求每一组资料服从正态分布(小样本时),并不是要求各组资料服从一个正态分布(因为这就意味各组的总体均数相同,失去统计检验的必要性),所以不能把各组的资料合在一起作正态性检验。
总的讲,方差分析对正态性具有稳健性,即:
偏态分布对方差分析的结果影响不会太大,故正态性检验的取0.05也就可以了。
◆样本量较大时,方差分析对正态性要求大大降低(根据中心极限定理可知:
样本均数近似服从正态分布)。
并且由于大多数情况下,样本资料只是近似服从正态分布而不是完全服从正态分布。
由于在大样本情况下,用正态性检验就变为很敏感,对于不是完全服从正态分布的资料往往会拒绝正态性检验的H0:
资料服从正态分布。
因为正态性检验不能检验资料是否近似服从正态分布,而是检验是否服从正态分布。
故在大样本情况下,考察资料的近似正态性,应用频数图进行考察。
◆方差齐性问题对方差分析相对比较敏感,并且并不是随着样本量增大而方差齐性对方差分析减少影响的。
但是当各组样本量接近相同或相同时,方差齐性对方差分析呈现某种稳健性。
即:
只有当各组样本量相同时,方差齐性对方差分析结果的影响大大降低。
这时随着样本量增大,影响会进一步降低。
相反,如果各组样本量相差太大时,方差齐性对方差分析结果的影响很大。
这时随着样本量增大,影响会进一步加大。
2.随机区组设计(处理组之间可能不独立)
a)残差(定义为:
,也就是随机区组方差分析中的误差项)的方差齐性且小样本时正态分布,则用随机区组的方差分析(无重复的两因素方差分析,Two-wayANOVA)。
b)不满足方差齐性或小样本时资料偏态,则对用秩变换后再用随机区组的方差分析也可以直接用非参数随机区组的秩和检验Fredmantest)。
例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值,请问在不同季节该湖水中氯化物的含量有无差别?
表2某湖水中不同季节的氯化物含量测定值(mg/L)
locationno
春
夏
秋
冬
1
21.28
18.33
17.27
14.91
2
22.78
19.81
16.55
14.85
3
20.90
18.93
16.36
16.30
4
19.90
21.23
17.86
15.73
5
21.49
19.09
15.11
17.05
6
22.38
17.92
16.57
14.34
7
21.67
19.39
17.19
16.31
8
22.06
19.65
16.58
14.33
显然同一地点不同季节的氯化物含量有一定的相关性,故不能采用完全随机设计的方差分析方法对4个季节的氯化物含量进行统计分析。
可以把同一地点的4个季节氯化物含量视为一个区组,因此可以用随机区组的方差分析进行统计分析。
设第8个地点在冬季的氯化物总体均数为0,同样在冬季,第i个地点的氯化物总体均数与第8个地点在冬季的氯化物总体均数相差i,i=1,2,3,4,5,6,7。
因此在冬季的这8个地点在冬季的氯化物总体均数可以表示为
地点编号
1
2
3
4
5
6
7
8
冬季氯化物均数
0+1
0+2
0+3
0+4
0+5
0+6
0+7
0
假定在同一地区,春季的氯化物总体均数与冬季的氯化物总体均数相差1,因此春节和冬季的氯化物总体均数可以表示为
地点编号
1
2
3
4
5
6
7
8
冬季氯化物均数
0+1
0+2
0+3
0+4
0+5
0+6
0+7
0
春季氯化物均数
0+1+1
0+1+2
0+1+3
0+1+4
0+1+5
0+1+6
0+1+7
0
如果1=0说明在同一地点,冬季和春季的氯化物总体均数相同;1>0说明春季的氯化物含量平均高于冬季氯化物含量,反之<0,说明春季氯化物含量均数低于冬季氯化物含量。
同理假定在同一地区,夏季和秋季的氯化物总体均数与冬季的氯化物总体均数分别相差2和3,则四个季节的氯化物总体均数可以表示为
地点编号
1
2
3
4
5
6
7
8
冬季氯化物均数
0+1
0+2
0+3
0+4
0+5
0+6
0+7
0
春季氯化物均数
0+1+1
0+1+2
0+1+3
0+1+4
0+1+5
0+1+6
0+1+7
0
夏季氯化物均数
0+2+1
0+2+2
0+2+3
0+2+4
0+2+5
0+2+6
0+2+7
0
春季氯化物均数
0+3+1
0+3+2
0+3+3
0+3+4
0+3+5
0+3+6
0+3+7
0
根据上述总体均数表示,可以知道:
在四个季节中的氯化物总体均数(同一地点)无变化就是H0:
1=2=3=0(在随机区组方差分析中称为无处理效应,但不能称4组的总体均数相同,因为在同一季节中不同地点的总体均数可能不同)。
H1:
1,2,3不全为0
Stata数据输入格式
t
id
x
1
1
21.27589
1
2
22.77649
1
3
20.89943
1
4
19.9043
1
5
21.4929
1
6
22.38085
1
7
21.67344
1
8
22.06133
2
1
18.33405
2
2
19.80538
2
3
18.92919
2
4
21.22814
2
5
19.09215
2
6
17.9237
2
7
19.38569
2
8
19.64971
3
1
17.27141
3
2
16.54567
3
3
16.36019
3
4
17.85548
3
5
15.11296
3
6
16.56507
3
7
17.18734
3
8
16.58279
4
1
14.90559
4
2
14.85127
4
3
16.29782
4
4
15.7286
4
5
17.05169
4
6
14.34088
4
7
16.31367
4
8
14.33015
其中id表示观察地点编号,t=1,2,3,4对应表示春节、夏季、秋季和冬季。
Stata操作命令:
anovaxtid
Numberofobs=32R-squared=0.8923
RootMSE=1.01769AdjR-squared=0.8410
Source|PartialSSdfMSFProb>F
-----------+-------------------------------------------------
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五讲 多组平均水平的比较 第五 平均水平 比较