1、医学统计学方差分析Analysis of Variance易洪刚Department of Epidemiology and Biostatistics,NMU流行病与生物统计系 南京医科大学主要内容(page62)o问题的提出o方差分析的原理o完全随机设计的方差分析 completely random designo配伍组设计的方差分析 random block designo两两比较o方差分析的正确应用问题的提出ot检验实例o朴松林等(2008)比较了南通市城市及农村80 岁以上老人生存质量健康状况量表(SF-36)维度评分。因素:老人所来自的区域水平:城市,农村单因素两水平问题的提出问题
2、的提出ot检验的局限性单因素两水平问题的提出江苏、安徽、浙江三省的平均入学成绩?单因素三水平江苏=592.79安徽=571.23浙江=569.83问题的提出o一种新的降血脂药,120人分为安慰剂组,用药组1(2.4g),用药组2(4.8g),用药组3(7.2g)。实验结束后观察血脂水平。?单因素四水平用药组1 =2.72mmol/l用药组2 =2.70mmol/l安慰剂组 =3.43mmol/l用药组3 =1.97mmol/l8oAs the number of levels(or conditions)increases,the number of comparisons needed in
3、creases more rapidlyo#comparisons=(n2-n)/2nn=number of levels问题的提出问题的提出o假如每次t检验犯第一类错误的概率是0.05,那么要完全地进行比较,犯第一类错误的概率是1(1)k。o多组间的两两比较为什么不能用多组间的两两比较为什么不能用 t 检验?检验?进行一次假设检验,犯第一类错误的概率:进行多次(k)假设检验,犯第一类错误的概率:1(1)k组数为组数为3,k=3,1(10.05)k=0.1426组数为组数为4,k=6,1(10.05)k=0.2649组数为组数为5,k=10,1(10.05)k=0.4013组数为组数为6,k=
4、15,1(10.05)k=0.5400问题的提出11ofw=1-(1-)KoAs the number of comparisons increases,the probability of making at least 1 Type-I error increases rapidly.问题的提出方差分析o方差分析,又称变异数分析。oAnalysis of Variance,简写为ANOVA。o多个均数的比较。o由英国统计学家R.A.Fisher提出,F检验。o方差分析的起源。Sir Ronald Aylmer Fisher18901962Rothamsted Agricultural St
5、ationFisher于Rothamsted研究作物产量时,完善了方差分析的思想方差分析的原理o单因素方差分析:研究的是一个处理因素的不同水平间效应的差别;处理因素水平1水平2方差分析的原理o单因素方差分析:研究的是一个处理因素的不同水平间效应的差别;处理因素水平1水平2水平k多个均数的比较!方差分析的原理(page62)例例6.6某某地地用用A、B和和C三三种种方方案案治治疗疗血血红红蛋蛋白白含含量量不不满满10g的的婴幼儿贫血患者,婴幼儿贫血患者,A方案为每公斤体重每天口服方案为每公斤体重每天口服2.5硫酸亚铁硫酸亚铁1ml,B方案为每公斤体重每天口服方案为每公斤体重每天口服2.5硫酸亚铁
6、硫酸亚铁0.5ml,C方案为每公斤体重每天口服方案为每公斤体重每天口服3g鸡肝粉,鸡肝粉,治治疗疗一一月月后后,记记录录下下每每名名受受试试者者血血红红蛋蛋白白的的上上升升克克数数,资资料料见见表表6.3,问三种治疗方案对婴幼儿贫血的疗效是否相同?,问三种治疗方案对婴幼儿贫血的疗效是否相同?因素:治疗方案因素:治疗方案水平:水平:A,B,C例6.6 三组血红蛋白增加量(g)A(i=1)B(i=2)C(i=3)1.81.45.02.02.1-0.7Xij0.51.20.20.01.91.32.32.30.51.61.71.13.70.70.33.00.20.22.40.51.91.62.00.7
7、2.01.41.00.01.50.91.51.72.43.00.90.82.73.0-0.40.71.1-0.31.13.22.01.2-0.20.70.92.51.60.71.31.4X总变异示意图总变异示意图A组组(i=1)B组组(i=2)C组组(i=3)X组间变异示意图组间变异示意图A组组(i=1)B组组(i=2)C组组(i=3)X组内变异示意图组内变异示意图A组组(i=1)B组组(i=2)C组组(i=3)方差分析的原理o所有个体的血红蛋白上升值几乎都不同 总变异o不同组间的血红蛋白上升值不同,原因:处理因素的效应(如果存在的话),随机误差 组间变异o同组内的血红蛋白上升值不一致,原因:
8、个体差异、随机误差 组内变异o总变异=组间变异+组内变异22oBetween-groups varianceoBetween-groups variance is a measure of how different the groups are from each other.oWhich distribution has a greater between-groups variance?方差分析的基本思想23oWithin-groups varianceoWithin-groups variance is the weighted mean variability within each
9、 group or conditionoWhich of the two distributions to the right has a larger within-groups variance?Why?方差分析的基本思想例6.6 三组血红蛋白增加量(g)A(i=1)B(i=2)C(i=3)1.81.45.02.02.1-0.7Xij0.51.20.20.01.91.32.32.30.51.61.71.13.70.70.33.00.20.22.40.51.91.62.00.72.01.41.00.01.50.91.51.72.43.00.90.82.73.0-0.40.71.1-0.31.
10、13.22.01.2-0.20.70.92.51.60.71.31.4ni20202060Meansd1.8400.9131.4151.2970.9300.7801.3951.071总变异 SS总oSum of squares about the mean of all N values.Grand MeanGrand MeanMean 1Mean 1Mean 2Mean 2Mean 3Mean 3方差分析的原理Grand MeanGrand MeanTotal Sum of Squares(SST):组内变异 SS组内oSum of squares within groupsGrand Me
11、anGrand MeanSum of squares within groupsDf=4Df=4Df=4Df=4Df=4Df=4组间变异 SS组间oSum of squares between groupsn1 n2 n3 Grand MeanGrand MeanSum of squares between groups:总变异的分解SS总SS组间SS组内67.66858.2930+59.3755ANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationVariation due to treatmentVariation due to
12、 random samplingTotal variationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPar
13、titionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariation方差分析的基本思想o组内变异:抽样误差o组间变异:组间本质差别抽样误差o如果组间无本质差别,则
14、组间变异组内变异o或:方差分析的基本思想XA组组(i=1)B组组(i=2)C组组(i=3)方差分析的基本思想总变异总的离均差平方和处理因素效应+随机误差随机误差方差分析的原理尺度总变异总的离均差平方和处理因素效应+随机误差随机误差方差分析的原理尺度变异来源离均差平方和SS自由度v均方MS统计量F组间 SS组间k-1SS组间/v组间MS组间MS组内组内 SS组内N-kSS组内/v组内总SS总N-1方差分析的原理变异来源SSvMSF 总 67.668559 组间8.293024.14653.98 组内(误差)59.3755571.0417方差分析的原理方差分析的原理o方差比的分布!F分布是英国统计
15、学家Fisher和Snedecor(斯内德克)提出的。为了表示对Fisher的尊重,Snedecor将其命名为F分布。方差分析也主要是由Fisher推导出来的,也叫F检验。方差分析的原理F 分布0123450.00.20.40.60.81.01=1,2=101=5,2=10方差分析的原理0123450.00.20.40.60.81.01=10,2=1=10,2=1方差分析的原理F 分布=1=2=3If we sampled from these populations,we would not expect to reject H0Variability within group6.2 The
16、ory of ANOVA Between-group variation is large compared to the Within-group variation2 3 1 If we sampled from these populations,we would expect to reject H0Variability within groupVariability between group6.2 Theory of ANOVA如果均值相等如果均值相等,F F=MSMSt t/MSMSe e1 1a a F 分布F(k-1,n-k)0 0拒绝拒绝H H0 0不能拒绝不能拒绝H H0 0F F方差分析的原理完全随机设计资料的方差分析1.H0:1=2=3,即三总体均数相等;H1:1,2,3 不等或不全相等。0.05。2.计算检验统计量:F=3.98 3.1588(界值)3.概率:P=0.0241(p0.05)Then the P-value=0.0241Lets say our observed value for F was F=3.98012340.00.20.40.60