系统和数据分析方差分析Word文档格式.docx
- 文档编号:14237603
- 上传时间:2022-10-20
- 格式:DOCX
- 页数:51
- 大小:260.28KB
系统和数据分析方差分析Word文档格式.docx
《系统和数据分析方差分析Word文档格式.docx》由会员分享,可在线阅读,更多相关《系统和数据分析方差分析Word文档格式.docx(51页珍藏版)》请在冰豆网上搜索。
df
均方
MS
F统计量
F
P概率值
P
效应S1
SS1
df1
MS1=SS1/df1
F1(df1,dfe)=MS1/MSe
P1
效应S2
SS2
df2
MS2=SS2/df2
F2(df2,dfe)=MS2/MSe
P2
……
效应Sm
SSm
dfm
MSm=SSm/dfm
Fm(dfm,dfe)=MSm/MSe
Pm
误差Se
SSe
dfe
MSe=SSe/dfe
总变异ST
SST=SS1+SS2+…+SSm+SSe
dfT=df1+df2+…+dfm+dfe
MST=SST/dfT
FT(dfT,dfe)=MST/MSe
PT
表中变异来源一栏,可分为总变异(total),误差(residual),各个效应(effect)相对应的项。
效应项与试验设计或统计分析的目的有关,一般有:
主效应(包括各种因素),交互影响项(因素间的多级交互影响),协变量(来自回归的变异项),等等。
当分析和确定了各个效应项S后,根据原始观察资料可计算出各个离均差平方和SS,再根据相应的自由度df,由公式MS=SS/df,求出均方MS,最后由相应的均方,求出各个变异项的F值,F值实际上是两个均方之比值,通常情况下,分母的均方是误差项的均方。
根据F值的分子、分母均方的自由度f1和f2,在确定显著性水平为情况下,由临界值表查得单侧界限值。
当时,则,不拒绝原假设,说明不拒绝这个效应项的效应为0的原假设,也即这个效应项是可能对总变异没有实质影响的;
如果,则,拒绝原假设,说明拒绝这个效应项的效应为0的原假设,也即这个效应项是很可能对总变异有实质影响的。
2.方差分析的试验设计
为了确定方差分析表中各个有关效应项,需要在试验设计阶段就作出安排,再根据设计要求进行试验,得出原始观察值,按原来设计方案算出方差分析表中的各项。
在试验设计阶段常需要作四个主要方面的考虑:
(1)研究的主要变量
方差分析的主要变量,也称响应变量或因变量(dependentvariable),它是我们试验所要观察的主要指标。
一次试验时可以有多个观察指标,方差分析时也可以同时对多个因变量进行分析。
(2)因素和水平
试验的因素(factor)可以是品种、人员、方法、时间、地区等等,因素所处的状态叫水平(lever)。
在每一个因素下面可以分成若干水平。
例如,某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品质量是否一致呢?
所要比较的地区就是因素,四个地区便是地区这一因素的四个水平。
当某个主要因素的各个水平间的主要因变量的均值呈现统计显著性时,必要时可作两两水平间的比较,称为均值间的两两比较。
(3)因素间的交互影响
多因素的试验设计,有时需要分析因素间的交互影响(interaction),2个因素间的交互影响称为一级交互影响,例如,因素A与因素B的一级交互影响可记为A×
B,3个因素间的交互影响称为二级交互影响,例如,因素A与因素B与因素C的二级交互影响可记为A×
B×
C。
当交互影响项呈现统计不显著时,表明各个因素独立,当呈现统计显著时,就需要列出这个交互影响项的效应,以助于作出正确的统计推断。
2、单因素方差分析
单因素方差分析(onefactorANOVA或one-wayANOVA)或称为完全随机设计的方差分析(completelyrandomdesignANOVA)。
试验设计时按受试对象的抽取或分组的随机程度不同可细分为以下两类:
完全随机设计——从符合条件的总体中完全随机地抽取所需数目的受试对象,再将全部受试对象完全随机地分配到k组中去。
此时,受试对象与试验因素间无直接联系。
组内完全随机设计——按试验因素的k个水平将全部受试对象划分成k个子总体,再分别从k个子总体中完全随机地抽取所需数目的受试对象。
此时,试验因素的各水平决定了受试对象各自应该归属的组别。
设因素有k个水平,在每一个水平下考察的指标可以看成一个总体,现有k个水平,故有k个总体,并假定:
1每一总体均服从正态分布;
2每一总体的方差相同;
3从每一总体中抽取的样本相互独立。
我们要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第i个总体的均值为,那么就是要检验如下原假设:
其备选假设为:
不全相同
设从第i个总体获得容量为的样本观察值为,,各样本间还是相互独立的。
样本观察值可看成是来自均值为的总体,这样就是其均值与随机误差迭加而产生的。
上面我们已经假定在水平下的服从分布,则有。
因此,我们有单因素方差分析的统计模型:
(25.1)
为了能更仔细地描述数据,常在方差分析模型中引入一般平均与效应的概念。
称各个的加权平均:
(25.2)
为总平均,其中。
称:
(25.3)
为因素在第i水平的主效应,也简称为的效应,同时也表明第i个总体的均值是一般平均与其效应的迭加。
容易看出效应间有如下关系式:
(25.4)
此时,单因素方差分析的统计模型可改写成包含效应的形式:
(25.5)
所要检验的原假设也可改写成:
现在,我们知道造成各间差异的原因可能有两个:
一个可能是假设不真,即各水平下总体均值(或水平效应)不同,因此从各总体中获得的样本观察值也就有差异了;
另一可能是为真,差异是由于随机误差引起的。
为了进一步定量分析这些差异,我们需要把这些差异表达出来。
由式(25.1)可推导出:
(25.6)
其中,,。
即组内样本观察值的平均值等于组内总体均值加上组内随机误差的平均值。
还可由式(25.5)推导出:
(25.7)
即所有样本观察值的平均值等于总平均(各组均值的加权平均)加上所有随机误差的平均值。
这样,每一个观察值与总平均的偏差可以分解成两部分:
(25.8)
其中,称为组内偏差,由式(25.1)和式(25.6)代入得到:
(25.9)
说明组内偏差仅仅反映了随机误差。
而称为组间偏差,由(25.6)、(25.7)和(25.3)代入得到:
说明第i组间偏差除了反映随机误差外还反映了第i个水平的效应。
各间总的差异大小可用总偏差平方和表示:
(25.10)
由式(25.9)随机误差引起的数据间的差异可以用组内偏差平方和表示,也称误差偏差平方和:
(25.11)
由于组间偏差除了随机误差外,还反映了效应的差异,故由于效应不同引起的数据差异可以用组间偏差平方和表示,也称因素A的偏差平方和:
(25.12)
将表示总差异的平方和进行分解:
(25.13)
其中,。
证明了:
总的差异=组内差异+组间差异。
由于:
(25.14)
又由分布的可加性可知:
(25.15)
还可证明,在为真时,即各组效应都为0:
(25.16)
因此可采用统计量:
(25.17)
来假设检验。
3、多重比较
当k组均值比较时,如果经过检验拒绝原假设,表明因素是显著的,即k个水平对应的指标均值不全相等,但不一定两两之间都有差异。
在一些实际问题中,当方差分析的结论是因素显著时,还需要我们进一步去确认哪些水平间是确有差异的,哪些水平间无显著差异。
同时比较任意两个水平均值间有无显著性差异的问题称为多重比较,即要以显著性水平,同时检验以下个假设:
(25.18)
均值间的多重比较的方法从形式上可分为几类:
临界值相对固定的两两比较、临界值不固定的多级检验、全部处理组均值与一个对照组均值比较。
每一种类型中,根据所控制误差的类型和大小不同,又有许多不同的具体方法。
如T(成组比较t检验法)、Bon(Bonforronit检验法)、Dunnett(与对照组均数比较)、SNK(Student-Newman-Keuls或称q检验法)、Tukey(学生化极差HSD或称最大显著差)、Duncan(新多极差检验法)、LSD(最小显著差)、SIDAK(Sidak不等式进行校正t检验法)、SCHEFFE(Scheffe的多重对比检验)、Waller-Duncan(k比率t检验)、GT2或SMM(学生化最大模数和Sidak不等式进行校正t检验法)、REGWF(多重F检验)、REGWQ(多重极差检验)。
在多重比较时,选用什么样的检验方法,首先要注意每种方法适用的试验设计条件,其次要关心所要控制的误差类型和大小。
例如,某因素有10个水平,若采用通常的t检验进行多重比较,共需要比较的次数为次,即使每次比较时都把第一类错误控制在0.05水平上,但经过45次多重比较后,犯第一类错误的概率上升到:
。
从中我们可以看到选用t检验法进行多重比较,仅仅控制了每次比较的显著水平,但却大大增加了整体的显著水平。
下面是所要控制的几种误差类型和选用的检验方法:
第一类误差率——即犯第一类错误的概率。
比较误差率——即每一次单独比较时,所犯第一类错误的概率。
可使用T法、LSD法、DUNCAN法。
试验误差率——即完成全部比较后,整体所犯第一类错误的概率。
完全无效假设下的试验误差率——即在假设完全无效下的试验误差率。
可使用SNK法。
部分无效假设下的试验误差率——即在假设部分无效下的试验误差率。
最大试验误差率——即在假设完全或部分无效下,完成全部比较后所犯第一类错误的最大概率。
可使用BON法、SIDAK法、SCHEFFE法、TUKEY法、GT2/SMM法、GABRIEL法、REGWQ法、REGWF法、DUNNETT法。
(1)T检验和Bonforroni检验
当因素有k个水平时,对任意两个水平均值间的差异的显著性检验,可用t统计量:
(25.19)
两两比较的次数共有=,因此,共有个置信水平,每次比较的显著水平:
T检验的方法取。
完成所有比较后的整体显著水平等于:
(25.21)
比较次数越大,试验误差就越大。
而Bonforroni检验的方法取。
(25.22)
即最大试验误差率小于。
(2)LSD检验
LSD检验既可以通过两两比较的显著水平的特定限制来控制最终的试验误差率,也
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统 数据 分析 方差分析
![提示](https://static.bdocx.com/images/bang_tan.gif)