第5章方差分析.docx
- 文档编号:9708532
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:37
- 大小:312.98KB
第5章方差分析.docx
《第5章方差分析.docx》由会员分享,可在线阅读,更多相关《第5章方差分析.docx(37页珍藏版)》请在冰豆网上搜索。
第5章方差分析
第五章方差分析
毕业生的起薪是衡量大学生就业质量的重要指标之一。
假设为了比较四个专业的起薪,我们从某高校四个专业的毕业生中分别随机选择6人调查他们的起薪。
我们的任务是根据样本数据对不同专业毕业生的平均起薪进行比较,判断它们之间是否有显著差异。
用什么方法进行检验呢?
我们之前学过的两个独立样本的t检验可以检验两个总体的均值是否相等。
在上面的例子中对四个样本均值进行两两的比较(共需进行6次t检验),如果在所有的两两比较中平均起薪都没有明显差异,则说明专业对起薪没有显著影响;如果至少在一次t检验中均值的差异是显著的,就说明专业对起薪有显著影响。
采用t检验对多个总体进行分析的主要问题是犯第一类错误的概率显著增大了:
假设我们在每次t检验中犯第一类错误的概率都等于5%,那么在整体检验中不犯第一类错误就要求每次检验中都不犯第一类错误,这一概率等于(1-0.05)4=0.7351,从而在整体检验中犯第一类错误的概率为1-0.7351=0.2649。
在需要比较多个总体均值的情况下,方差分析(Analysisofvariance,ANOVA)是更适当的方法。
方差分析的优点是计算量较小,并且犯第一类错误的概率保持不变,比t检验更通用。
在上面的例子中,如果我们还需要同时考虑其他因素对起薪的影响(例如性别),t检验就无能为力了,而方差分析则能够轻易地处理这种情况。
第一节方差分析中的基本概念和假设
一、方差分析中的基本概念
方差分析一般用来对多个总体的均值进行推断,检验多个总体均值之间差异的显著性。
在只比较两个均值时这种方法与两个独立样本的t检验是等价的。
这一方法之所以被称为“方差”分析,是因为这种方法中对均值差异性的检验是通过对方差的分解进行的。
方差分析的思想在20世纪20年代由英国统计学家费希尔(R.A.Fisher)最早提出,开始应用于生物和农业田间试验,以后在许多学科领域得到了广泛应用。
方差分析一般用来分析一个定量变量与一个或多个定性变量的关系,例如大学生毕业生的起薪与学生的性别、专业、毕业院校之间的关系,企业销售额与广告媒体(报纸和电视)以及定价策略(低、中、高)的关系,某种疾病的治疗效果与治疗方案之间的关系,产品性能与生产工艺之间的关系等等。
在方差分析中,作为结果的变量称为因变量(dependentvariable),例如毕业生的起薪、企业的销售额等;作为原因的、把观测结果分成几个组以进行比较的变量称为自变量(independentvariable),例如所学专业、广告策略、生产工艺等。
我们前面已经指出,统计研究中的数据主要有两种来源:
观察和实验。
方差分析所针对的数据一般是经过专门设计而收集的实验数据,通过科学的设计可以保证数据符合方差分析的要求,并且提高数据的利用效率,根据较少的数据得出检验结论。
因此,方差分析与“实验设计”这一统计领域有着非常密切的联系。
当然,这并不是说方差分析不能用于观察数据,只要满足方差分析所需要的假设条件即可。
由于与实验研究有密切联系,方差分析中也使用了一些与实验有关的概念。
在方差分析中,自变量被称为因素(factor);因素的不同表现,也就是每个自变量的不同取值称为因素的水平(level)。
只有一个自变量的方差分析称为单因素方差分析(one-factorANOVA);如果要同时研究多个因素对因变量的影响,则称为多因素方差分析(multi-factorANOVA),其中最简单的情况是双因素方差分析(two-factorANOVA)。
方差分析模型可以分为固定效应模型与随机效应模型。
在固定效应模型中,因素的所有水平都是由实验者审慎安排而不是随机选择的,而在随机效应模型中因素的水平是从多个可能的水平中随机选择的。
例如为了研究所学专业对学生就业质量的影响,从所有专业中随机选择10个进行研究,如果重复进行一次实验被选中的专业很可能是不同的,在这种情况下“专业”这一因素的效应就是随机的。
相反,如果研究目的是比较10个特定专业就业质量之间的差异,则在每次实验中专业这一因素都只能有这10个固定的水平,这时专业这一因素的效应即为固定效应。
固定效应模型和随机效应模型的侧重点有所不同,本章介绍的都是固定效应模型。
二、方差分析中的基本假设与检验
1.方差分析中的基本假设
我们学习任何一种统计方法时都要注意这种方法的适用条件,注意检验这种方法是否适用于你的数据。
方差分析是对多个总体的比较,比较中需要以下三个假设条件:
(1)在各个总体中因变量都服从正态分布;
(2)在各个总体中因变量的方差都相等;
(3)各个观测值之间是相互独立的。
2.方差分析中假设条件的检验方法
(1)正态性检验
正态性假设可以通过观察各组数据的直方图、Q-Q图等来判断,也有一些统计检验方法,例如K-S检验等。
需要特别注意的是,正态性检验不是对数据整体分布的检验,而是对按因素水平分组后各组数据的检验。
此外,在很多实验中实际得到的数据数量非常少,例如每组中只有两三个数据,在这种情况下没有检验正态性的很好方法,这时这一假设是否成立需要根据所研究的现象本身的性质加以判断。
(2)方差齐性检验
对各总体方差是否相等的检验称为方差齐性检验。
检验各组之间的方差是否相等的一个经验方法是,计算各组数据的标准差,如果最大值与最小值的比例小于2:
1,则可以认为是数据同方差的。
如果用各组的方差进行比较,则要求最大值与最小值的比例小于4:
1。
Levene检验是一种更为正式的检验方法。
(3)关于基本假设的进一步说明
方差分析对前两个假设条件是稳健的。
一般来说,方差分析中可以允许数据的分布对正态分布一定程度的偏离。
如果样本容量很大,方差分析也可以应用于非正态的情况,因为这时中心极限定理可以保证样本均值的抽样分布为正态分布。
在各个组别中的样本量比较接近的情况下,也可以粗略的认为数据是等方差的。
独立性的假设条件一般可以通过对数据搜集过程的控制来保证,在方差分析中很少对这一假设进行直接的统计检验。
如果数据确实严重偏离了前两个假设条件,则使用方差分析时需要先对数据进行数学变换,例如取对数、开方等,也可以使用非参数的方法(例如Kruskal-Wallis检验)来比较各组的均值。
接下来我们将分别介绍单因素和双因素方差分析的基本原理和应用。
第二节单因素方差分析
一、单因素方差分析的数据结构和模型
单因素方差分析的所要分析的问题是:
根据分别来自r个等方差正态总体的数据检验这些总体的均值是否相等。
为了表述方便,我们假设在单因素方差分析中所研究的因素为因素A,共有r个水平,每个水平的样本容量为m,共有n=rm个观察值。
根据这些条件,单因素方差分析的数据结构见图5-1。
)…
…
…
总体1(水平A1)总体2(水平A2)…总体r(水平Ar)
图5-1单因素方差分析的数据结构
在单因素方差分析模型中,任何一个样本数据都包含了三部分因素的影响:
总体平均水平的影响;因素水平的影响;以及随机因素的影响。
单因素方差分析模型可以写成公式(5-1):
(5-1)
其中
i=1到r,代表因素的不同水平。
j=1到m,代表在同一因素水平下的不同观测值。
=根据所有数据计算的总均值。
=第i组的均值。
=第i组的均值与总均值的差。
=随机误差项,
。
二、方差分析的基本原理
为了说明方差分析的基本原理,我们先来看总离差平方和SST(Sumofsquaresfortotal)的分解问题。
SST也称为总变异(TotalVariation),用
表示所有数据的总均值,其计算公式是:
(5-2)
总离差平方和可以分解成两个组成部分。
组间离差平方和SSA(SumofsquaresforfactorA),也称为解释的变异,用
表示各组的组均值,计算公式为:
(5-3)
组内离差平方和SSE(Sumofsquaresforerror),是与自变量无关的由不可控因素(例如不可控制的个体差异,随机因素,测量误差等)引起的变异,计算公式为:
(5-4)
可以证明,SST、SSA和SSE之间有以下关系:
SST=SSA+SSE(5-5)
SST、SSA和SSE具有不同的自由度。
对于SST来说,因为它只有一个约束条件,即
,在n个xij中有n-1个可以自由取值,因此它的自由度为n-1;对于SSA来说,其约束条件为
,因而在
,
,…,
这r个变量中只有r-1个是可以自由取值的,SSA的自由度为r-1;对SSE来说,由于对每一个水平i都要求
,因此它共有r个约束条件,SSE的自由度为n-r。
SST、SSA、SSE的自由度有以下关系:
n-1=(r-1)+(n-r)。
SSA、SSE分别除以它们的自由度就可以得到组间和组内均方(MeanSquare),MSA和MSE。
(5-6)
(5-7)
可以证明,
,而
。
因此,当
都相等(原假设成立)时MSA与MSE都是对模型中随机误差项方差的无偏估计。
之间的差异越大,MSA的期望值MSE的期望值的比值就越大。
那么,MSA和MSE相差多大时可以认为这种差异是显著的呢?
理论分析表明,在零假设成立时MSA和MSE的比值服从自由度为r-1和n-r的F分布。
因此我们可以设定一个显著性水平α,通过对这个检验统计量的分析做出接受或拒绝原假设的决策。
上述计算过程一般用方差分析表来表示(表5-1)。
(5-8)
表5-1单因素方差分析表
变异来源
离差平方和
SS
自由度
df
均方
MS
F值
组间
SSA
r-1
MSA
MSA/MSE
组内
SSE
n-r
MSE
总变异
SST
n-1
三、方差分析的步骤
方差分析过程包括以下基本步骤:
(1)检验数据是否符合方差分析的假设条件。
(2)提出零假设和备择假设。
不管所研究问题的背景如何,单因素方差分析中的零假设总是相同的:
各总体的均值之间没有显著差异,即
;备择假设也相同:
至少有两个均值不相等,即H1:
μ1,μ2,…,μr不全相等。
(3)根据样本计算F统计量的值和p值。
(4)根据决策规则得出检验结论。
决策规则可以用两种方式来表述。
一是根据事先确定的显著性水平α和自由度计算F检验的临界值,当实际值大于临界值时拒绝零假设(图5-2)。
二是根据样本统计量计算p值,当α>p值时拒绝零假设。
临界值
拒绝域
0F
图5-2F检验的临界值和拒绝域
【例5.1】从某高校四个专业的毕业生中分别随机选择6人调查他们的起薪,数据见表5-1(数据文件起薪1.xls),表中用1,2,3,4表示四个专业。
试分析四个专业毕业生的起薪是否有显著差异。
我们使用SPSS的“单因素方差分析”模块做方差分析,输出各组的描述性统计指标(表5-3)、方差齐性检验的结果(表5-4)。
注意这里我们对软件输出结果的格式进行了修改,并删除了不需要的内容。
(1)关于方差分析基本假设的检验。
由于每一组中只有6个观察值,我们很难分析数据分布分布的正态性。
为了使用方差分析的方法,假设各组数据来自正态分布总体。
在表5-3中,标准差的最大值和最小值的比值为1.58,小于2,因此可以认为是等方差的;根据表5-4的Levene检验的结果,由于表中的p值等于0.7060,是个非常大的值,因此也不能拒绝等方差的原假设。
(2)方差分析的结果分析(表5-5)。
检验中的零假设和备择假设为:
H0:
μ1=μ2=μ3=μ4,H1:
μ1、μ2、μ3、μ4不全相等。
表5-5给出的p值等于0.002,小于我们通常要求的α值,因此我们应拒绝零假设,从而得出专业对起薪有显著影响的结论,也就是说不能认为四个专业的起薪都相等。
表5-2大学毕业生的专业和起薪
序号
专业
起薪(元)
序号
专业
起薪(元)
1
1
3000
13
3
2000
2
1
3100
14
3
2600
3
1
3300
15
3
2500
4
1
4000
16
3
3500
5
1
3700
17
3
3000
6
1
3500
18
3
2800
7
2
4000
19
4
2200
8
2
3000
20
4
2400
9
2
2500
21
4
2000
10
2
3500
22
4
3000
11
2
4000
23
4
2000
12
2
3700
24
4
2800
表5-3例5.1的描述统计指标
N
均值
标准差
1
6
3433
378
2
6
3450
596
3
6
2733
505
4
6
2400
420
表5-4例5.1的方差齐性检验
Levene统计量
df1
df2
显著性
0.4708
3
20
0.7060
表5-5例5.1的方差分析表
平方和
df
均方
F
p值
组间
4927916.667
3
1642638.889
7.078
0.002
组内
4641666.667
20
232083.333
总数
9569583.333
23
在前面的分析中为了表述方便我们一直假定各个水平下的样本容量都是相等的。
各水平下的样本容量不同时单因素方差分析的方法也完全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。
下面我们看一个样本容量不同的例子。
例【5.2】一份研究伐木业对热带雨林影响的统计研究报告中指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。
这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。
根据表5-6中的数据(数据文件林木采伐.xls),采伐对树木数量有显著影响吗?
表5-6不同地块的树木数量
采伐状况
树木数量
采伐状况
树木数量
1
27
2
18
1
22
2
17
1
29
2
14
1
21
2
14
1
19
2
2
1
33
2
17
1
16
2
19
1
20
3
18
1
24
3
4
1
27
3
22
1
28
3
15
1
19
3
18
2
12
3
19
2
12
3
22
2
15
3
12
2
9
3
12
2
20
采伐状况:
1表示从未采伐过;2表示1年前采伐过;3表示8年前采伐过。
在SPSS菜单中选择分析比较均值单因素方差分析,经过相应的设定后可以输出各组的描述性统计指标(表5-7)、方差齐性检验的结果和方差分析表(表5-8)。
(1)关于正态性的分析。
使用SPSS软件得出的分组的直方图如图5-3。
图5-3表明,在各个水平下林木数量都呈对称分布,没有极端值出现,因此可以认为不违背正态性假设。
(2)方差齐性检验。
表5-7表明,各组的标准差差异不大,最大值与最小值之比等于1.16,明显小于2,因此可以认为是等方差的;方差齐性检验中Levene统计量的值为0.259,对应的p值为0.774,也支持上述结论。
(3)综上所述,可以用方差分析对热带雨林采伐的影响进行比较。
检验的零假设是雨林采伐对林木数量没有显著影响;备择假设是有显著影响。
根据表5-8的方差分析表,p值保留三位小数时为0.000,远远小于0.05,因此检验的结论是采伐对林木数量有显著影响。
表5-7不同采伐状况地块林木数量的描述统计
N
均值
标准差
1
12
23.75
5.065
2
12
14.08
4.981
3
9
15.78
5.761
表5-8雨林采伐研究的方差分析表
平方和
df
均方
F
p值
组间
625.157
2
312.578
11.426
.000
组内
820.722
30
27.357
总数
1445.879
32
图5-3不同采伐状况的地块树木数量的直方图
四、方差分析中的多重比较
在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。
但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析,这在方差分析中称为事后检验(PostHoctest)。
当然,如果在F检验中不能拒绝原假设就不需要做事后检验了。
多重比较是对各个总体均值进行的两两比较,有很多种方法,如Fisher最小显著差异(LeastSignificantDifference,LSD)方法,Tukey的诚实显著差异(HonestlySignificantDifference,HSD)方法等,这里我们只介绍Fisher的最小显著差异方法。
LSD方法与我们前面学过的两个总体均值的t检验非常类似,其检验步骤如下:
(1)写出检验的零假设和备择假设检验:
,
。
(2)计算检验统计量
(5-9)
这个公式与两个总体均值t检验的公式非常类似,只是将原来的
(根据两个总体估计的总体方差)换成了MSE(根据多个总体估计的总体方差)。
(3)做出决策。
如果
或
则拒绝H0;也可以根据p值和显著性水平
的大小关系得出结论,p值<
时拒绝H0;还可以计算
的置信区间
,如果0包含在置信区间内则不能拒绝H0。
其中t检验的临界值
是根据自由度n-r和显著性水平
确定的。
n是全部样本单位数,r是因素A的水平数。
表5-9是SPSS对【例5.2】进行多重比较的输出结果。
结果表明,从未采伐过的地块与1年前采伐过的地块林木数量均值之差的置信区间为5.31~14.03,区间不包括0,因此差异是显著的。
而1年前采伐过的地块与8年前采伐过的均值之差的置信区间为-6.04~3.02,区间包括了0,因此二者的差异不显著。
表5-9雨林采伐研究中多重比较的SPSS输出结果
(I)采伐类型
(J)采伐类型
均值差(I-J)
标准误
p值
95%置信区间
下限
上限
从未采伐过
1年前采伐过
9.67
2.14
0.0001
5.31
14.03
8年前采伐过
5.97
2.31
0.0017
3.26
12.68
1年前采伐过
从未采伐过
-9.67
2.14
0.0001
-14.03
-5.31
8年前采伐过
-1.69
2.31
0.4682
-6.40
3.02
8年前采伐过
从未采伐过
-5.97
2.31
0.0017
-12.68
-3.26
1年前采伐过
1.69
2.31
0.4682
-3.02
6.40
第三节双因素方差分析
在实际工作中我们遇到的问题大部分都是复杂的,会涉及多个自变量。
通过一个变量就能够完全解释一种现象的情况并不多见。
例如在毕业生起薪的例子中,要分析专业对起薪的影响,我们还需要考虑到所有可能影响起薪的因素,如毕业生的性别、行业、毕业院校等等。
方差分析可以同时分析多个因素的影响。
与t检验相比方差分析的另一个优势是可以分析因素之间的交互作用(interactioneffect)。
当一个因素对因变量的影响程度受另一个因素的影响时,我们就说两个因素之间存在交互作用。
下面我们通过一个例子来说明。
假设我们需要向大学在校学生和企业在职员工讲授统计学知识,可以采用两种不同的教学方式:
一是传统的课堂讲授方法,二是一种新的交互式教学方法。
把两类学员随机分成两组,对两组学员分别采用两种不同的教学方法教学,假设最后各类学员的平均考试成绩如表5-10。
对表中的结果我们能认为课堂讲授比交互式教学效果好或者在校学生比在职学生成绩好吗?
都不能。
我们从表5-10能够得出的最恰当的结论是:
课堂讲授的方式更适合于在校学生,而交互式教学方式更适合于在职学生。
在这种情况下我们说模型中的两个因素(教学方式和学生类型)之间存在着交互作用。
表5-10平均考试成绩
课堂讲授
交互式教学
在校学生
90
75
在职员工
75
90
多因素方差分析的比较复杂,这里我们只分析两因素的情况。
双因素方差分析有两种类型:
一种是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在交互关系;另一种在存在交互作用的方差分析,我们可以分析两个因素之间的交互作用是否显著。
一、无交互作用的双因素方差分析模型
设双因素方差分析中要分析的两个因素为A、B,A因素有r个不同水平A1,A2,…,Ar;B因素有s个不同水平B1,B2,…,Bs,并假设每组试验条件的试验重复了m次,总数据量n=rsm,数据结构见表5-11。
A因素的r个水平和B因素的s个水平的组合可以形成r×s个总体。
在双因素方差分析中的基本假设是,这r×s个总体中的都服从正态分布,有相同的方差,并且各个观测值之间相互独立。
表5-11双因素方差分析的数据结构
因素B
B1
B2
…
Bs
因
素
A
A1
X111,…,X11m
X121,…,X12m
…
X1s1,…,X1sm
A2
X211,…,X21m
X221,…,X22m
…
X2s1,…,X2sm
…
…
…
…
…
Ar
Xr11,…,Xr1m
Xr21,…,Xr2m
…
Xrs1,…,Xrsm
在无交互作用的双因素方差分析模型中,因变量的取值受四个因素的影响:
总体的平均值;因素A导致的差异;因素B导致的差异;以及误差项。
写成模型的形式就是:
(5-10)
其中
i=1到r,代表因素A的不同水平。
j=1到s,代表因素B的不同水平。
k=1到m,代表在同一实验条件下的不同观测值。
=根据所有数据计算的总均值。
=因素A的第i个水平对因变量的效应。
=因素B的第j个水平对因变量的效应。
=随机误差项,
。
相应的,总变异(离差平方和)可以分解为3个来源:
因素A、因素B和误差因素导致的变异。
根据表5-11的数据结构,定义
(5-11)
(i=1,2,…r,j=1,2,…s)(5-12)
,(i=1,2,…,r)(5-13)
,(j=1,2,…,s)(5-14)
则离差平方和可以进行如下分解:
(5-15)
其中SSA、SSB分别表示因素A和因素B不同水平间的离差平方和,SSE表示由随机因素导致的离差平方和。
注意以上分解中允许m=1。
SSA、SSB、SSE的自由度分别为:
r-1、s-1、n-r-s+1,三者之和等于SST的自由度n-1。
相应的离差平方和除以其自由度就可以得到均方MSA、MSB和MSE,从而可以进一步利用F分布进行假设检验了。
以上计算过程可用方差分析表来表示(表5-12)。
表5-12无交互作用双因素方差分析表
变异来源
离差平方和
SS
自由度
df
均方
MS
F值
A因素
SSA
r-1
MSA=SSA/(r-1)
FA=MSA/MSE
B因素
SSB
s-1
MSB=SSB/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 方差分析