方差分析与正交设计C6.docx
- 文档编号:10297886
- 上传时间:2023-02-09
- 格式:DOCX
- 页数:132
- 大小:100.90KB
方差分析与正交设计C6.docx
《方差分析与正交设计C6.docx》由会员分享,可在线阅读,更多相关《方差分析与正交设计C6.docx(132页珍藏版)》请在冰豆网上搜索。
方差分析与正交设计C6
第五章方差分析与正交设计§1.单因素方差分析
在实际问题中,人们常常需要在不同的条件或不同的状态下,对所研究的对象进行对比试验,
从而得到若干组数据(样本)。
方差分析就是一种分析、处理多组试验数据均值间差异显著性的统计分析方法。
其主要任务是通过对数据的分析处理,搞清各试验条件以及它们所处的
状态对试验结果(又称试验指标)的影响,以便有效地指导实践,提高经济效益或科研水平。
1.1基本概念
例1某灯泡厂用四种不同材料的灯丝生产了四批灯泡,除灯丝材料不同外,其他生产条件
完全相同。
今由每批灯泡中随机地抽取若干个灯泡,测得使用寿命(单位:
h)数据如表
(1)
所示,现在要求推断出灯泡使用寿命是否因灯丝材料不同而有显著差异。
表
(1)
灯泡寿命灯丝
1
2
3
4
5
6
7
8
A1
1600
1610
1650
1680
1700
1700
1780
A2
1500
1640
1400
1700
1750
A3
1640
1550
1600
1620
1640
1600
1740
1800
A4
1510
1520
1530
1570
1640
1680
如果在一项试验中,只有一个因素变化,其他因素保持不变,我们称这种试验为单因素试验。
因素所处的状态称为水平。
本例考虑的是一个因素即灯丝,这个因素具有四个水平,即四个不同材料的灯丝,A1,A2,A3,
A4。
从表中的数据看到,即使对于同一种材料的灯丝,虽然生产条件都一样,但灯泡的使用寿命
还是可以不相等的,这说明灯泡的使用寿命是一随机变量。
现在用1,2,3,4表示四种材
料的灯丝所生产的灯泡的使用寿命,这样就有四个总体。
若从这四个总体中分别随机地抽取
容量为ni的样本i1,i2,…,ini,i1,2,3,4,我们应用这四个样本来推断四个总体之间有无显著差异。
要判断不同灯丝材料的灯泡对使用寿命的影响问题,就是要辨别使用寿命之间
的差异是主要由抽样误差造成的还是由灯丝材料不同造成的。
这一问题可以归结为判断四个
总体是否具有相同的分布。
另外,在方差分析中,总是假定各总体相互独立,且都服从正态
分布。
由于除因素外,试验的其他条件都认为相同,这样就可以假设每个总体的方差相同。
因此推断四个总体是否具有相同分布的问题,就归结为检验四个具有相同方差的正态总体,其均值是否相等的问题。
实际上,方差分析就是检验若干个具有相同方差相互独立的正态总体,它们的均值是否相等的一种统计分析方法。
前几章中我们曾介绍了检验两个正态总体均值间差异显著性的t检验法。
现在对多个正态总
体,我们能否仍用t检验法两两进行检验呢?
结论是否定的。
设想有十组数据,客观上它们来自同一正态总体,因而有相同的均值。
在这种情况下,任取两组数据采用t检验法检验其
均值是否相等。
设=0.05,则接受假设认为两组均值相等的概率为1—=0.95。
但从十组
数据中任取两组,共有C:
o=45种不同的取法,所以接受Ho的概率为(0.95)45-0.099。
客观上十组数据均值相等,而采用t检验法两两检验时,犯第一类错误(认为至少有两组均
值不等)的概率为0.901。
由此可见,当组数增多时,采用t检验法两两检验时,犯第一类
错误的概率将大大增加,使我们判断的结果很不可靠。
波兰数学家R.A.Fisher(1923)提出的方差分析法,可同时判断多组数据均值间差异的显著性。
下面给出单因数方差分析的一般概念。
设有p个相互独立的正态总体i,i1,2,…,p.
i~N(i,2)。
设i1,i2,…,in是从第i个总体i中抽取的容量为山的简单随机样本。
i
由于ij~N(「2)(i1,2,…,p;j1,2,…,nJ,ij与i的差ij—i可以看成是
(1)
个随机误差。
因此耳满足
ij=i+ij,
2
而j~N(0,),且互相独立,其中i1,2,…,p;j1,2,…,ni。
要求检验假设
1.2统计分析
F面构造检验假设H0
p用的统计量。
记
ni
i1
n1
j1
ij。
(2)
这是第i个总体j的样本均值,也叫做组平均值。
称
(3)
ni1j1
ni
1
为总平均值。
n是从
p个总体抽得的样本的总容量。
由(
2),(3)两式可得
1pn1
1(“
ijni1j1
)=0。
由此得到
p%
ST=(
i1j1
■Y
ij
pm
=[(iji)(i)]2
i1j1
pm
=(ij
■)2
p__
2
ni(i)=Se+Sa。
(4)
p
ij
nii
1pn1
i1j1
i1
其中
pn1___
Se=(iji),SA=ni(i)。
i1j1i1
St是所有观察资料j与总平均值一的差的平方和,称为总偏差平方和。
它是描述所得全部数据离散程度的一个指标。
由上式知,总偏差平方和可以分解为Se、Sa两项之和。
我们再来看Se、
SA的意义。
记
1p
nii
ni1
(5)
是各均值的平均,
叫做均值的总平均。
1,2,…,p。
它是各总体的均值与理论总均值
的差异。
i称为因素的第
i个水平的效应。
易知p个效应满足关系式
p
nii=0。
i1
当假设H。
:
1=2=
P成立时,由(5)式可得1=
p=,从而
i=0
(i1,2,…,p)。
故假设h0也可写为
p=0。
式
(1)用水平的效应表示,可以写成
ij=i+ij=+i+ij(i1,2,…,p;j1,2,…,ni)
此时
-1n11n1
i=ij=(+i+ij)=+i+i。
nij1nij1
其中
_1n1
i=1ij是第i个总体样本误差的平均,又nij1
_1p一1p1p-
=nii=ni(+i+i)=+nii=+
ni1ni1ni1
pn1
其中
ni
表示所有样本误差的平均,从而有
P门1p门1p门1
2
Se=(ijij(+i+ij——i—i)2=(ij—i)2°
i1j1i1j1i1j1
P_
Sa=ni(i
i1
P
)2=ni(
i1
_P__
―)2=ni(i+i―)2°
i1
由这两式可以看出,Se仅依赖于随机误差ij,Sa除与随机误差有关外,还与各水平间的
效应i=i—有关。
这就是引起
ij波动的两个原因:
一个纯粹是由随机误差
ij引起的,
另一个在一定程度上是由各总体均值
i之间的差异引起的。
如何构造检验统计量呢?
这可以从
Se,SA的数学期望得到启发,因为
ij
"i)2~
所以
ESe=E
(ij
1
i)2
n1
(ij
1
i)2
n1
(m—
j1
2=(n
P)
ESa=E
)2
niE(
)2=(P
p
22
1)+nMi)。
i1
S2
Se
S;
SA
P1
则有
ES12
ES;
ni(i
)2。
由此可见,不论对
i的假设如何,
S12是
2的一个无偏估计,而S;仅当假设H0
P成立时,它才是
2的一个无偏估计,否则它的期望值要大于
2。
这说
明比值
2
S2(nP)SA
FS2(P1)Se'
在假设Ho不成立时,有偏大倾向。
F面讨论F的分布。
当Ho成立时,1=
p=,此时,
2
ij~N(,)。
于是由(4)式有
p叫
(ij
i1j1
)2=
n1
[(ij
1
)(—
)]2
n1
(
j1
ij
)2
n1
)]2+2
ij
)()
n1
(
j1
ij
)2
n(
)2
=Se+Sa+n(
)2。
ni
对于Se,它有P个线性关系
ij
i)0,
i1,2,…,P,所以它的秩为
P。
对
于Sa,它含有一个线性关系
ni(i
)=0,所以它的秩为p1。
对于n(
)2其
秩为1。
由于(n
P)+(P1)+1=n
S
故由Cochran定理知,当假设H0成立时,一|和
SA
~2
相互独
立,且
(n
P),
(P1),
由此知
FS
s2
(n
P)Sa~F(p1,nP)。
(P1)Se
给定显著性水平,由F分布的分位数知
P{FF1(p1,np)}=。
当F的观察值F(p1,np)时,拒绝假设H0,否则认为试验结果与假设H0无显
著差异。
为应用方便起见,将上面讨论中所需的结果列成方差分析表,如表
(2)。
例2检验例1的四种灯丝材料对灯泡使用寿命是否有显著影响(=0.05)。
解
4
n=口=7+5+8+6=26,
i1
计算得
SA=44360.7,Se=151350.8
丄竺6—4786.9,
p13
s2
旦=151^=6879.58,
np264
14786.9
〜2.15。
1879.58
把计算结果整理列成下面的方差分析表(表(
3))。
表
(2)
方差来源
平方和
自由度
均方和
F值
因素的影响
p__
Sa=n(i)2
i1
p1
sfSa
p1
s;
误差
pn1_
Se=(iji)
i1j1
np
s2Se
np
总和
pn1_
ST=(ij)2
i1j1
n1
s2-S^
n1
表(3)
方差来源
平方和
自由度
均方和
F值
因素的影响
Sa=44360.7
p1=3
2
S214786.9
2.15
误差
Se=151350.8
np=22
2
S16879.58
总和
ST=195711.5
n1=25
S7828.46
这里F的自由度为(3,22),若给定显著性水平=0.05,查得临界值F1(3,22)=3.05。
因为
F=2.15<3.05=F1(3,22),故应接受H。
,即认为四种灯丝生产的灯泡其平均使用寿命之间没有显著的差异。
§2•双因素方差分析
在实际问题中,影响试验结果(试验指标)的因素往往都不止一个,而是两个或更多。
此时,要分析因素的作用,就要用到多因素试验的方差分析。
这里只讨论两个因素的方差分析。
至于更多因素的问题,用正交试验法比较方便。
在两个因素的试验中,不但每一个因素单独对试验起作用,往往两个因素会联合起来起作用。
这种作用叫做这两个因素的交互作用。
例如,有些合金,当单独加入元素A或元素B时,
性能变化不大,但当两者同时加入时,合金性能的变化就特别显著。
交互作用在多因素的方差分析中把它当成一个新因素来处理。
2.1不考虑交互作用的方差分析
设因素A有p个不同的水平A,A2,…,Ap;因素B有q个不同水平B「B2,…,Bq。
对每种情况(Ai,Bj)进行一次独立试验,共得pq个试验结果j(i1,2,…,p;j1,2,…,
q),如表
(1)所示。
表
(1)
f因素B
因素
B1
B2
Bq
平均值—i
A
11
12
1q
1
A2
1
1
21
1
1
22
1
1
2q
1
1
2
1
1
Ap
p1
p2
pq
p
平均值一j
1
2
q
=
其中
i一
1q
ij,i1,2,…,p,
qj1
j=
1p.
ij,J1,2,…,q,
pi1
_1pq
=ij。
pqi1j1
设j是相互独立的服从正态分布N(j,2)的随机变量,即j是从服从正态分布
N(j,2)的总体中抽得的样本。
由于认为A,B两个因素间不存在交互作用,故假定其均
值j=+i+j,i1,2,…,p;j1,2,…,q,
其中
pqi1j1
ij
i为因素A的第i个水平的效应,它表示因素A的各个水平的影响的大小。
j为因素B的第j个水平的效应,它表示因素B的各个水平的影响的大小。
1q
qj1
ij,
p
1,2,…,P,
ij,
1,2,…,q,
i1,2,…,p,
j=j—
J1,2,…
q,
则显然有
p
q
=0
i
j=0,
i1
j1
这样,无交互作用的方差分析模型为
ij=+i+j+ij,i1,2,…,p;j1,2,…,q,
pq
i=0,j=0,
i1j1
2
ijiid,j~N(O,)。
符号“iid”表示独立同分布,因此要判断因素A的影响是否显著,
H01:
1=2=.・,=p=0。
要判断因素B的影响是否显著,就等价于要检验假设
H02:
1=2=.°°=q=0。
下面来寻找检验统计量。
和前面类似,将总偏差平方和St进行分解:
(1)
就等价于要检验假设
pq
St=(
i1j1
pq
)2=((
i1j1
))2
=q
p
)2+
i1
(ij
=SA+SB+Se。
其中
Sa=q(
i1
)2,
Se=(
i1j1
ij
)2
由式
(1)
ij=+i+
i+ij知
1q
ij=
q
ij)=
ij
=+i
+i,
i1,2,-
••,p。
1q
其中
i:
ij。
qj1
同理
j=
+
-j+
j,j
12…
,q,
1p
其中
j
ij。
Pi1
又
-
1
pq
1
p
——
=-
ij
(
+i+i)=+,
pq
i1j1
p
i1
1p
1
pq
其中
=
i一
ij为所有样本误差的平均。
pi1
pq
i1j1
j
1
qj1
qj1
将
(2),(3),(4),三式代入上面
(3)
(4)
SA,SB,Se的表示式中得
P_
Sa=q(i
i1
=q
q_
SB=P(j
j1
)2=P
Pq
Se=(
i1j1
pq___
)2=(ij—i—j+)2°
i1j1
由此可知,Se反映了误差引起的波动,Sa除与误差有关外,还反映了因素A各水平效应间
的差异,Sb除与误差有关外,还反映了因素B各水平效应间的差异。
还可以求得
E(Sa)
P
(P1)2+q
E(Sb)
(q1)2+P
ji
(P1)(q
1)
s2
Sa
p1
Sb
q1
Se
(P1)(q1)
E(S12)
2
E(S2)
2
E(S3)
与单因素方差分析类似,可采用下面统计量:
2
F=Sl(p1)(q1)Sa
FA=
S3p1Se
lS2(p1)(q1)Sb
Fb=
S|p1Se
Fb偏大,
当假设H°1不成立时,Fa偏大,故可用来检验假设H°1;当假设H°2不成立时,
故可用来检验假设H02°
再讨论统计量Fa,Fb的分布。
当假设H°1和H°2成立时,有j=,此时一切j~N(,2),于是
pqpq___
222
(ij)=[(j)()]=St+pq()
i1j1i1j1
—2
=Sa+Sb+S°+pq(),
其中Sa,Sb,Se,pq
(一)2都是非负二次型。
p__p__
SA=q(i)2,包含一个线性关系(i)=0,故Sa的秩为p1o
i1i1
SB=p
j
「j
1
2
),包含一个线性关系
(j)=0,故Sb的秩为q
p
Se=
i1
ij
)2,
包含
p
q个线性关系
i1
(ij
)=0,
=0,
pq
1,2,…,q和
ij
一)=0,i
1,2,…,p,由于
ij
j")
故上面pq个线性关系中,只有
(pq1)=(p1)(q1)。
又pq(
pq1个是独立的,
因而Se的秩为
2
)的秩是1。
而以上各项的秩相加得
(p
由Cochran定理知,当H01及H02同时成立时,
SASB
~2,~2,
S
e相互独立,且
2(q1),等2
((p
1)(q
1))。
1)+(q1)+(p1)(q1)+1=pq。
从而当Ho1,H°2为真时
s2
(p1)(q1)
t~F
((p
1),
(p
1)(q
1)),
Fb=S
(P1)(q1)
l~F
((q
1),
(p
1)(q
1))。
将上面的结果列成方差分析表(表(
2))
所示。
表
(2)
方差
来源
平方和
自由度
均方和
F值
A的
影响
p-—
SA=q(i)2
i1
p1
S2Sa
S1dp1
FSi
FA=S32
B的
影响
q
2
Sb=p(j)
j1
q1
o2Sb
S2
q1
F-笠
Fb=S32
误差
pq___
Se=(ijij)
i1j1
(p1)(q1)
c2Se
S3
(p1)(q1)
总和
pq
St=(ij")2
i1j1
pq1
例1为了研究蒸馏水的pH值和硫酸铜溶液浓度对化验血清中的白蛋白与球蛋白的影响,
对蒸馏水的pH值(A)取了四个不同水平,对硫酸的浓度(B)取了三个不同水平,在不
同水平组合(Ai,Bj)下,各测一次白蛋白与球蛋白之比,将其结果列成表(3)。
试在=0.05
下检验两个因素对化验结果有无显著差异。
表(3)
;、B、.
B1
B2
B3
i
A
3.5
2.3
2.0
7.8
A
2.6
2.0
1.9
6.5
A
2.0
1.5
1.2
4.7
A
1.4
0.8
0.3
2.5
j
9.5
6.6
5.4
解检验假设
Hoi
4=0。
H02:
4=0。
通过计算得方差分析表(表(
4))°
表(4)
方差来源
平方和
自由度
均方和
f值
A的影响
Sa=5.29
3
2
S11.76
Fa=40.9
B的影响
Sb=2.22
2
2
S21.11
Fb=25.8
误差
Se=0.26
6
S;0.043
总和
St=7.77
11
由于当H0i假设成立时,Fa~F(3,6),查F分布表得Fi(3,6)=4.8°因为
Fa=40.9>4.8=Fi(3,6),所以拒绝H,即因素A的不同水平对化验结果有显著影响。
又由于当H°?
假设成立时,Fb~F(2,6),查F分布表得Fi(2,6)=5.1。
因为
Fb=25.8>5.仁Fi(2,6),所以拒绝H°2,即因素B的不同水平对化验结果有显著影响。
2.2考虑交互作用的方差分析
在以上讨论中,由于只对A,B两个因素各水平的组合进行了一次观察,所以不能了解A,B
两因素之间是否存在交互作用的影响。
上面假设均值
j=+i+j,i1,2,…,p;j1,2,…,qo
而现在要考虑A,B各水平的交互作用,很自然耳工+i+j,我们称耳=耳一一i
—j为因素A的第i个水平与因素B的第j个水平的交互效应(即交互作用的影响)°
对两个因素A和B的各水平(A,Bj),i1,2,…,p;j1,2,…,q,重复进行r次观察,设其观察值为
ijk,i1,2,…,p;j1,2,…,q,k=1,2,…,r,
并假设
2
(1)ijk独立,ijk~N(ij,),i1,2,…,p;j1,2,…,q,k=1,2,…,r;
(2)ij=+i+j+ijo
于是
pqpq
i=0,j=0,ij=0,j1,2,…,q,ij=0,i1,2,…,p°
i1j1i1j1
这样就得到两个因素有交互作用的方差分析模型为
ijk=
ij=+i+j+
ij+ijk,
p
q
pq
i=0,j=0,
ij=0,
ij=0,
1
j1
i1j1
Ho3:
j=0,i1,2,…,p;j1,2,…,q。
为了检验上述假设,
类似地将总偏差平方和
St进行分解。
pq
r
ST=
(ijk
■)2
i1j1
k1
p
qr
=
[(i
)(j
)(iji
j)(ijk
j)]2
i1
j1k1
P
qr
p
qr
pqr
=
仁-
■)2+
(j)2+
(iji
"j")2+
i1
j1k1
i1
j1k1
i1j1k1
P
qr
(
ijk
)2
ij
i1j
1k
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方差分析 正交 设计 C6