第八章方差分析.docx
- 文档编号:6017478
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:13
- 大小:89.82KB
第八章方差分析.docx
《第八章方差分析.docx》由会员分享,可在线阅读,更多相关《第八章方差分析.docx(13页珍藏版)》请在冰豆网上搜索。
第八章方差分析
第八章方差分析
方差分析(analysisofvariance)是检验多个总体均值是否相等的统计方法。
目的:
通过检验多个总体的均值是否相等来判断定类变量对定距变量是否有显著影响。
第一节方差分析引述
一、方差分析的基本思想和原理
例1:
想了解四个行业的服务质量如何,得到以下数据:
消费者对四个行业的投诉次数
观测值
行业
零售业
旅游业
民航业
制造业
1
57
68
31
44
2
66
39
49
51
3
49
29
21
65
4
40
45
34
77
5
34
56
40
58
6
53
51
7
44
自变量行业是分类变量,因变量被投诉次数是定距变量。
想知道行业对被投诉次数的影响,就要分析不同行业的被投诉次数之间是否有显著差异,即检验四个行业被投诉次数的总体均值是否相等(注意不是样本均值)。
如果相等,行业对投诉次数无影响;如果均值不全相等,有影响。
为什么不用均值检验的方法?
均值检验一次只研究两个样本,要检验4个总体均值是否相等,需要6次检验(1-2,1-3,1-4,2-3,2-4,3-4)。
每次检验犯第一类错误的概率是α,作多次检验会增加犯错概率和降低置信水平。
而方差分析同时将所有样本信息结合在一起,增加了分析的可靠性,降低了犯错的概率,避免拒绝真实的原假设。
如何用样本均值检验总体均值即判断行业对投诉次数是否有影响?
各行业被投诉次数的样本均值不相等,是否可说明不同行业被投诉次数有明显差异?
不一定,也许各行业总体均值无差异,仅仅因为抽样的随机性造成了彼此之间的差异/随机误差。
(来自同一个总体的各个样本之间因为随机性而造成的均值差异和来自不同总体的样本之间的均值差异在散点图上是有差异的。
)
所以,方差分析就是对于差异来源进行分析(来源于随机误差还是不同总体间的真实差异),从而判断不同总体均值是否相等。
在例1中,在同一行业(同一总体)下,样本的各观测值不同,其差异可看作抽样的随机性造成的,称之为随机误差。
在不同行业(不同总体)下,各观测值也是不同的,这种差异可能是由于抽样的随机性造成的,也可能是由于行业本身的不同而造成的系统误差。
衡量同一行业下样本数据的误差,称为组内误差;衡量不同行业下样本之间的误差,称为组间误差。
组内误差只包括随机误差,组间误差既包括随机误差也包括系统误差。
如果行业对投诉次数没有影响,组间误差里就只包含随机误差而没有系统误差。
这时,组间误差与组内误差的比值应接近1;反之,如果行业对投诉次数有影响,组间误差中除随机误差外还有系统误差,组间误差与组内误差之比就应该大于1。
当这个比值达到某种程度时,就可以说不同行业的投诉次数之间有显著差异,即行业对投诉次数有显著影响。
二、方差分析的基本假定
1、自变量每一个取值对应的分布都应服从正态分布,以例1为例,每个行业的投诉次数都应服从正态分布。
2、自变量每一个取值对应的分布都应有相等的方差,即自变量的各组数据是从具有相同方差的正态总体中抽取的。
注意,仅要求总体方差相等,而非样本方差。
通常自变量各组数据的样本方差中最大值不超过最小值的二三倍,就可以视为等总体方差。
3、观测值是独立的。
每个被抽中企业被投诉次数与其它企业被投诉次数的次数是独立的。
三、问题的提法
设自变量共有m类,每类的总体均值分别用μm表示,要检验m类总体均值是否相等,需要提出以下假设:
H0:
μ1=μ2=….=μm,自变量对因变量没有显著影响
H1:
至少有一个以上的类别均值不等或μ1、μ2….μm不全相等。
第二节一元方差分析
分析一个分类型自变量对数值型因变量的影响时使用一元方差分析/单因素方差分析。
一、数据结构
设自变量A共分m类,A1,A2,..,Am。
现从A1类中随机抽取n1个,A2类中随机抽取n2个,……,从Am类中随机抽取nm个(n1,n2,…nm可以不等),根据各个观测值可得到如下统计表:
A1
A2
……
Am
y11
y21
.
ym1
y12
y22
.
ym2
…
…
.
…
.
.
二、分析步骤
1、提出假设
2、构造检验统计量
(1)计算各样本均值
(2)计算全部观测值的总均值
观测值
行业
零售业
旅游业
民航业
制造业
1
57
68
31
44
2
66
39
49
51
3
49
29
21
65
4
40
45
34
77
5
34
56
40
58
6
53
51
7
44
样本均值
=49
=48
=35
=59
样本容量
7
6
5
5
总均值
=
=
≈47.9
(3)计算误差平方和
总误差平方和TSS:
全部观测值与总均值的误差平方和,反映了全部观测量的离散状况,
TSS=
;
根据例1计算:
TSS=(57-47.9)2+…..+(58-47.9)2≈4164.6
组内误差平方和RSS
RSS=
根据例1:
零售业组内误差平方和=(57-47.9)2+(66-47.9)2+….+(44-49)2=700,同理,旅游业924,民航业434,制造业650,RSS=700+924+434+650=2708
组间误差平方和BSS
BSS=
=
(注意要乘以ni)
根据例1计算:
BSS=7(49-47.9)2+6(48-47.9)2+5(35-47.9)2+5(59-47.9)2=1456.6
三个误差平方和的关系:
TSS=RSS+BSS
总结:
BSS是对随机误差和系统误差大小的度量,可以反映自变量对因变量的影响;RSS是对随机误差大小的度量,反映了除自变量对因变量的影响外,其他因素对因变量的总影响,也称残差变量;TSS是对全部数据总误差程度的度量,反映了自变量和残差变量的共同影响。
如果原假设成立μ1=μ2=….=μm,则表明没有系统误差,BSS除以其自由度后的均方与RSS除以其自由度后的均方(即方差)就不会有太大差异(为何要除以自由度?
因为误差平方和大小与观测值多少有关);如果组间均方明显大于组内均方,说明自变量各水平之间的差异不仅有随机误差,还有系统误差。
所以,判断自变量对因变量的影响就是要比较组内均方与组间均方之间的差异大小。
(4)计算统计量
TSS的自由度为(n-1),n表示全部观测值数量
BSS的自由度为(m-1),m表示自变量的类别
RSS(n-m),(n-1)-(m-1)
BSS的均方
=BSS/(m-1);RSS的均方
=RSS/(n-m),
检验统计量F=
/
~F(m-1,n-m)(要比较的是组间均方和组内均方的差异)
当原假设为真时,二者比值服从第一自由度为m-1,第二自由度为n-m的F分布。
根据例1计算:
F=
=
≈3.407
3、统计决策
计算出F值后,将其与给定的显著性水平α的临界值相比较,从而做出对原假设的决策。
在对F值进行检验时的原假设是
/
=1,备选假设是
/
>1。
根据给定的显著性水平,在F分布表上查找与第一自由度m-1,第二自由度n-m相对应的临界值Fα(m-1,n-m)。
如果F>Fα,则拒绝原假设,表明自变量对因变量有显著影响;如果F<Fα,则不能拒绝原假设,没有数据表明自变量不同水平的总体均值有显著差异,所以不能认为自变量对因变量有显著影响。
根据例1计算出F=3.407,假定α=0.05,查F分布表得到F0.05(3,19)=3.13。
由于F=3.407>3.13,所以拒绝原假设,表明行业对被投诉次数有显著影响。
4、方差分析表
误差来源
平方和
自由度
均方
F值
临界值
组间
BSS
m-1
=BSS/(m-1)
F=
/
Fα
组内
RSS
n-m
=RSS/(n-m)
总和
TSS
n-1
三、关系强度的测量——相关比率
方差分析表明,组间平方和与残差平方和的比例反映了自变量行业与因变量被投诉次数的关系,当组间平方和比残差平方和大,且达到一定程度时,就意味着自变量和因变量的关系显著,大的越多,关系越强。
如何判断自变量与因变量的关系强度?
可用组间平方和(BSS)及残差平方和(RSS)占总平方和(TSS)的比例大小来反映。
其中,E2=BSS/TSS,算术平方根E可用来表示两个变量之间的关系强度。
可用消减误差比例原理PRE=(E1-E2)/E1来解释。
E1是不知道因变量与自变量有关时预测y所犯的错误,这时使用样本总平均值来预测y,错误大小为TSS=
。
E2为知道因变量与自变量有关后,预测y时犯的错误,这时使用自变量各组均值来预测的,错误大小为RSS=
。
E1-E2反映了知道自变量与y相关后减小的预测错误。
所以E2=(TSS-RSS)/TSS=BSS/TSS。
根据例1计算:
E2=BSS/TSS=1456.6/4164.6=0.351277=35.1277%;E=0.592686
解释:
行业可以解释被投诉次数差异的35.1277%,其他因素所解释的比例占64.8723%;行业与被投诉次数之间有较强相关关系。
第二节二元方差分析
一、二元方差分析的类型
分析两个定类自变量对定距变量的影响时,需要用二元方差分析。
例2:
有四个品牌的彩电在五个地区销售,为分析品牌和地区对销售量是否有影响,对每个品牌在各个地区的销售量取得以下数据,分析品牌和地区对销售量是否有显著影响?
(α=0.05)
地区因素
地区1
地区2
地区3
地区4
地区5
品牌因素
品牌1
365
350
343
340
323
品牌2
345
368
363
330
333
品牌3
358
323
353
343
308
品牌4
288
280
298
260
298
在二元方差分析中,如果两个因素对因变量的影响是独立的,称为无交互作用的二元方差分析;如果两个因素对因变量的影响除了各自的单独影响之外,两个因素相互之间的关系还会对因变量产生新的影响,就称为有交互作用的二元方差分析,或可重复的二元方差分析。
二、无交互作用的二元方差分析/无重复情况下的二元方差分析
1、数据结构
获取数据时,将一个因素安排在行,另一个因素安排在列。
设行因素有a个类别,列因素有b个类别,行因素和列因素的每一个类别都可搭配成一组,观测它们对因变量的影响,共抽取ab个观察数据,如下表:
列因素
行平均值
列1
列2
……
列b
行因素
行1
y11
y12
…
y1b
行2
y21
y22
…
y2b
……
…
…
…
…
…
行a
ya1
ya2
…
yab
列平均值
…
方差分析的基本假定:
每一个观测值都可看作由行因素的a个类别和列因素的b个类别所组合成的ab个总体中抽取的容量为1的独立随机样本。
这ab个总体中的每一个总体都服从正态分布,且有相同的方差。
是行因素的第i个类别下各观测值的平均值,
是列因素的第j个类别下个观测值的平均值;
是全部ab个样本数据的总平均值。
2、分析步骤
(1)提出假设
行因素的假设:
H0:
μ1=μ2=….=μa,行因素对因变量没有显著影响
H1:
μi(i=1,2,…,a)不全相等行因素对因变量有显著影响
列因素的假设:
H0:
μ1=μ2=….=μb,列因素对因变量没有显著影响
H1:
μj(j=1,2,…,b)不全相等列因素对因变量有显著影响
(2)构造检验统计量
分别确定检验行因素和列因素的统计量。
TSS=
=
+
+
分解后的第一项是行因素所产生的误差平方和,记为BSSA,反映了行变量对因变量的影响;第二项是列因素所产生的误差平方和,记为BSSB,反映了列变量对因变量的影响;第三项是除去行因素和列因素之外的剩余因素影响产生的误差平方和,即随机误差平方和,记作RSS,反映了随机因素对因变量的影响。
BSSA=
BSSB=
RSS=
TSS=BSSA+BSSB+RSS
在误差平方和基础上,计算各自均方。
与各误差平方和相对应的自由度:
TSS的自由度为ab-1;BSSA的自由度为a-1;BSSB的自由度为b-1;RSS的自由度为(a-1)(b-1)。
=BSSA/(a-1);
=BSSB/(b-1);
=RSS/(a-1)(b-1)
为检验行因素对因变量的影响是否显著,采用下面的检验统计量:
FA=
/
~F【(a-1),(a-1)(b-1)】
为检验行因素对因变量的影响是否显著,采用下面的检验统计量:
FB=
/
~F【(b-1),(a-1)(b-1)】
(3)统计决策
根据给定的显著性水平和两个自由度,查F分布表得到相应的临界值FAα、FBα,然后将FA和FB与FAα、FBα作比较。
若FA>FAα,则拒绝原假设H0:
μ1=μ2=….=μa,表明μi之间的差异显著,即有1-α的把握度认为所检验的行因素对因变量有显著影响。
若FB>FBα,则拒绝原假设H0:
μ1=μ2=….=μb,表明μj之间的差异显著,即有1-α的把握度认为所检验的列因素对因变量有显著影响。
方差分析表:
误差来源
变量A
变量B
随机误差
总和误差
平方和
BSSA
BSSB
RSS
TSS
自由度
a-1
b-1
(a-1)(b-1)
ab-1
均方
=BSSA/(a-1)
=BSSB/(b-1)
=RSS/(a-1)(b-1)
F值
FA=
/
FB=
/
临界值
FAα
FBα
根据例2中的数据,分析品牌和地区对销售量是否有显著影响?
(α=0.05)
解:
成立假设:
行因素:
H0:
μ1=μ2=μ3=μ4,品牌对因变量没有显著影响
H1:
μ1、μ2、μ3、μ4不全相等品牌对因变量有显著影响
列因素:
H0:
μ1=μ2=μ3=μ4=μ5,地区对因变量没有显著影响
H1:
μ1、μ2、μ3、μ4、μ5不全相等地区对因变量有显著影响
计算过程复杂,可利用SPSS或Excel软件计算结果。
由于FA=18.108>FAα=3.49,所以拒绝原假设,表明品牌对因变量有显著影响。
由于FB=2.1<FBα=3.259,所以不能拒绝原假设,不能认为地区对销售量有显著影响。
关于概值的概念:
SPSS对假设检验的输出结果当中的“Sig”,表明对原假设的拒绝把握,在方差分析中表明变量间相关关系的显著性水平,称为概值,用p表示。
p越小,越能够拒绝原假设,说明变量相关关系越显著,通常有*P<0.10,**P<0.05,***P<0.01,****P<0.001。
三、有交互作用的二元方差分析/重复情况下的二元方差分析
例3:
城市道路交通管理部门为了研究不同的路段和时段对行车时间的影响,让一名交警分别在两个路段和高峰期与非高峰期亲自驾车试验,共获得20个行程时间(分钟)数据,试分析路段、时段以及路段和时段的交互作用对行车时间的影响。
(α=0.05)
列变量A(路段)
路段1
路段2
行变量B(时段)
高峰期
26
19
24
20
27
23
25
22
25
21
非高峰期
20
18
17
17
22
13
21
16
17
12
设列变量A有a种分类,例3中为两种:
路段1和路段2。
行变量B有b种分类,例3中有两种:
高峰期和非高峰期。
对AB的每一种搭配各进行r次重复独立观测,例3中为观测5次。
观测数据总数n=abr。
(1)提出假设
对行变量、列变量和交互作用变量分别提出假设,与前面相似。
也可以设原假设为:
某变量的效果为零;备选假设为:
某变量的效果不为零。
(2)构造检验统计量
总平方和:
TSS=
=BSSA+BSSB+IA×B+RSS
行平方和:
BSSB=
列平方和:
BSSA=
交互作用平方和:
IA×B=
误差项平方和:
RSS=
(3)决策分析
误差来源
平方和
自由度
均方
F值
临界值
行因素
BSSB
b-1
BSSB/(b-1)
FB=
/
FBα
列因素
BSSA
a-1
BSSA/(a-1)
FA=
/
FAα
交互作用
IA×B
(a-1)(b-1)
IA×B/(a-1)(b-1)
FAB=
/
FABα
误差
RSS
ab(r-1)
RSS/ab(r-1)
总和
TSS
abr-1
根据例3的数据,由SPSS输出的结果:
误差来源
平方和
自由度
均方
F值
P值
临界值
行因素
174.05
1
174.05
44.063
0.0000
4.494
列因素
92.45
1
92.45
23.405
0.0002
4.494
交互作用
0.05
1
0.05
0.0127
0.9118
4.494
误差
63.2
16
3.95
总和
329.75
19
*P<0.10,**P<0.05,***P<0.01,****P<0.001
解释:
时段对开车时间有显著影响;路段对开车时间有显著影响;时段和路段的交互作用变量对开车时间没有显著影响。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八章 方差分析 第八