方差分析举例.docx
- 文档编号:10232564
- 上传时间:2023-02-09
- 格式:DOCX
- 页数:15
- 大小:76.06KB
方差分析举例.docx
《方差分析举例.docx》由会员分享,可在线阅读,更多相关《方差分析举例.docx(15页珍藏版)》请在冰豆网上搜索。
方差分析举例
方差分析举例
一、什么是方差分析
例1:
某饮料生产企业研制出一种新型饮料。
饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。
这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同,先从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况,见表10-1。
表10-1该饮料在五家超市的销售情况单位:
箱
超市
无色
粉色
橘黄色
绿色
1
2
3
4
5
26.5
28.7
25.1
29.1
27.2
31.2
28.3
30.8
27.9
29.6
27.9
25.1
28.5
24.2
26.5
30.8
29.6
32.4
31.7
32.8
合计
136.6
147.8
132.2
157.3
问饮料的颜色是否对销售量产生影响。
解:
从表10-1中看到,20个数据各不相同,其原因可能有两个方面:
一是销售地点不同的影响。
即使是相同颜色的饮料,在不同超市的销售量也是不同的。
但是,由于这五个超市地理位置相似、经营规模相仿,因此,可以把不同地点产品销售量的差异看成是随机因素的影响。
二是饮料颜色不同的影响。
即使在同一个超市里,不同颜色的饮料的销售量也是不同的。
哪怕它们的营养成分、味道、价格、包装等方面的因素都相同,但销售量也不相同。
这种不同,有可能是由于抽样的随机性造成的,也有可能是由于人们对不同颜色的偏爱造成的。
于是,上述问题就归结为检验饮料颜色对销售量是否有影响的问题。
我们可以令μ1、μ2、μ3、μ4分别为四种颜色饮料的平均销售量,检验它们是否相等。
如果检验结果显示μ1、μ2、μ3、μ4不相等,则意味着不同颜色的饮料来自于不同的总体,表明饮料颜色对销售量有影响;反之,如果检验结果显示μ1、μ2、μ3、μ4之间不存在显著性差异,则意味着不同颜色的饮料来自于相同的总体,可认为饮料颜色对销售量没有影响。
这就是一个方差分析问题。
在方差分析中常用到一些术语。
1.因素
因素是一个独立的变量,也就是方差分析研究的对象,也称为因子。
如:
例1中,我们要分析饮料的颜色对饮料的销售量是否有影响,在这里,“饮料的颜色”是所要检验的对象,它就是一个因素。
在有的书中把因素称为“因子”。
2.水平
因素中的内容称为水平,它是因素的具体表现。
如:
例1中“饮料的颜色”这一因素中的水平有四个,即饮料的四种不同颜色:
无色、粉色、桔黄色、绿色;它们是“饮料的颜色”这一因素的四种具体表现。
因素的每一个水平可以看作是一个总体,比如:
无色、粉色、桔黄色、绿色饮料可以看作是四个总体。
3.控制变量
在方差分析中,能够人为控制的影响因素称为控制因素,或控制变量;如:
例1中,“饮料的颜色”对于饮料的销售量而言,是能够人为控制的影响因素,称为控制变量。
4.随机变量
在方差分析中,人为很难控制的影响因素称为随机因素,或随机变量;如:
例1中,“人们对不同颜色的偏爱”对于饮料的销售量而言,是人为很难控制的影响因素,称为随机变量。
5.观察变量与观察值
在方差分析中,受控制因素和随机因素影响的事物,称为观察变量。
在每个水平下得到的样本数据称为观察值。
如:
例1中,销售量是观察变量,在每个饮料颜色下得到的样本数据(即表10-1中的数据)就是观察值。
二.方差分析的原理
从方差分析的目的来看,是要检验各个水平的均值μ1、μ2、…、μm是否相等(m为水平个数),而实现这个目的的手段是通过方差的比较(即考察各观察数据的差异)。
在变量的观察值之间存在着差异。
差异的产生来自于两个方面。
一个方面是由因素中的不同水平造成的,称之为系统性差异(或系统性误差)。
如:
饮料的不同颜色带来不同的销售量。
另一个方面是由于抽选样本的随机性而产生的差异,称之为随机性差异(或随机性误差)。
如:
相同颜色的饮料在不同的商场销售量也不同。
两个方面产生的差异可以用两个方差来计量。
一个叫组间方差,即水平之间的方差,是衡量不同总体下各样本之间差异的方差。
在组间方差里,既包括系统性误差,也包括随机性误差。
如:
在例1中,不同颜色的饮料在不同地点(超市)产品销售量之间的差异既有系统性误差(即由于人们对不同颜色的偏爱造成的差异),也有随机性误差(即由于抽样的随机性造成的差异)。
不同颜色的饮料在不同地点(超市)产品销售量之间的方差即为组间方差。
另一个叫组内方差,即水平内部的方差,是衡量同一个总体下样本数据的方差。
在组内方差里仅包括随机性差异。
如:
在例1中,可以把同一个颜色的饮料在不同地点(超市)产品销售量之间的差异看成是随机因素的影响,同一个颜色的饮料在不同地点(超市)产品销售量之间的方差即为组内方差。
如果不同的水平对结果没有影响,如:
饮料的不同颜色对销售量无影响,那么在水平之间的方差中,就仅仅有随机因素影响的差异,而没有系统性因素影响的差异。
这样一来,组间方差与组内方差就应该非常接近,两个方差的比值就会接近于1;反之,如果饮料的不同颜色对销售量有影响,在组间方差中就不仅包括了随机性误差,也包括了系统性误差,这时,组间方差就会大于组内方差,两个方差的比值就会大于1。
当这个比值大到某种程度时,我们就可以作出判断,说不同水平之间存在着显著性差异。
一次,方差分析就是通过不同方差的比较,作出接受原假设或拒绝原假设的判断。
如:
例1中,判断饮料的不同颜色对销售量是否有显著性影响的问题,实际上也就是检验销售量的差异主要是由于什么原因所引起的。
如果这种差异主要是系统性误差,我们就说饮料的不同颜色对销售量有显著性影响。
三、单因素方差分析
为说明问题方便,我们以例2为例,阐述单因素方差分析的基本步骤如下:
例2:
已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。
某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经经过检验表明不同饲料配方下的小鸡增重方差相等)。
为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。
所得到的增重数据如表10-2。
表10-2四种不同饲料配方下小鸡的增重情况
饲料配方i
小鸡序列j
38周后小鸡个体增重(克)
123456
行合计
配方1
配方2
配方3
配方4
370420450490
490380400390500410
330340400380470
410480400420380410
1730
2570
1920
2500
列合计
16001620165016801350820
8720
试分析四种饲料配方对小鸡增重的影响是否不相同。
解:
在这里,“饲料”是一个因素,因素中的水平有四个,即小鸡增重的四种饲料配方。
不同的饲料是小鸡饲养随机试验的不同条件,因此,四组不同的数据应分别看作四个不同总体即四个随机变量y1、y2、y3、y4各自的样本。
在水平(配方)1下有4个样本水平值,n1=4;在水平(配方)2下有6个样本水平值,n2=6;在水平(配方)3下有5个样本水平值,n3=5;在水平(配方)4下有6个样本水平值,n4=6;所以,我们现在的问题是要检验方差相等的四个正态随机变量y1、y2、y3、y4的均值(期望值)μ1、μ2、μ3、μ4是否相等。
有时,人们还会使用另外的提法:
增重与饲料配方是否有关。
其实,回答了均值是否相等的问题,自然也就回答了增重与饲料配方是否有关的问题。
因为如果试验条件的差别没有使均值产生差异,自然说明该试验条件不是变量的影响因素,即说明试验条件与变量相互独立。
对于类似本例的问题,一般地,把随机变量分组的数目记作m,本例m=4。
(一)建立假设
我们可建立下列假设。
原假设H0:
μ1=μ2=…=μm;备择假设H1:
μ1、μ2、…、μm不全相等。
式中,μi为第i个总体(水平)的均值。
可见,单因素方差分析的原假设
是假设在控制变量的不同水平下,各总体均值无显著差异。
即控制变量的不同水平对观察变量没有产生显著的影响。
而备择假设
是假设在控制变量的不同水平下,各总体均值有显著差异。
就例2来讲,提出的假设是:
原假设H0:
μ1=μ2=μ3=μ4;即假设四个配方的小鸡增重均值是相等的。
备择假设H1:
μ1、μ2、μ3、μ4不全相等;即假设四个配方对小鸡增重有显著影响。
怎样判断配方对小鸡增重是否有显著影响呢?
这就需要通过对数据误差来源的分析,判断各总体均值是否相等。
首先需要考察各观察数据的误差。
在同一种配方(同一个总体)下,小鸡增重是不同的。
因此,可以把不同小鸡增重的差异看出是随机因素的影响,即这种差异是由于抽样的随机性所造成的,称为随机误差。
在不同配方下(不同总体)下,小鸡增重也是不同的。
这种差异可能是由于抽样的随机性造成的,也可能是由于配方本身造成的。
由于配方本身所形成的误差是由系统性因素造成的,称为系统性误差。
衡量同一种配方下样本数据的方差,叫组内方差,显然组内方差只包含随机误差。
衡量不同种配方下各样本之间的方差,叫组间方差。
而组间方差既包括随机性误差,也包括系统性误差。
如果不同配方对小鸡增重没有影响,则组间方差中只包含随机性误差。
这时组间方差与组内方差的比值就会接近于1。
反之,如果不同配方对小鸡增重有影响,则组间方差中既有随机性误差,也有系统性误差,这时组间方差与组内方差的比值就会大于1。
当这个比值大到某个程度时,我们就可以说不同配方之间存在显著性差异,从而说明配方对小鸡增重有显著影响
(二)计算水平均值
假定从第i个总体中抽取一个容量为ni的简单随机样本,则有:
第i组样本平均数
=
(i=1、2、…、m)
式中,ni为第i个总体的样本观察值个数,
为第i个总体的第j个观察值。
就例2来讲,
配方1的小鸡增重均值
=(370+420+450+490)÷4=432.5克
配方2的小鸡增重均值
=(490+380+400+390+500+410)÷6=428.33克
配方3的小鸡增重均值
=(330+340+400+380+470)÷5=384克
配方4的小鸡增重均值
=(410+480+400+420+380+410)÷6=416.6克
(三)计算全部观察值的总均值
总的样本平均数
=
=
;
式中,ni为第i组的数据个数,n1+n2+…+nm=n。
就例2来讲,
全部小鸡平均增重
=8720÷21=415.24克
n=n1+n2+n3+n4=4+6+5+6=21
(四)计算离差平方和
方差分析采用的统计推断方法是计算F统计量,进行F检验。
因此,为了构造检验的统计量,需要计算三个离差平方和。
方差分析将观察变量总的离差平方和,记为SST,并将它分解成两个部分:
一部分是由控制变量引起的离差,记为SSR,即水平项离差平方和(也称为组间离差平方和BetweenGroups),;另一部分是由随机变量引起的离差,记为SSE,即误差项离差平方和(也称为组内离差平方和WithinGroups)。
于是有:
SST=SSR+SSE
式中:
总离差平方和
组间离差平方和
组内离差平方和
以上三式中的总样本平均数定义为:
各组样本平均数定义为:
ni是各组样本观测值的个数,n为所有样本观测值的个数,m是分组数目。
就例2来讲,(参见表10-2中数据)
总离差平方和SST=
=(370-415.24)2+(420-415.24)2+…+(380-415.24)2+(410-415.24)2=46923.809
组间离差平方和SSR=
=
=4×(432.5-415.24)2+6×(428.33-415.24)2
+5×(384-415.24)2+6×(416.5-415.24)2
=7112.142
{或采用SSR=
=[4×(432.5)2+6×(428.33)2+5×(384)2+6×(416.6)2]-[21×(415.24)2]
=7112.142}
组内离差平方和SSE=
=[(370-432.5)2+(420-432.5)2+(450-432.5)2+(490-432.5)2]
+[(490-428.33)2+(380-428.33)2+(400-428.33)2+(390-428.33)2
+(500-428.33)2+(410-428.33)2]
+[(330-384)2+(340-384)2+(400-384)2+(380-384)2+(470-384)2]
+[(410-416.6)2+(480-416.6)2+(400-416.6)2+(420-416.6)2
+(380-416.6)2+(410-416.6)2]
=39811.667
(或采用SSE=
=3667800-3627988.333=39811.677)
(五)构造统计量并计算检验统计量的样本值
F=
=
=
=
=
=1.01
(六)确定检验规则、列出方差分析表、做出统计决策
P-值规则:
根据算得的检验统计量的样本值(F值)算出P-值=0.411573(见表10-3)。
由于P-值=0.411573>显著水平标准
=0.05,所以不能拒绝H0,即没有得到足以表明四种配方的饲料下小鸡增重水平有差异的显著证据。
临界值规则:
根据给定的显著水平
=0.05,查表得临界值为
(3,17)=3.20。
因为F=1.01<3.20,检验统计量的样本值落入接受域,所以不能拒绝
即没有得到足以表明四种配方的饲料下小鸡增重水平有差异的显著证据。
表10-3方差分析表
变异来源
离差平方和
自由度
均方差
F值
P-值
临界值
组间
组内
7112.143
39811.67
3
17
2370.714
2341.863
1.01232
0.411573
3.196774
总计
46923.81
20
例3:
由前例1表10-1的“四种颜色饮料销售量在五家超市的销售情况”数据,对饮料的颜色是否对销售量产生影响做方差分析。
解:
第一步、建立假设
原假设H0:
μ1=μ2=μ3=μ4;即假设颜色对销售量没有影响。
备择假设H1:
μ1、μ2、μ3、μ4不全相等;即假设四个配方颜色对销售量有影响。
第二步、计算水平均值
无色饮料销售量均值
=136.6÷5=27.32箱
粉色饮料销售量均值
=147.8÷5=29.56箱
桔黄色饮料销售量均值
=132.2÷5=26.44箱
绿色饮料销售量均值
=157.3÷5=31.46箱
第三步、计算全部观察值的总均值
各种颜色饮料销售量总的样本平均数
=(136.6+147.8+132.2+157.3)÷20=28.695箱
第四步、计算离差平方和
总离差平方和SST=
=(26.5-28.695)2+(28.7-28.695)2+…+(32.8-28.695)2=115.9295
组间离差平方和SSR=
=
=5×(27.32-28.695)2+5×(29.56-28.695)2
+5×(26.44-28.695)2+5×(31.46-28.695)2
=76.8455
组内离差平方和SSE=
=10.688+8.572+13.1926+6.632=39.084
其中:
=(26.5-27.32)2+…+(27.2-27.32)2=10.688
=(31.2-29.56)2+…+(29.6-29.56)2=8.572
=(27.9-26.44)2+…+(26.5-26.44)2=13.192
=(30.8-31.46)2+…+(32.8-31.46)2=6.632
第五步、构造统计量并计算检验统计量的样本值
F=
=
=
=
=
=10.486
第六步、确定检验规则、列出方差分析表、做出统计决策
P-值规则:
根据算得的检验统计量的样本值(F值)算出P-值=0.000466(见表10-4)。
由于P-值=0.000466<显著水平标准
=0.05,所以拒绝H0,接受备择假设H1,即通过检验知,μj不全相等,说明饮料的颜色对销售量有显著影响。
临界值规则:
根据给定的显著水平
=0.05,查表得临界值为
(3,16)=3.24。
因为F=10.486>3.24,检验统计量的样本值落入拒绝域,所以拒绝
接受备择假设H1,即通过检验知,μj不全相等,说明饮料的颜色对销售量有显著影响。
表10-4方差分析表
变异来源
离差平方和
自由度
均方差
F值
P-值
临界值
组间
组内
76.8455
39.084
3
16
25.61517
2.44275
10.4862
0.000466
3.23887
总计
115.9295
19
—
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 方差分析 举例