概率论打印.docx
- 文档编号:28887091
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:9
- 大小:19.73KB
概率论打印.docx
《概率论打印.docx》由会员分享,可在线阅读,更多相关《概率论打印.docx(9页珍藏版)》请在冰豆网上搜索。
概率论打印
数学系10数本班温纯学号:
8.1方差分析
一、单因子方差分析
有时我们会遇到需要比较多个母体均值的问题,下面便是一个例子
例8.1为寻求适应本地区的高产油菜品种,今选了5个不同品种,每一品种在4块试验田上试钟,得到在每一块田上的亩产量如下表
我们要研究的问题是诸不同品种的平均亩产量是否有显著差异
在这个问题中,我们遇到需要比较5个母体均值的问题.如果每一个母体的分布都是正态分布,并且各个母体的方差相等,那么比较各个母体均值是否一致的问题可以用方差分析方法来解决.
为方便起见,我们常称在试验中变化的因素为因子,用表示,因子在试验中所取的不同状态称为水平,因子A的r个不同水平用表示.从本章起,我们将不再总是用希腊字母代表随机变量,用拉丁字母x,y,...代表随机变量所取的值.
在本例中只考虑品种这一因子(记为A)对亩产量的影响,5个不同品种就是该因子的5个不同水平(分别记为).由于同一品种在不同田块上的亩产量不同,我们可以认为一个品种的亩产量就是一个母体,在方差分析中总假定各母体独立地服从同方差的正态分布,即第i个品种的亩产量是一个随机变量,它服从分布,i=1,2,3,4,5.试验的目的就是要检验假设
是否成立.若拒绝,那么我们就认为这5个品种的平均亩产量之间有显著差异;反之,就认为各品种间产量的不同是由随机因素引起的.方差分析就是检验假设(8.1)的一种方法.
实际上,方差分析是检验同方差的若干正态母体均值是否相等的一种统计分析方法.
在实际问题中影响母体均值的因素可能不止一个.我们按试验中因子的个数,可以有单因子的个数,可以有单因子方差分析、二因子方差分析、多因子方差分析,然后再讨论单因子方差分析是类似的.例8.1是一个单因子方差分析问题.这里我们先讨论单因子方差分析,然后再讨论二因子方差分析问题.多因子方差分析与二因子方差分析是类似的,这里不再详述了.
设在某试验中,因子A有r个不同水平,在水平下的试验结果服从分布,且间相互独立.现在水平下做了t次试验,获得了t个实验结果,这可以看成是取自的一个容量为t的子样,i=1,2,...,r.由于,故与的方差可以看成一个随机误差.这样一来,可以假定具有下述数据结构式:
其中诸相互独立,均服从分布,要检验的假设是
为了今后方便起见,把参数的形式改变一下,并记
称为一般平均,为因子A的第i个水平的效应,容易看出,r个效应满足关系:
在这样的改变下,单因子方差分析的模型可以表示为:
所要检验的假设(8.3)可以写成:
为了导出检验假设(8.5)的统计量,我们首先分析一下什么是引起诸波动的原因.这里有两个原因,一个是假设(8.5)为真时,诸的波动纯粹是随机性引起的;另一个可能是假设(8.5)不真引起的.因而我们就想用一个量来刻画诸之间的波动,并把引起波动的上述两个原因用另外两个量表示出来,这就是方差分析中常用的平方和分解的方法.下面我们就从平方和分解入手来导出检验(8.5)的统计量.
通常我们可以用与样本总平均之间的偏差平方和来反映之间的波动.令
其中称为为总的偏差平方和.若令
则
其中交叉乘积项
若记
则
为一个平方和分解式.为了看清的意义,我们利用数据结构式(8.4):
其中的意义同,从而
反映了误差的波动,称它为误差的偏差平方和,而
在假设(8.5)为真时,它反映误差的波动;在假设(8.5)不真时,它就反映因子A的不同水平效应间的差异(当然也包含误差),称它为因子A的偏差平方和.
这样我们通过平方和分解式(8.9)把引起波动的两个原因在数量上刻画了出来.如何来构造检验的统计量?
这可以从和的数学期望得到启发.为此我们先求一下(8.7)和(8.8)的数学期望,利用(8.10),(8.11)有:
由(8.12)知,为的无偏估计,当假设(8.5)为真时,也是的无偏估计.故当假设(8.5)为真时,比值
不能太大,当F值过大时,可以认为假设(8.5)不真.以上仅是直观上的考虑,为了能使上述考虑可行,即用统计量(8.14)去检验假设(8.5),还必须知道在假设(8.5)为真时F的分布,这样才能得出检验的拒绝域.为了求出统计量F的分布,我们来研究平方和分解式(8.9)中的三个平方和,和的分布.
在假设(8.5)为真时,一切,相互独立,故
另外由(8.10)及对的假定,利用分布的可加性可知
假如我们能够证明在假设(8.5)为真时,且与独立,那么统计量.为了获得这一结果,我们先来证明更一般的定理.
定理8.1(柯赫伦定理)设为n个相互独立的N(0,1)变量,.其中为某些正态变量的平方和,这些正态变量分别是,的线性组合,其自由度为.则诸相互独立,且为变量的充要条件是
证必要性.若相互独立,且i=1,2,...,k,则由分布的可加性知
又,所以立即可知
充分性.设为正太变量,i=1,2,...,k,,且,由假定在中必可选出个,而其余的可由这个线性表示.不妨设可由线性表示,将这些关系式代入后即得为,...,的一个非负二次型的理论可知,将此二次型标准化后得
其中是的线性组合,又由于是的线性组合,故为独立正态变量的线性组合,所以它仍为正态变量;或.从而
由于Q是正定的,且,故共有n个,且一切全为+1.将重新编号,则
从而可知由到的线性变换是正太变换,仍是正态变量,且
这就说明也是相互独立的N(0,1)变量,故为相互独立的变量.定理证毕.
在我们研究的问题中,从(8.8)可以看出,是r个正太变量的平方和,由于它们之间有一个线性关系式
故的自由度为.由于
和
柯赫伦定理的条件全部满足,故有
且与独立.至此,用于检验假设(8.5)的统计量的分布完全确定.按照显著性假设检验程序,对给定的显著性水平,当时拒绝,并认为各水平的效应在显著性水平下有显著差异.
在具体计算时,的计算可简化如下:
并将上述计算结果列成一张方差分析表.
若在因子的每一水平所进行的试验次数不等,设在第i个水平下重复了次,i=1,2,...,r,那么重复上述推导,可以得到完全类似的结论.在具体计算时,公式(8.15)可修改为
其中,其余符号的意义同上,方差分析表中其余部分的计算均不变.
作为例子,下面我们对例8.1进行单因子方差分析.
为了列出方差分析表,首先将计算列表表格形式,然后按(8.15)计算,最后列出方差分析表.
由于4.31>3.06,所以在显著性水平上拒绝,即不同品种的亩产量在0.05水平上有显著差异.
最后顺便提一下,在计算中,有时通过下述线性性变换以简化数据来减少计算工作量:
其中a,b为常数,.可以验证,用去进行方差分析时所得的F比不变.
二,两因子方差分析
设在某实验中,有两个因子在变动.因子A取r个不同水平,因子B取s个不同水平,在水平组合下的实验结果独立地服从分布.
为了研究方便起见,如果因子方差分析中那些把参数改变一下,并令
称为一般平均,为因子A的第i个水平的效应,为因子B的第j个水平的效应,它们显然满足关系式:
下面我们分两种情况进行讨论.
1.若,我们称这种方差分析模型为无交互作用的方差分析模型.此时,我们只需对每个组合各做一次试验,记其结果为,则
这就是无交作用的方差分析模型.对这个模型所要检验的假设有两个:
若检验结果拒绝,则认为A(或B)的不同水平对结果无显著影响.
2.若,则我们称
为因子A的第i个水平与因子B的第j个水平的交互效应,它们满足关系式:
为了研究交互效应是否对结果有显著影响,在水平组合下至少要做次试验,记其结果为,则
这就是有交互作用的方差分析模型.对此模型,除了要检验(8.18)中两个假设外,还要检验假设
对交互效应我们给出一个直观的解释.交互作用是指两个或两个以上因子结合在一起时对指标产生的一种综合效应.此种效应不同于单个因子对指标所产生的效应,它有时能提高指标值,有时却会压低指标值.
譬如研究氮肥N和磷肥P对两种农作物单位面积产量的影响.现选定4块面积、土地情况类似的地,对如下N与P的各两个水平共4种组合分别进行试验:
从中可以看出:
只加10千克氮肥,平均每亩增加40千克,这就是因子N的效果;只加6千克磷肥平均每亩增加60千克,这就是因子P的效果;两种肥料都增加,平均每亩增加150千克,假如扣除N和P的单独效果,即:
这就是两个因子结合在一起所产生的结合效果,它有助于产量的提高,这种效果就是正向的交互作用.
从中可以看出:
只加10千克氮肥平均每亩增加40千克,这就是因子N的效果;只加6千克磷肥平均每亩增加60千克,这就是因子P的效果;两种肥料都加,平均每亩仅增加20千克,假如扣除N和P的效果;两种肥料都加,平均每亩仅增加20千克,假如扣除N和P的单独效果,即:
这也是两个因子结合在一起所产生的综合效果,它对产量起了抑制作用,这种效果就是反向的交互作用.
下面我们将分别给出检验模型(8.17),(8.19)中有关假设所需要的统计量.
1模型(8.17)的方差分析
我们用类似于单因子方差分析平方和分解的意思来给出检验用的统计量.为此先引进下列记号:
由(8.17)可知:
总的偏差平方和
其中分别由下述公式给出,并利用(8.17)和(8.21)可知:
故反映了误差的波动;除了反映误差波动外,分别反映了(8.18)中假设不真与假设不真所引起的波动,即分别反映了因子A的效应间的差异及因子B的偏差平方和、因子B的偏差平方和.
类似于单因子方差分析,我们可以用与的适当的比值去检验,用与的适当的比值去检验.为了给出统计量,我们先求一下各偏差平方和的分布.首先注意这些偏差平方和都是正态变量的平方和,此外,
在为真时,一切,且相互独立,故
而中有一个独立的线性关系式
所以它的自由度为.中有一个独立的线性关系式
但在这个中有个是独立的,故其自由度是
由定理8.1,
可知相互独立,在假设为真时,
利用有关性质可进一步证明:
在为真时,
在为真时,
这就是用来检验假设和的统计量,按照显著性假设检验程序,对给定的显著性水平,当时拒绝,当时拒绝.
具体计算时,也可将上述过程列成一张方差分析表,并将各偏差平方和的计算简化为方差分析表中的表达式,其中n=rs.
例8.2为了考察蒸馏水的pH和硫酸铜溶液浓度对化验血清白与球蛋白的影响,对蒸馏水的pH(A)取了4个不同水平组合下各测一次白蛋白之比,其结果列于下述计算表的左上角.当假定每一水平组合下的白蛋白与球蛋白之比服从同方差的正态分布时,检验两个因子对化验结果有无显著差异(取显著性水平).
解为了列出方差分析表,必须先计算之值,具体计算也常在下述表格中进行.
利用上述结果计算各偏差平方和,得:
由于,所以在显著性水平下,因子A的不同水平及因子B的不同水平都对化验结果有显著影响.为了获得正确的化验结果,两者均要严格控制.
2模型(8.19)的方差分析
仍然用平方和分解的思想来给出检验用的统计量,先引入下述记号:
其中n=st,
由(8.19)可知
总的偏差平方和可作如下分解:
其中各偏差平方和表达式如下,且由(8.19)可知:
从中可知,反映了误差的波动;除反映误差的波动外,还分别反映了因子A的效应的差异,因子B的效应的差异,交互效应的差异所引起的波动.我们分别称它们为误差的偏差平方和,因子A的偏差平方和,因子B的偏差平方和以及交互作用A*B的偏差平方和.
同理,可计算各偏差平方和的自由度,它们分别为rs(t-1),r-1,s-1,(r-1)(s-1).类似地可得:
在为真时,
在为真时,
在为真时
这就是用来检验假设的统计量.按照显著性假设检验程序,对给定的显著性水平,当时拒绝,当时拒绝,当时拒绝.具体计算过程也可以列成一张分析表,且各偏差平方和的计算也可简化成表中所列成的表达式.
例8.3在某化工生产中,为了提高收率,选了3种不同浓度,4种不同温度做试验.在同一浓度与温度组合下各做两次试验,其收率数据如下面计算表所列(数据均已减去75).假定每一水平组合下收率服从同方差的正态分布;试在显著性水平下检验不同浓度、不同温度以及它们间的交互作用对收率有无影响.
解为了列出方差分析表也得先计算各类和及有关的平方和,这一切都可在一张计算表上进行.然后利用这些数据计算各类偏差平方和,最后列出方差分析表.
方差分析结果表明,只有因子A是显著的(因为4.09>3.89),即浓度不同将对收率产生显著影响;而温度及交互作用的影响都不显著.这说明要提高收率必须把浓度控制好.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率论 打印