数学建模算法方差分析.docx
- 文档编号:822316
- 上传时间:2022-10-13
- 格式:DOCX
- 页数:21
- 大小:399.99KB
数学建模算法方差分析.docx
《数学建模算法方差分析.docx》由会员分享,可在线阅读,更多相关《数学建模算法方差分析.docx(21页珍藏版)》请在冰豆网上搜索。
数学建模算法方差分析
第十一章方差分析
我们已经作过两个总体均值的假设检验,如两台机床生产的零件尺寸是否相等,病人和正常人的某个生理指标是否一样。
如果把这类问题推广一下,要检验两个以上总体的均值彼此是否相等,仍然用以前介绍的方法是很难做到的。
而你在实际生产和生活中可以举出许多这样的问题:
从用几种不同工艺制成的灯泡中,各抽取了若干个测量其寿命,要推断这几种工艺制成的灯泡寿命是否有显著差异;用几种化肥和几个小麦品种在若干块试验田里种植小麦,要推断不同的化肥和品种对产量有无显著影响。
可以看到,为了使生产过程稳定,达到优质、高产,需要对影响产品质量的因素进行分析,找出有显著影响的那些因素,除了从机理方面进行研究外,常常要作许多试验,对结果作分析、比较,寻求规律。
用数理统计分析试验结果、鉴别各因素对结果影响程度的方法称为方差分析(AnalysisOfVariance),记作ANOVA。
人们关心的试验结果称为指标,试验中需要考察、可以控制的条件称为因素或因子,因素所处的状态称为水平。
上面提到的灯泡寿命问题是单因素试验,小麦产量问题是双因素试验。
处理这些试验结果的统计方法就称为单因素方差分析和双因素方差分析。
§1单因素方差分析
只考虑一个因素对所关心的指标的影响,取几个水平,在每个水平上作若干个试验,试验过程中除外其它影响指标的因素都保持不变(只有随机因素存在),我们的任务是从试验结果推断,因素对指标有无显著影响,即当取不同水平时指标有无显著差别。
取某个水平下的指标视为随机变量,判断取不同水平时指标有无显著差别,相当于检验若干总体的均值是否相等。
1.1数学模型
设取个水平,在水平下总体服从正态分布,,这里未知,可以互不相同,但假定有相同的方差。
又设在每个水平下都作了次独立试验,即从中抽取容量为的样本,记作,服从,且相互独立。
将这些数据列成下表(单因素试验数据表)的形式:
…
1…
2…
…
将第列称为第组数据。
判断的个水平对指标有无显著影响,相当于要作以下的假设检验
;不全相等
由于的取值既受不同水平的影响,又受固定下随机因素的影响,所以将它分解为
,,
(1)
其中,且相互独立。
记
,,
(2)
是总均值,是水平对指标的效应。
由
(1)、
(2)模型可表为
(3)
原假设为(以后略去备选假设)
(4)
1.2统计分析
记
,(5)
是第组数据的组平均值,是总平均值。
考察全体数据对的偏差平方和
(6)
经分解可得
记
(7)
(8)
则
(9)
是各组均值对总方差的偏差平方和,称为组间平方和;是各组内的数据对均值偏差平方和的总和。
反映不同水平间的差异,则表示在同一水平下随机误差的大小。
对和作进一步分析可得
(10)
(11)
当成立时
(12)
可知若成立,只反映随机波动,而若不成立,那它就还反映了的不同水平的效应。
单从数值上看,当成立时,由(10)、(12)对于一次试验应有
而当不成立时这个比值将远大于1。
当成立时,该比值服从自由度,的分布,即
(13)
为检验,给定显著性水平,记分布的分位数为,检验规则为
时接受,否则拒绝。
以上对的分析相当于对组间、组内等方差的分析,所以这种假设检验方法称方差分析。
1.3方差分析表
将试验数据按上述分析、计算的结果排成下表的形式,称为单因素方差分析表。
方差来源
平方和
自由度
平方均值
值
概率
因素
误差
总和
最后一列给出的概率相当于。
方差分析一般用的显著性水平是:
取,拒绝,称因素的影响(或各水平的差异)非常显著;取,不拒绝,但取,拒绝,称因素的影响显著;取,不拒绝,称因素无显著影响。
1.4Matlab实现
Matlab统计工具箱中单因素方差分析的命令是anoval,用法为:
p=anoval(x)
返回值p是一个概率,当p时接受,x为的数据矩阵(如上面的单因素试验数据表形式),x的每一列是一个水平的数据。
另外,还给出一个方差表和一个Box图。
例1为考察5名工人的劳动生产率是否相同,记录了每人4天的产量,并算出其平均值,如下表。
你能从这些数据推断出他们的生产率有无显著差别吗?
工人
天
1256254250248236
2242330277280252
3280290230305220
4298295302289252
平均产量269.00292.25264.75280.50240.00
解编写程序如下:
x=[256254250248236
242330277280252
280290230305220
298295302289252];
p=anova1(x)
求得,故接受,即5名工人的生产率没有显著差异。
方差表对应于上面的单因素方差分析表的列,是分布的分位数,可以验证
fcdf(2.262,4,15)=0.8891=1-p
Box图反映了各组数据的特征。
注:
接受,是将5名工人的生产率作为一个整体进行假设检验的结果,并不表明取其中2个工人的生产率作两总体的均值检验时,也一定接受均值相等的假设。
实际上,读者可以用ttest2对本题作的检验,看看会得到什么结果。
1.5非均衡数据的方差分析
上面所讨论的情况是个样本的容量即各组数据个数相等,称为均衡数据。
若各组数据个数不等,称非均衡数据。
非均衡数据的方差分析,其数学模型和统计分析的思路和方法与上面一样。
anova1也能处理非均衡数据,与处理均衡数据的区别仅在于数据输入的不同:
p=anova1(x,group)
x为数组,从第1组到第组数据依次排列;group为与x同长度的数组,标志x中数据的组别(在与x第组数据相对应的位置处输入整数)。
例2用4种工艺生产灯泡,从各种工艺制成的灯泡中各抽出了若干个测量其寿命,结果如下表,试推断这几种工艺制成的灯泡寿命是否有显著差异。
工艺
序号
11620158014601500
21670160015401550
31700164016201610
4175017201680
51800
解编写程序如下:
x=[1620158014601500
1670160015401550
1700164016201610
1750172016801800];
x=[x(1:
4),x(16),x(5:
8),x(9:
11),x(12:
15)];
g=[ones(1,5),2*ones(1,4),3*ones(1,3),4*ones(1,4)];
p=anova1(x,g)
求得0.01
1.6多重比较
在灯泡寿命问题中,为了确定哪几种工艺制成的灯泡寿命有显著差异,我们先算出各组数据的均值:
工艺
均值1708163515401585
虽然的均值最大,但要判断它与其它几种有显著差异,尚需作两总体均值的假设检验。
用ttest2检验的结果如下:
原假设
011
0.14590.02020.0408
即与有显著差异(,但与无显著差异,要想进一步比较优劣,应增加试验数据。
以上作的几个两总体均值的假设检验,是多重比较的一部分。
一般多重比较要对所有个总体作两两对比,分析相互间的差异。
根据问题的具体情况可以减少对比次数。
§2双因素方差分析
如果要考虑两个因素对指标的影响,各划分几个水平,对每一个水平组合作若干次试验,对所得数据进行方差分析,检验两因素是否分别对指标有显著影响,或者还要进一步检验两因素是否对指标有显著的交互影响。
2.1数学模型
设取个水平,取个水平,在水平组合下总体服从正态分布,,。
又设在水平组合下作了个试验,所得结果记作,服从,,,,且相互独立。
将这些数据列成下表的形式:
…
…
…
…
将分解为
,,,(14)
其中,且相互独立。
记
,,
,,(15)
是总均值,是水平对指标的效应,是水平对指标的效应,是水平与对指标的交互效应。
模型表为
(16)
原假设为
2.2无交互影响的双因素方差分析
如果根据经验或某种分析能够事先判定两因素之间没有交互影响,每组试验就不必重复,即可令,过程大为简化。
2.3Matlab实现
统计工具箱中用anova2作双因素方差分析。
命令为
p=anova2(x,reps)
其中x不同列的数据表示单一因素的变化情况,不同行中的数据表示另一因素的变化情况。
如果每种行—列对(“单元”)有不止一个的观测值,则用参数reps来表明每个“单元”多个观测值的不同标号,即reps给出重复试验的次数。
下面的矩阵中,列因素有3种水平,行因素有两种水平,但每组水平有两组样本,相应地用下标来标识:
例3一火箭使用了4种燃料,3种推进器作射程试验,每种燃料与每种推进器的组合各发射火箭2次,得到结果如下:
58.2,52.6
56.2,41.2
65.3,60.8
49.1,42.8
54.1,50.5
51.6,48.4
60.1,58.3
70.9,73.2
39.2,40.7
75.8,71.5
58.2,51.0
48.7,41.4
试在水平0.05下,检验不同燃料(因素)、不同推进器(因素)下的射程是否有显著差异?
交互作用是否显著?
解编写程序如下:
clc,clear
x0=[58.2,52.656.2,41.265.3,60.8
49.1,42.854.1,50.551.6,48.4
60.1,58.370.9,73.239.2,40.7
75.8,71.558.2,51.048.7,41.4];
x1=x0(:
1:
2:
5);x2=x0(:
2:
2:
6);
fori=1:
4
x(2*i-1,:
)=x1(i,:
);
x(2*i,:
)=x2(i,:
);
end
p=anova2(x,2)
求得p=0.00350.02600.001,表明各试验均值相等的概率都为小概率,故可拒绝均值相等假设。
即认为不同燃料(因素)、不同推进器(因素)下的射程有显著差异,交互作用也是显著的。
习题十一
1.将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象,以致减少了药效。
下表列出5种常用的抗生素注入到牛的体内时,抗生素与血浆蛋白质结合的百分比。
试在水平下检验这些百分比的均值有无显著的差异。
设各总体服从正态分布,且方差相同。
青霉素
四环素
链霉素
红霉素
氯霉素
29.6
24.3
28.5
32.0
27.3
32.6
30.8
34.8
5.8
6.2
11.0
8.3
21.6
17.4
18.3
19.0
29.2
32.8
25.0
24.2
2.为分析4种化肥和3个小麦品种对小麦产量的影响,把一块试验田等分成36小块,对种子和化肥的每一种组合种植3小块田,产量如下表所示(单位公斤),问品种、化肥及二者的交互作用对小麦产量有无显著影响。
化肥
品
种
173,172,173
174,176,178
177,179,176
172,173,174
175,173,176
178,177,179
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 算法 方差分析