书签分享收藏举报版权申诉 / 31

立即下载加入VIP,免费下载

当前位置：首页 > 教学研究 > 教学案例设计 > 数学.docx

数学.docx

文档编号：23279414
上传时间：2023-05-15
格式：DOCX
页数：31
大小：183.01KB

数学.docx

《数学.docx》由会员分享，可在线阅读，更多相关《数学.docx（31页珍藏版）》请在冰豆网上搜索。

数学.docx

数学

第四章MATLAB在概率论与数理统计问题求解中的应用

概率论与数理统计是实验科学中常见的数学分支，其问题的求解是很重要的，MATLAB提供了专用的统计学工具箱（StatsToolbox），其中包含了大量的函数，可以直接求解概率论与数理统计领域的问题。

本章主要介绍概率分布与概率问题的求解、假设检验、方差分析、回归分析、协方差分析等。

4.1.概率分布与概率问题的求解

常见的几种概率分布的命令字符见表4.1.1

表4.1.1几种概率分布的命令字符

命令字符

概率分布名

norm

正态分布

exp

指数分布

poiss

帕松分布

beta

β分布

weib

威布尔分布

chi2

χ2分布

t

t分布

F

F分布

Matlab工具箱对每一种分布都提供五类函数，其命令字符见表4.1.2

表4.1.2五类函数的命令字符

命令字符

MATLAB函数

pdf

概率密度

cdf

概率分布

inv

逆概率分布

stat

均值与方差

rnd

随机数生成

当需要一种分布的某一类函数时，将以上所列的分布命令字符与函数命令字符接起来，并输入自变量（可以是标量、数组或矩阵）和参数即可.

例1画出正态分布

和

的概率密度函数图形.

解：

clearall;

x=-6:

0.01:

6;

y=normpdf（x）;z=normpdf（x,0,2）;

plot（x,y,x,z）

图1正态分布

和

的概率密度函数图形

例2．计算标准正态分布的概率P{-1

解：

clearall;

p=normcdf

（1）-normcdf（-1）

p=

0.6827

例3取α=0.05，求

.

的含义是：

P{X<

}=

，X～N（0,1）

解：

α=0.05时，p=0.975,

norminv（0.975）=1.96

此题中norminv命令可用来求逆概率分布，调用格式为：

x=norminv（p,mu,sigma）.即求出x,使得P{X

例4求正态分布N（3,52）的均值与方差.

解：

clearall;

[m,v]=normstat（3,5）

m=3v=25

例5

>>M=normrnd（[123;456],0.1,2,3）

M=

0.95672.01252.8854

3.83345.02886.1191

此命令产生了2×3的正态分布随机数矩阵，各数分别服从N（1,0.1

）,N（2,0.1

）,N（3,0.1

）,N（4,0.1

）,N（5,0.1

）,N（6,0.1

）

4.2.几种假设检验

假设检验就是先对未知总体提出某种假设或推断，然后利用抽取的样本，通过一定的方法，检验这个假设是否合理，从而做出接受还是拒绝这个假设的结论。

主要的假设检验方式见表4.2.1所示。

表4.2.1常见假设检验的MATLAB命令

检验类型

调用格式

正态总体方差σ2已知，正态总体均值u的检验

[h,sig,ci]=ztest（x,m,sigma,alpha,tail）

正态总体方差σ2未知，正态总体均值u的检验

[h,sig,ci]=ttest（x,m,alpha,tail）

两正态总体均值的假设检验

[h,sig,ci]=ttest2（x,y,alpha,tail）

正态总体分布的检验

h=normplot（x）

Weibull总体分布的检验

h=weibplot（x）

例1Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格（price1,price2分别是一，二月份的油价，单位为美分），它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币（=4），试检验一月份油价的均值是否等于115.

解这是正态总体方差σ2已知，正态总体均值u的检验问题，作假设：

m=115.

clearall;

loadgas；

[h,sig,ci]=ztest（price1,115,4）

h=

0

sig=

0.8668

ci=

113.3970116.9030

此检验结果说明:

1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115是合理的.

2.sig-值为0.8668,远超过0.05,不能拒绝零假设

3.95%的置信区间为[113.4,116.9],它完全包括115,且置信度很高

例2试检验例1中二月份油价Price2的均值是否等于115.

解这是正态总体方差σ2未知，正态总体均值u的检验问题，作假设：

m=115，

clearall;

loadgas；

[h,sig,ci]=ttest（price2,115）

h=

1

sig=

4.9517e-004

ci=

116.7521120.2479

此检验结果说明:

1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的。

2.95%的置信区间为[116.8120.2],它不包括115,故不能接受假设。

3.sig-值为4.9517e-004,远小于0.05,不能接受零假设。

例3试检验例1中一月份油价Price1与二月份的油价Price2均值是否相同.

解这是两正态总体均值的假设检验问题

clearall;

loadgas；

[h,sig,ci]=ttest2（price1,price2）

h=

1

sig=

0.0083

ci=

-5.7845-0.9155

此检验结果说明:

1.布尔变量h=1,表示拒绝零假设.说明提出的假设“油价均值相同”是不合理的.

2.95%的置信区间为[-5.8,-0.9],说明一月份油价比二月份油价约低1至6分.

3.sig-值为0.0083,远小于0.05,不能接受“油价均相同”假设.

例4一道工序用自动化车床连续加工某种零件，由于刀具损坏等会出现故障.故障是完全随机的，并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录，故障出现时该刀具完成的零件数如下：

459362624542509584433748815505

612452434982640742565706593680

9266531644877346084281153593844

527552513781474388824538862659

77585975549697515628954771609

402960885610292837473677358638

699634555570844166061062484120

447654564339280246687539790581

621724531512577496468499544645

764558378765666763217715310851

试观察该刀具出现故障时完成的零件数属于哪种分布.

解

clearall;

x=[459362624542509584433748815505

612452434982640742565706593680

9266531644877346084281153593844

527552513781474388824538862659

77585975549697515628954771609

402960885610292837473677358638

699634555570844166061062484120

447654564339280246687539790581

621724531512577496468499544645

764558378765666763217715310851];

hist（x,10）;

normplot（x）;

[muhat,sigmahat,muci,sigmaci]=normfit（x）;

[h,sig,ci]=ttest（x,594）

muhat=

594

sigmahat=

204.1301

sigmaci=

179.2276237.1329

muci=

553.4962634.5038

h=

0

sig=

1

ci=

553.4962634.5038

图4.2.1正态检验图

此检验结果说明:

1.估计出该刀具的均值为594，方差204，均值的0.95置信区间为[553.4962，634.5038]，方差的0.95置信区间为[179.2276，237.1329].

2.从正态检验图上，可以看出数据大致集中在一条直线上，说明该刀具出现故障时完成的零件数符合正态分布.

3.布尔变量h=0,表示不拒绝零假设.说明提出的假设寿命均值594是合理的.

4.95%的置信区间为[553.5，634.5],它完全包括594,且置信度很高。

5.sig-值为1,远超过0.05,不能拒绝零假设.

4.3.方差分析

方差分析是英国统计学家兼遗传学家FisherRA提出的一种分析方法，在农业、科学试验和现代工业质量控制等众多领域有着广泛的应用。

在实际的生产和经营管理过程中，影响产量、产品质量、数量或销量的因素很多。

如何从众多的因素中，分清哪些主要，哪些次要？

这就是本节所要研究的内容。

一般我们称产量、产品的质量、数量或销量为试验指标，对试验指标起一定影响作用的称为因素或因子（factor）。

在众多因素中，有些因素可能对试验指标影响大，有些可能影响小，经常需要分析哪几种因素对生产质量（数量）或销量起决定性的作用，并需知道最优的生产（工艺或销售）条件是什么？

方差分析就是解决这些问题的一种有效方法。

1．单因素方差分析模型

若只考虑一个因素对试验指标的影响，这种分析问题的方法称为单因素方差分析（analysisofvariance），方差分析简称“ANOVA”。

该方法的主要目的是：

通过试验数据分析推断因素A对指标影响是否显著。

1）问题的一般提法

假定要检验的因子有m种水平，X1，X2，…，Xm是m个相互独立的正态总体，分别服从于N（μi，s2），i=1，2，…，m。

另外，xij（i=1，2，…，m；j=1，2，…，ni）是分别服从正态分布抽得的简单随机样本。

则单因素方差分析模型：

εij~N（0，s2），且各εij相互独立

2）显著性检验

对于上面所提出的多个正态总体均值是否相等的问题，也就是检验假设：

H0：

μ1=μ2=…=μm ；H1:

μi（i=1,2,…，m）不全相等

定义：

，

则有平方和分解公式：

其中，Q1被称为组内离差平方和（或误差平方和）。

它反映了数据xij在抽样过程中产生总的误差程度的一个评价指标。

Q2是各组平均值与总平均值的离差平方和，反映了各总体的样本平均值之间的差异程度，被称之为组间平方和。

通过Q2取值的大小可以反映原假设H0是否成立。

3）F-检验法

构造F-统计量：

给定显著性水平α，查表，当F>Fα（m-1,n-m）时，则拒绝H0。

4）方差分析表

表4.3.1

方差来源

平方和

自由度

方差

F-值

p值

因子A

误差E

总和

Q2

Q1

Q

m-1

n-m

n-1

MSA=Q2/m-1

MSE=Q1/n-m

FA=MSA/MSE

p

2．双因素方差分析

在许多实际问题中，对试验指标的影响不仅仅只有一个因素，可能需要同时考虑几个因素对试验指标的影响。

这种同时分析多个因素对试验指标的影响作用大小的方法，就是多因素的方差分析。

如果只考虑两个因素，称之为双因素方差分析。

1）数学模型

双因素方差分析数学模型：

其中：

xijk 服从N（μij，s2）分布，i=1,2,…,r,j=1,2,…s,k=1,2,…,n.且各xijk 相互独立；μ是总的平均值，αi是因子A的水平Ai的效应，βj为因子B的水平Bj的效应，γij是Ai、Bj的交互效应值，εijk服从N（0，s2）分布，且相互独立.

2）提出三个假设：

HA0：

α1=α2=…=αr=0；HA1：

至少有某个αi≠0

HB0：

β1=β2=…=βr=0；HA1：

至少有某个βj≠0

HAB0：

γij=0，i=1,2,…,r,j=1,2,…s,；HAB1：

至少有某个γij≠0

同样有平方和分解公式：

Q=Q1+Q2+Q3+Q4（具体公式及公式推导略）

3）方差分析表：

表4.3.2

方差来源

平方和

自由度

均方

F-值

p值

因子A

Q1

r-1

MSA=Q1/（r-1）

FA=MSA/MSE

pA

因子B

Q2

s-1

MSB=Q2/（s-1）

FB=MSB/MSE

pB

交互作用

Q3

（r-1）（s-1）

MSAB=Q3/（r-1）（s-1）

FAB=MSAB/MSE

pAB

误差

Q4

rs（n-1）

MSE=Q4/rs（n-1）

总和

Q

rsn-1

3．MATLAB实现

对于方差分析，MATLAB统计工具箱中提供了如下调用格式：

[p,tab,stats]=anova1（X）

[p,tab,stats]=anova2（X）

前一个命令是单因素方差分析，后一个命令是双因素方差分析。

更具体的功能可用help查询。

例1．某公司为了研究三种内容的广告宣传对某种汽车销售量的影响，进行了统计调查。

经广告广泛宣传后，按寄回的广告上的订购数计算，一年四个季度的销售量如下表所示：

表4.3.3

季度

广告类型

A1 A2 A3

一

二

三

四

163 184 206

176 198 191

170 179 218

185 190 224

表中A1：

强调运输方便性的广告；A2：

强调节省燃料的经济性的广告；A3：

强调噪音低的优良性的广告；试问哪一种类型的新闻广告促进汽车销量增加所起的宣传效果最佳？

解：

clearall;

x=[163184206;176198191;170179218;185190224];

[p,tab,stats]=anova1（x）

p=

0.0039

计算结果中p=0.0039＜α=0.05，表明拒绝H0。

得到两个图形界面：

图4.3.1 单因素方差分析表

图4.3.2 box图

Box图反映了各组数据的特征。

另一方面经查表得：

F0.05（2,9）=4.26。

由方差分析

表知F=10.93>F0.05（2,9）=4.26,所以拒绝H0，即认为不同类型的广告内容对汽车销售量有显著影响。

进一步问哪一种广告形式最佳？

因此需要计算各水平效应值：

计算结果表明，效应值α3最大。

这说明广告A3的汽车销售量最多，因此A3为最优水平。

为此，在今后的广告宣传中，应该注意多宣传噪音低的好处，同时也提出在汽车的生产中应注意改进工艺以降低噪音，从而促进汽车销量增加。

例2．为比较3种松树在4个不同地区的生长情况有无差别，在每个地区对每种松树随机的选择5株，测量它们的胸径，得出的数据在表4.3-4中给出,试对它们进行双因素方差分析。

表4.3.4松树数据

地区

松树种类

1

2

3

4

1

2315261321

2520211618

2117162427

1417192024

2

2822251926

3026262028

1924192529

1721182623

3

1810122213

1521221412

2325191322

1612232219

解:

clearall;

x=[2315261321252021161821171624271417192024;2822251926302626202819241925291721182623;1810122213152122141223251913221612232219];

anova2（x',5）;

输出方差分析表为：

图4.3.3 双因素方差分析表

从双因素方差分析表中可以看出，第一个因素松树种类对应的概率p=0.00029466值很小，所以应该拒绝原假设，从而认为树种对观测树的胸径有显著影响。

进一步计算树种在3个不同的水平下的均值分别为

y=[];

fori=1:

3

forj=1:

4

y（i,j）=mean（x（i,[1:

5]+（j-1）*5））;

end

end;

y=[y;mean（y）];

y=[ymean（y'）']

y=

19.600020.000021.000018.800019.8500

24.000026.000023.200021.000023.5500

15.000016.800020.400018.400017.6500

19.533320.933321.533319.400020.3500

由y的最后一列可以看出，树种2的树胸径最大，树种3的最小。

而方差分析表中的另外两个概率的值都很大，所以没有理由拒绝另外两个假设。

故得出结论：

地区对树的胸径无显著影响，不同区域对不同树种的胸径观测结果也无显著影响。

4.4.回归分析

许多实际问题往往需要对大量数据进行分析，尤为重要的是统计分析（statisticalanalysis）。

如统计预报中的预测、经验公式中的参数确定等等，常常用到各种统计方法。

回归分析（regressionanalysis）是研究各变量间相互关系的一种统计方法。

1．一元线性回归模型

我们称模型Y=a+bx+ε,ε～N（0,σ2）或Y～N（a+bx,σ2）为一元线性回归模型，称Y与x之间存在线性回归关系，其中参数a和b称为一元线性回归的回归系数。

1）回归系数a、b的最小二乘估计

已知观测值为（xi,yi）（i=1，2，…，n）。

将它代入回归模型中有如下关系：

yi=a+bxi+εi

其中i=1，2，…，n。

采用最小二乘法，求观测值与期望值的离差平方和最小。

求出的解记为

，

，回归方程为：

。

2）回归模型的统计检验

回归模型的假设（f（x）=a+bx）是否成立？

该问题可转化为对系数b提出假设，

H0:

b=0;H1:

b≠0,然后判断H0是否成立，这就是假设检验问题。

有两种检验方法：

（1）相关系数检验法

其中

，当

越接近于1时，说明X与Y的线性关系就越显著；当

越靠近零时，表明X与Y的线性关系越不明显，或者X与Y之间可能是非线性的关系，或者是两者根本不存在什么关系。

检验上述原假设H0:

b=0，其拒绝域为：

，α为检验水平。

（2）F检验法

平方和分解公式：

简记为：

Lyy=Q+U，其中Q被称为残差平方和（residualsumofsquares），U被称为回归平方和（regressivesumofsquares）。

考虑检验假设H0:

b=0;H1:

b≠0 ，在H0为真时，可证明：

其拒绝域为：

。

3）回归模型的应用

（1）预测

对于给定的控制量x=x0，可以给出E（y0）的点估计:

，以及y0的置信度为（1-a）%的预测区间为:

其中

，

。

（2）控制

观察值y在某个区间（y1,y2）取值时,应如何控制x的取值范围,使得相应的观察值落入指定区间（y1,y2）内的概率至少为1-a%.

解方程：

求解得的x1,x2,即x的控制区间的两个端点值.

2．多元线性回归模型

多元线性回归模型的形式及假设：

Y=β0+β1x1+…+βmxm+ε，ε～N（0,σ2）

1）回归系数β0，β1，…，βm的确定

根据观测值（xi1，xi2，…，xim，yi）（i=1,2,…,n），要确定回归系数β0，β1，…，βm，其方法仍然是最小二乘法。

建立优化目标函数：

2）回归模型的检验

问题可转化为：

H0：

β0=β1=…=βm=0；H1：

存在某个βi≠0

判断H0是否成立，可以用F检验法。

平方和分解公式：

简记为：

Lyy=Q+U，其中Q被称为剩余平方和，自由度为n-m-1；U被称为回归平方和，自由度为m；

则F检验统计量，在H0为真时，可证明：

其拒绝域为：

。

3）回归系数的检验

问题提出：

H0：

βi=0（i=1，…，m），H1：

βi≠0

可以证明：

（i=1，…，m）。

可用该结果求95%的置信区间和对上述假设进行检验。

若检验结果是接受H0，则说明自变量xi对因变量y的影响较小，可以将该变量从回归模型中剔除。

实际上，该检验结果成为剔除哪些自变量的一个重要依据。

4）预测

给定一组值（x10,x20,…,xm0），可以得到点估计值y0。

同理，也可以计算出它的预测区间。

3．MATLAB实现

MATLAB统计工具箱用命令regress实现多元线性回归，调用格式为：

b=regress（Y，X）或[b，bint，r，rint，stats]=regress（Y，X，alpha）

其中Y是因变量数据向量，X是自变量数据矩阵，其排列方式如下：

，

alpha为显著性水平（缺省时设定为0.05），输出向量b，bint为回归系数估计值β0，β1，…，βm和它们的置信区间，r,rint为残差（向量）及其置信区间，stats是用于检验回归模型的统计量，有三

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数学

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数学.docx
链接地址：https://www.bdocx.com/doc/23279414.html

数学.docx

热门标签