数学.docx
- 文档编号:23279414
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:31
- 大小:183.01KB
数学.docx
《数学.docx》由会员分享,可在线阅读,更多相关《数学.docx(31页珍藏版)》请在冰豆网上搜索。
数学
第四章MATLAB在概率论与数理统计问题求解中的应用
概率论与数理统计是实验科学中常见的数学分支,其问题的求解是很重要的,MATLAB提供了专用的统计学工具箱(StatsToolbox),其中包含了大量的函数,可以直接求解概率论与数理统计领域的问题。
本章主要介绍概率分布与概率问题的求解、假设检验、方差分析、回归分析、协方差分析等。
4.1.概率分布与概率问题的求解
常见的几种概率分布的命令字符见表4.1.1
表4.1.1几种概率分布的命令字符
命令字符
概率分布名
norm
正态分布
exp
指数分布
poiss
帕松分布
beta
β分布
weib
威布尔分布
chi2
χ2分布
t
t分布
F
F分布
Matlab工具箱对每一种分布都提供五类函数,其命令字符见表4.1.2
表4.1.2五类函数的命令字符
命令字符
MATLAB函数
概率密度
cdf
概率分布
inv
逆概率分布
stat
均值与方差
rnd
随机数生成
当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.
例1画出正态分布
和
的概率密度函数图形.
解:
clearall;
x=-6:
0.01:
6;
y=normpdf(x);z=normpdf(x,0,2);
plot(x,y,x,z)
图1正态分布
和
的概率密度函数图形
例2.计算标准正态分布的概率P{-1 解: clearall; p=normcdf (1)-normcdf(-1) p= 0.6827 例3取α=0.05,求 . 的含义是: P{X< }= ,X~N(0,1) 解: α=0.05时,p=0.975, norminv(0.975)=1.96 此题中norminv命令可用来求逆概率分布,调用格式为: x=norminv(p,mu,sigma).即求出x,使得P{X 例4求正态分布N(3,52)的均值与方差. 解: clearall; [m,v]=normstat(3,5) m=3v=25 例5 >>M=normrnd([123;456],0.1,2,3) M= 0.95672.01252.8854 3.83345.02886.1191 此命令产生了2×3的正态分布随机数矩阵,各数分别服从N(1,0.1 ),N(2,0.1 ),N(3,0.1 ),N(4,0.1 ),N(5,0.1 ),N(6,0.1 ) 4.2.几种假设检验 假设检验就是先对未知总体提出某种假设或推断,然后利用抽取的样本,通过一定的方法,检验这个假设是否合理,从而做出接受还是拒绝这个假设的结论。 主要的假设检验方式见表4.2.1所示。 表4.2.1常见假设检验的MATLAB命令 检验类型 调用格式 正态总体方差σ2已知,正态总体均值u的检验 [h,sig,ci]=ztest(x,m,sigma,alpha,tail) 正态总体方差σ2未知,正态总体均值u的检验 [h,sig,ci]=ttest(x,m,alpha,tail) 两正态总体均值的假设检验 [h,sig,ci]=ttest2(x,y,alpha,tail) 正态总体分布的检验 h=normplot(x) Weibull总体分布的检验 h=weibplot(x) 例1Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115. 解这是正态总体方差σ2已知,正态总体均值u的检验问题,作假设: m=115. clearall; loadgas; [h,sig,ci]=ztest(price1,115,4) h= 0 sig= 0.8668 ci= 113.3970116.9030 此检验结果说明: 1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115是合理的. 2.sig-值为0.8668,远超过0.05,不能拒绝零假设 3.95%的置信区间为[113.4,116.9],它完全包括115,且置信度很高 例2试检验例1中二月份油价Price2的均值是否等于115. 解这是正态总体方差σ2未知,正态总体均值u的检验问题,作假设: m=115, clearall; loadgas; [h,sig,ci]=ttest(price2,115) h= 1 sig= 4.9517e-004 ci= 116.7521120.2479 此检验结果说明: 1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的。 2.95%的置信区间为[116.8120.2],它不包括115,故不能接受假设。 3.sig-值为4.9517e-004,远小于0.05,不能接受零假设。 例3试检验例1中一月份油价Price1与二月份的油价Price2均值是否相同. 解这是两正态总体均值的假设检验问题 clearall; loadgas; [h,sig,ci]=ttest2(price1,price2) h= 1 sig= 0.0083 ci= -5.7845-0.9155 此检验结果说明: 1.布尔变量h=1,表示拒绝零假设.说明提出的假设“油价均值相同”是不合理的. 2.95%的置信区间为[-5.8,-0.9],说明一月份油价比二月份油价约低1至6分. 3.sig-值为0.0083,远小于0.05,不能接受“油价均相同”假设. 例4一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下: 459362624542509584433748815505 612452434982640742565706593680 9266531644877346084281153593844 527552513781474388824538862659 77585975549697515628954771609 402960885610292837473677358638 699634555570844166061062484120 447654564339280246687539790581 621724531512577496468499544645 764558378765666763217715310851 试观察该刀具出现故障时完成的零件数属于哪种分布. 解 clearall; x=[459362624542509584433748815505 612452434982640742565706593680 9266531644877346084281153593844 527552513781474388824538862659 77585975549697515628954771609 402960885610292837473677358638 699634555570844166061062484120 447654564339280246687539790581 621724531512577496468499544645 764558378765666763217715310851]; hist(x,10); normplot(x); [muhat,sigmahat,muci,sigmaci]=normfit(x); [h,sig,ci]=ttest(x,594) muhat= 594 sigmahat= 204.1301 sigmaci= 179.2276237.1329 muci= 553.4962634.5038 h= 0 sig= 1 ci= 553.4962634.5038 图4.2.1正态检验图 此检验结果说明: 1.估计出该刀具的均值为594,方差204,均值的0.95置信区间为[553.4962,634.5038],方差的0.95置信区间为[179.2276,237.1329]. 2.从正态检验图上,可以看出数据大致集中在一条直线上,说明该刀具出现故障时完成的零件数符合正态分布. 3.布尔变量h=0,表示不拒绝零假设.说明提出的假设寿命均值594是合理的. 4.95%的置信区间为[553.5,634.5],它完全包括594,且置信度很高。 5.sig-值为1,远超过0.05,不能拒绝零假设. 4.3.方差分析 方差分析是英国统计学家兼遗传学家FisherRA提出的一种分析方法,在农业、科学试验和现代工业质量控制等众多领域有着广泛的应用。 在实际的生产和经营管理过程中,影响产量、产品质量、数量或销量的因素很多。 如何从众多的因素中,分清哪些主要,哪些次要? 这就是本节所要研究的内容。 一般我们称产量、产品的质量、数量或销量为试验指标,对试验指标起一定影响作用的称为因素或因子(factor)。 在众多因素中,有些因素可能对试验指标影响大,有些可能影响小,经常需要分析哪几种因素对生产质量(数量)或销量起决定性的作用,并需知道最优的生产(工艺或销售)条件是什么? 方差分析就是解决这些问题的一种有效方法。 1.单因素方差分析模型 若只考虑一个因素对试验指标的影响,这种分析问题的方法称为单因素方差分析(analysisofvariance),方差分析简称“ANOVA”。 该方法的主要目的是: 通过试验数据分析推断因素A对指标影响是否显著。 1)问题的一般提法 假定要检验的因子有m种水平,X1,X2,…,Xm是m个相互独立的正态总体,分别服从于N(μi,s2),i=1,2,…,m。 另外,xij(i=1,2,…,m;j=1,2,…,ni)是分别服从正态分布抽得的简单随机样本。 则单因素方差分析模型: εij~N(0,s2),且各εij相互独立 2)显著性检验 对于上面所提出的多个正态总体均值是否相等的问题,也就是检验假设: H0: μ1=μ2=…=μm ;H1: μi(i=1,2,…,m)不全相等 定义: , , 则有平方和分解公式: 其中,Q1被称为组内离差平方和(或误差平方和)。 它反映了数据xij在抽样过程中产生总的误差程度的一个评价指标。 Q2是各组平均值与总平均值的离差平方和,反映了各总体的样本平均值之间的差异程度,被称之为组间平方和。 通过Q2取值的大小可以反映原假设H0是否成立。 3)F-检验法 构造F-统计量: 给定显著性水平α,查表,当F>Fα(m-1,n-m)时,则拒绝H0。 4)方差分析表 表4.3.1 方差来源 平方和 自由度 方 差 F-值 p值 因子A 误差E 总和 Q2 Q1 Q m-1 n-m n-1 MSA=Q2/m-1 MSE=Q1/n-m FA=MSA/MSE p 2.双因素方差分析 在许多实际问题中,对试验指标的影响不仅仅只有一个因素,可能需要同时考虑几个因素对试验指标的影响。 这种同时分析多个因素对试验指标的影响作用大小的方法,就是多因素的方差分析。 如果只考虑两个因素,称之为双因素方差分析。 1)数学模型 双因素方差分析数学模型: 其中: xijk 服从N(μij,s2)分布,i=1,2,…,r,j=1,2,…s,k=1,2,…,n.且各xijk 相互独立;μ是总的平均值,αi是因子A的水平Ai的效应,βj为因子B的水平Bj的效应,γij是Ai、Bj的交互效应值,εijk服从N(0,s2)分布,且相互独立. 2)提出三个假设: HA0: α1=α2=…=αr=0;HA1: 至少有某个αi≠0 HB0: β1=β2=…=βr=0;HA1: 至少有某个βj≠0 HAB0: γij=0,i=1,2,…,r,j=1,2,…s,;HAB1: 至少有某个γij≠0 同样有平方和分解公式: Q=Q1+Q2+Q3+Q4(具体公式及公式推导略) 3)方差分析表: 表4.3.2 方差来源 平方和 自由度 均 方 F-值 p值 因子A Q1 r-1 MSA=Q1/(r-1) FA=MSA/MSE pA 因子B Q2 s-1 MSB=Q2/(s-1) FB=MSB/MSE pB 交互作用 Q3 (r-1)(s-1) MSAB=Q3/(r-1)(s-1) FAB=MSAB/MSE pAB 误差 Q4 rs(n-1) MSE=Q4/rs(n-1) 总和 Q rsn-1 3.MATLAB实现 对于方差分析,MATLAB统计工具箱中提供了如下调用格式: [p,tab,stats]=anova1(X) [p,tab,stats]=anova2(X) 前一个命令是单因素方差分析,后一个命令是双因素方差分析。 更具体的功能可用help查询。 例1.某公司为了研究三种内容的广告宣传对某种汽车销售量的影响,进行了统计调查。 经广告广泛宣传后,按寄回的广告上的订购数计算,一年四个季度的销售量如下表所示: 表4.3.3 季 度 广 告 类 型 A1 A2 A3 一 二 三 四 163 184 206 176 198 191 170 179 218 185 190 224 表中A1: 强调运输方便性的广告;A2: 强调节省燃料的经济性的广告;A3: 强调噪音低的优良性的广告;试问哪一种类型的新闻广告促进汽车销量增加所起的宣传效果最佳? 解: clearall; x=[163184206;176198191;170179218;185190224]; [p,tab,stats]=anova1(x) p= 0.0039 计算结果中p=0.0039<α=0.05,表明拒绝H0。 得到两个图形界面: 图4.3.1 单因素方差分析表 图4.3.2 box图 Box图反映了各组数据的特征。 另一方面经查表得: F0.05(2,9)=4.26。 由方差分析 表知F=10.93>F0.05(2,9)=4.26,所以拒绝H0,即认为不同类型的广告内容对汽车销售量有显著影响。 进一步问哪一种广告形式最佳? 因此需要计算各水平效应值: 计算结果表明,效应值α3最大。 这说明广告A3的汽车销售量最多,因此A3为最优水平。 为此,在今后的广告宣传中,应该注意多宣传噪音低的好处,同时也提出在汽车的生产中应注意改进工艺以降低噪音,从而促进汽车销量增加。 例2.为比较3种松树在4个不同地区的生长情况有无差别,在每个地区对每种松树随机的选择5株,测量它们的胸径,得出的数据在表4.3-4中给出,试对它们进行双因素方差分析。 表4.3.4松树数据 地区 松树种类 1 2 3 4 1 2315261321 2520211618 2117162427 1417192024 2 2822251926 3026262028 1924192529 1721182623 3 1810122213 1521221412 2325191322 1612232219 解: clearall; x=[2315261321252021161821171624271417192024;2822251926302626202819241925291721182623;1810122213152122141223251913221612232219]; anova2(x',5); 输出方差分析表为: 图4.3.3 双因素方差分析表 从双因素方差分析表中可以看出,第一个因素松树种类对应的概率p=0.00029466值很小,所以应该拒绝原假设,从而认为树种对观测树的胸径有显著影响。 进一步计算树种在3个不同的水平下的均值分别为 y=[]; fori=1: 3 forj=1: 4 y(i,j)=mean(x(i,[1: 5]+(j-1)*5)); end end; y=[y;mean(y)]; y=[ymean(y')'] y= 19.600020.000021.000018.800019.8500 24.000026.000023.200021.000023.5500 15.000016.800020.400018.400017.6500 19.533320.933321.533319.400020.3500 由y的最后一列可以看出,树种2的树胸径最大,树种3的最小。 而方差分析表中的另外两个概率的值都很大,所以没有理由拒绝另外两个假设。 故得出结论: 地区对树的胸径无显著影响,不同区域对不同树种的胸径观测结果也无显著影响。 4.4.回归分析 许多实际问题往往需要对大量数据进行分析,尤为重要的是统计分析(statisticalanalysis)。 如统计预报中的预测、经验公式中的参数确定等等,常常用到各种统计方法。 回归分析(regressionanalysis)是研究各变量间相互关系的一种统计方法。 1.一元线性回归模型 我们称模型Y=a+bx+ε,ε~N(0,σ2)或Y~N(a+bx,σ2)为一元线性回归模型,称Y与x之间存在线性回归关系,其中参数a和b称为一元线性回归的回归系数。 1)回归系数a、b的最小二乘估计 已知观测值为(xi,yi)(i=1,2,…,n)。 将它代入回归模型中有如下关系: yi=a+bxi+εi 其中i=1,2,…,n。 采用最小二乘法,求观测值与期望值的离差平方和最小。 求出的解记为 , ,回归方程为: 。 2)回归模型的统计检验 回归模型的假设(f(x)=a+bx)是否成立? 该问题可转化为对系数b提出假设, H0: b=0;H1: b≠0,然后判断H0是否成立,这就是假设检验问题。 有两种检验方法: (1)相关系数检验法 其中 ,当 越接近于1时,说明X与Y的线性关系就越显著;当 越靠近零时,表明X与Y的线性关系越不明显,或者X与Y之间可能是非线性的关系,或者是两者根本不存在什么关系。 检验上述原假设H0: b=0,其拒绝域为: ,α为检验水平。 (2)F检验法 平方和分解公式: 简记为: Lyy=Q+U, 其中Q被称为残差平方和(residualsumofsquares),U被称为回归平方和(regressivesumofsquares)。 考虑检验假设H0: b=0;H1: b≠0 ,在H0为真时,可证明: 其拒绝域为: 。 3)回归模型的应用 (1)预测 对于给定的控制量x=x0,可以给出E(y0)的点估计: ,以及y0的置信度为(1-a)%的预测区间为: 其中 , 。 (2)控制 观察值y在某个区间(y1,y2)取值时,应如何控制x的取值范围,使得相应的观察值落入指定区间(y1,y2)内的概率至少为1-a%. 解方程 : 求解得的x1,x2,即x的控制区间的两个端点值. 2.多元线性回归模型 多元线性回归模型的形式及假设: Y=β0+β1x1+…+βmxm+ε,ε~N(0,σ2) 1)回归系数β0,β1,…,βm的确定 根据观测值(xi1,xi2,…,xim,yi)(i=1,2,…,n),要确定回归系数β0,β1,…,βm,其方法仍然是最小二乘法。 建立优化目标函数: 2)回归模型的检验 问题可转化为: H0: β0=β1=…=βm=0;H1: 存在某个βi≠0 判断H0是否成立,可以用F检验法。 平方和分解公式: 简记为: Lyy=Q+U,其中Q被称为剩余平方和,自由度为n-m-1;U被称为回归平方和,自由度为m; 则F检验统计量,在H0为真时,可证明: 其拒绝域为: 。 3)回归系数的检验 问题提出: H0: βi=0(i=1,…,m),H1: βi≠0 可以证明: (i=1,…,m)。 可用该结果求95%的置信区间和对上述假设进行检验。 若检验结果是接受H0,则说明自变量xi对因变量y的影响较小,可以将该变量从回归模型中剔除。 实际上,该检验结果成为剔除哪些自变量的一个重要依据。 4)预测 给定一组值(x10,x20,…,xm0),可以得到点估计值y0。 同理,也可以计算出它的预测区间。 3.MATLAB实现 MATLAB统计工具箱用命令regress实现多元线性回归,调用格式为: b=regress(Y,X)或[b,bint,r,rint,stats]=regress(Y,X,alpha) 其中Y是因变量数据向量,X是自变量数据矩阵,其排列方式如下: , alpha为显著性水平(缺省时设定为0.05),输出向量b,bint为回归系数估计值β0,β1,…,βm和它们的置信区间,r,rint为残差(向量)及其置信区间,stats是用于检验回归模型的统计量,有三
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学