003理论分布与抽样分布28.pptx
- 文档编号:30803469
- 上传时间:2024-01-28
- 格式:PPTX
- 页数:90
- 大小:1,018.11KB
003理论分布与抽样分布28.pptx
《003理论分布与抽样分布28.pptx》由会员分享,可在线阅读,更多相关《003理论分布与抽样分布28.pptx(90页珍藏版)》请在冰豆网上搜索。
第三章理论分布与抽样分布,1、概率分布4、正态分布2、二项分布5、抽样分布3、泊松分布,1概率分布,事件的概率表示了一次试验某一个结果发生的可能性大小。
若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probabilitydistribution)。
为了深入研究随机试验,我们先引入随机变量(randomvariable)的概念。
1.1随机变量,作一次试验,其结果有多种可能。
每一种可能结果都可用一个数来表示,把这些数作为变量x的取值范围,则试验结果可用变量x来表示。
【例3.3】对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、“1头治愈”、“2头治愈”、“”、“100头治愈”。
若用x表示治愈头数,则x的取值为0、1、2、100。
1.1随机变量,【例3.4】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。
若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。
【例3.5】测定某品种猪初生重,表示测定结果变量x所取的值为一个特定范围(a,b),如0.51.5kg,x值可以是这个范围内的任何实数。
1.1随机变量,如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量(discreterandomvariable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量(continuousrandomvariable)。
1.2离散型随机变量的概率分布,要了解离散型随机变量x的统计规律,就必须知道它的一切可能值xi及取每种可能值的概率pi。
如果我们将离散型随机变量x的一切可能取值xi(i=1,2,),及其对应的概率pi,记作P(x=xi)=pii=1,2,则称上式为离散型随机变量x的概率分布或分布。
常用分布列(distributionseries)来表示离散型随机变量:
1.2离散型随机变量的概率分布,x1x2xn.p1p2pn显然,离散型随机变量的概率分布具有以下两个基本性质:
pi0pi=1,1.3连续型随机变量的概率分布,连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。
我们改用随机变量x在某个区间内取值的概率P(axb)来表示。
下面通过频率分布密度曲线予以说明。
1.3连续型随机变量的概率分布,126头基础母羊的体重的次数分布表,图中纵坐标取频率与组距的比值。
可以设想,如果样本取得越来越大(n+),组分得越来越细(i0),某一范围内的频率将趋近于一个稳定值概率。
这时,频率分布直方图各个直方上端中点的联线频率分布折线将逐渐趋向于一条曲线。
1.3连续型随机变量的概率分布,换句话说,当n+、i0时,频率分布折线的极限是一条稳定的函数曲线。
对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。
这条曲线排除了抽样和测量的误差,完全反映了基础母羊体重的变动规律。
这条曲线叫概率分布密度曲线,相应的函数叫概率分布密度函数。
1.3连续型随机变量的概率分布,若记体重概率分布密度函数为f(x),则x取值于区间a,b)的概率为图中阴影部分的面积,即P(axb)=上式为连续型随机变量x在区间a,b)上取值概率的表达式。
可见,连续型随机变量的概率由概率分布密度函数确定。
1.3连续型随机变量的概率分布,连续型随机变量概率分布的性质:
1、分布密度函数总是大于或等于0,即f(x)0;2、当随机变量x取某一特定值时,其概率等于0;即(c为任意实数)3、在一次试验中随机变量x之取值必在-,+范围内,为一必然事件。
所以上式表示分布密度曲线下、横轴上的全部面积为1。
2二项分布,2.1贝努利试验及其概率公式将某随机试验重复进行n次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这n次试验是独立的。
2.1贝努力试验及其概率公式,对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与之一,在每次试验中出现A的概率是常数p(0p1),因而出现对立事件的概率是1-p=q,则称这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoullitrials)。
2.1贝努力试验及其概率公式,在n重贝努利试验中,事件A可能发生0,1,2,n次,现在我们来求事件A恰好发生k(0kn)次的概率Pn(k)。
先取n=4,k=2来讨论。
在4次试验中,事件A发生2次的方式有以下种:
2.1贝努力试验及其概率公式,其中Ak(k=1,2,3,4)表示事件A在第k次试验发生;(k=1,2,3,4)表示事件A在第k次试验不发生。
由于试验是独立的,按概率的乘法法则,于是有P()=P()=P()=P()P()P()P()=,2.1贝努力试验及其概率公式,又由于以上各种方式中,任何二种方式都是互不相容的,按概率的加法法则,在4次试验中,事件A恰好发生2次的概率为P4
(2)=P()+P()+P()=,2.1贝努力试验及其概率公式,一般,在n重贝努利试验中,事件A恰好发生k(0kn)次的概率为k=0,1,2,n若把上式与二项展开式相比较就可以发现,在n重贝努利试验中,事件A发生k次的概率恰好等于展开式中的第k+1项,所以也把上式称作二项概率公式。
2.2二项分布的意义及性质,2.2.1二项分布定义设随机变量x所有可能取的值为零和正整数:
0,1,2,,n,且有=k=0,1,2,n其中p0,q0,p+q=1,则称随机变量x服从参数为n和p的二项分布(binomialdistribution),记为xB(n,p)。
2.2.1二项分布的定义,二项分布是一种离散型随机变量的概率分布。
参数n称为离散参数,只能取正整数;参数p称为连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。
2.2.2二项分布的性质,二项分布具有概率分布的一切性质,即:
1、P(x=k)=Pn(k)(k=0,1,,n)2、二项分布的概率之和等于1,即3、4、5、(m1m2),2.2.2二项分布的性质,二项分布由n和p两个参数决定:
1、当p值较小且n不大时,分布是偏倚的。
但随着n的增大,分布逐渐趋于对称,如图1所示;2、当p值趋于0.5时,分布趋于对称,如图2所示;,2.2.2二项分布的性质,3、对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。
此外,在n较大,np、nq较接近时,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。
2.3二项分布的概率计算,【例2.1】纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为31。
求窝产仔10头,有7头白猪的概率。
解:
根据题意,n=10,p=34=0.75,q=14=0.25。
设10头仔猪中白色的为x头,且xB(10,0.75)于是窝产10头仔猪中有7头是白色的概率为:
2.3二项分布的概率计算,【例2.2】设在家畜中感染某种疾病的概率为20,现有两种疫苗,用疫苗A注射了15头家畜后无一感染,用疫苗B注射15头家畜后有1头感染。
设各头家畜没有相互传染疾病的可能,问:
应该如何评价这两种疫苗?
2.3二项分布的概率计算,解:
假设疫苗A完全无效,那么注射后的家畜感染的概率仍为20,则15头家畜中染病头数x=0的概率为同理,如果疫苗B完全无效,则15头家畜中最多有1头感染的概率为由计算可知,注射A疫苗无效的概率为0.0352,比B疫苗无效的概率0.1671小得多。
因此,可以认为A疫苗是有效的,但不能认为B疫苗也是有效的。
2.4二项分布的应用条件,
(1)各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;
(2)已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-p=q,即p+q=1。
实际中要求p是从大量观察中获得的比较稳定的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。
2.5二项分布的平均数与标准差,统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差与参数n、p有如下关系:
(1)当试验结果以事件A发生次数k表示时=np=,2.5二项分布的平均数与标准差,
(2)当试验结果以事件A发生的频率kn表示时也称为总体百分数标准误,当p未知时,常以样本百分数来估计。
此时上式改写为:
=称为样本百分数标准误。
3泊松分布,波松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。
要观察到这类事件,样本含量n必须很大。
在生物、医学研究中,服从波松分布的随机变量是常见的。
如,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计数器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从波松分布的。
3.1泊松分布的定义及特点,3.1.1泊松分布的定义若随机变量x(x=k)只取零和正整数值0,1,2,且其概率分布为,k=0,1,2,其中0;e=2.7182是自然对数的底数,则称x服从参数为的泊松分布(Poissonsdistribution),记为xP()。
3.1泊松分布的定义及特点,3.1.2泊松分布的特点泊松分布作为一种离散型随机变量的概率分布,理论上已经证明其均值与方差相等、即2这是泊松分布的一个显著特点。
利用这个特点可以初步判断一个随机变量是否服从泊松分布。
3.1泊松分布的定义及特点,3.1.2泊松分布的特点是泊松分布小所依赖的惟一参数,越小分布越偏,随着的增加,分布趋于对称。
3.2泊松分布的概率计算,【例3-1】食品店每小时光顾的顾客人数服从3的泊松分布,即xP(3)分布。
(1)计算每小时恰有5名顾客的概率。
(2)lh内顾客不超过5人的概率。
(3)lh内顾客最少有6人的概率。
3.2泊松分布的概率计算,解:
设x表示商店每小时接待顾客的人数P(x=k=5)=P(x=k5)=P(x=k6)=,3.2泊松分布的概率计算,【例3-2】已知某食品厂每月某种食品原料的用量服从7的泊松分布,为了不使该原料库存积压过多,又不致发生短缺,问每月底库存多少才能保证下月原料不缺的概率P0.9999。
3.2泊松分布的概率计算,解:
设每月用量为x,上月底库存量为a,根据题意有:
P(xa)0.9999,因为xP(7),故上式为:
p(x=ka)=解得a16,即该食品厂在月底库存16就可有99.99得把握保证下月原料不缺。
3.3泊松分布的应用条件,泊松分布是一种可以用来描述和分析随机地发生在单位时间或空间里的稀有事件的概率分布。
在二项分布中,当试验的次数n很大,试验发生的概率P很小时,xB(n,p)可用xP()代替,用nP进行有关计算。
总体来看,二项分布的应用条件也就是应用泊松分布所要求的。
4正态分布,正态分布(normaldistribution)是一种常见的连续型随机变量的概率分布。
食品科学研究中所涉及的许多变量都是服从或接近正态分布的,如食品中各种营养成分的含量,有害物质残留量,瓶装食品的重量、容积、分析测定过程中的随机误差等。
4.1正态分布的定义及其特征,4.1.1正态分布的定义若连续型随机变量x的概率分布密度函数为其中为平均数,2为方差,则称随机变量x服从正态分布,记为xN(,2)。
相应的概率分布函数为,4.1正态分布的定义及其特征,4.1.1正态分布的定义分布密度曲线如图所示。
4.1正态分布的定义及其特征,4.1.2正态分布的特征1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=;2、f(x)在x=处达到极大,极大值;3、f(x)是非负函数,以x轴为渐近线,分布从-至+,且曲线在处各有一个拐点;,4.1正态分布的定义及其特征,5.1.2正态分布的特征4、正态分布有两个参数,即平均数和标准差。
是变异度参数,如图所示。
当恒定时,愈大,表示x的取值愈分散,曲线愈“胖”;愈小,x的取值愈集中在附近,曲线愈“瘦”。
是位置参数,如图所示。
当恒定时,愈大,则曲线沿x轴愈向右移动;反之,愈小,曲线沿x轴愈向左移动。
4.1正态分布的定义及其特征,4.1.2正态分布的特征5、分布密度曲线与横轴所夹的面积为1,即:
4.2标准正态分布,由上述正态分布的特征可知,正态分布是依赖于参数和2(或)的一簇分布,正态曲线之位置及形态随和2的不同而不同。
这就给研究具体的正态总体带来困难,需将一般的N(,2)转换为=0,2=1的正态分布。
我们称=0,2=1的正态分布为标准正态分布(standardnormaldistribution)。
4.2标准正态分布,标准正态分布的概率密度函数及分布函数分别记作(u)和(u),由f(x)及F(x)式得:
随机变量u服从标准正态分布,记作uN(0,1),分布密度曲线如图所示。
4.2标准正态分布,对于任何一个服从正态分布N(,2)的随机变量x,都可以通过标准化变换:
u=(x-)将其变换为服从标准正态分布的随机变量u。
u称为标准正态变量或标准正态离差(standardnormaldeviate)。
4.3正态分布的概率计算,4.3.1标准正态分布的概率计算设u服从标准正态分布,则u在u1,u2)内取值的概率为:
(u2)(u1)而(u1)与(u2)可由附表1查得。
正态分布表,正态分布表,4.3.1标准正态分布的概率计算,由P(u1uu2)(u2)(u1)式及正态分布的对称性可推出下列关系式,再借助附表1,便能很方便地计算有关概率:
P(0uu1)(u1)-0.5P(uu1)=(-u1)P(uu1)=2(-u1)P(uu11-2(-u1)P(u1uu2)(u2)-(u1),4.3.1标准正态分布的概率计算,关于标准正态分布,以下几种概率应当熟记:
P(-1u1)=0.6826P(-2u2)=0.9545P(-3u3)=0.9973P(-1.96u1.96)=0.95P(-2.58u2.58)=0.99,4.3.1标准正态分布的概率计算,u变量在上述区间以外取值的概率分别为:
P(u1)=2(-1)=1-P(-1u1)=1-0.6826=0.3174P(u2)=2(-2)=1-P(-2u2)=1-0.9545=0.0455P(u3)=1-0.9973=0.0027P(u1.96)=1-0.95=0.05P(u2.58)=1-0.99=0.01,4.3.2一般正态分布的概率计算,正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量x取值在-与+之间”是一个必然事件,其概率为1。
若随机变量x服从正态分布N(,2),则x的取值落在任意区间x1,x2)的概率,记作P(x1xx2),等于图中阴影部分曲边梯形面积。
即:
4.3.2一般正态分布的概率计算,对上式作变换u=(x-),得dx=du,故有其中,,4.3.2一般正态分布的概率计算,这表明服从正态分布N(,2)的随机变量x在x1,x2)内取值的概率,等于服从标准正态分布的随机变量u在(x1-)/,(x2-)/)内取值的概率。
因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。
4.3.2一般正态分布的概率计算,关于一般正态分布,以下几个概率(即随机变量x落在加减不同倍数区间的概率)是经常用到的。
P(-x+)=0.6826P(-2x+2)=0.9545P(-3x+3)=0.9973P(-1.96x+1.96)=0.95P(-2.58x+2.58)=0.99,小结,前面讨论的三个重要的概率分布中,前两个属离散型随机变量的概率分布,后一个属连续型随机变量的概率分布。
三者间的关系如下:
小结,对于二项分布:
在n,p0,且np=(较小常数)情况下二项分布趋于波松布。
在这种场合,波松分布中的参数用二项分布的np代之;在n,p0.5时,二项分布趋于正态分布。
在这种场合,正态分布中的、2用二项分布的np、npq代之。
小结,对于二项分布:
在实际计算中,当p0.1且n很大时,二项分布可由波松分布近似;当p0.1且n很大时,二项分布可由正态分布近似。
小结,对于波松分布:
当时,波松分布以正态分布为极限。
在实际计算中,当20(也有人认为6)时,用波松分布中的代替正态分布中的及2,即可由后者对前者进行近似计算。
5抽样分布,研究总体与从中抽取的样本之间的关系是统计学的中心内容。
对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布(samplingdistribution)的问题;二是从样本到总体,这就是统计推断(statisticalinference)问题。
5抽样分布,统计推断是以总体分布和样本抽样分布的理论关系为基础的。
为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。
5抽样分布,我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量(如,S)也将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布。
我们把统计量的概率分布称为抽样分布。
5.1样本平均数的抽样分布,由总体随机抽样(randomsampling)的方法可分为返置抽样和不返置抽样两种。
前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。
对于无限总体,返置与否都可保证各个体被抽到的机会相等。
对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。
5.1样本平均数的抽样分布,设有一个总体,总体平均数为,方差为2,总体中各变数为x,将此总体称为原总体。
现从这个总体中随机抽取含量为n的样本,样本平均数记为。
5.1样本平均数的抽样分布,可以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。
由这些样本算得的平均数有大有小,不尽相同,与原总体平均数相比往往表现出不同程度的差异。
这种差异是由随机抽样造成的,称为抽样误差(samplingerror)。
5.1样本平均数的抽样分布,显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。
由样本平均数构成的总体称为样本平均数的抽样总体。
5.1样本平均数的抽样分布,其平均数和标准差分别记为和。
是样本平均数抽样总体的标准差,简称标准误,它表示平均数抽样误差的大小。
统计学上已证明总体的两个参数与x总体的两个参数有如下关系:
=,,5.1样本平均数的抽样分布,设有一个N=4的有限总体,变数为2、3、3、4。
根据=xN和2=(x-)2N求得该总体的、2、为:
=3,2=12,=0.707,5.1样本平均数的抽样分布,从有限总体作返置随机抽样,所有可能的样本数为Nn其中n为样本含量。
以上述总体而论,如果从中抽取n=2的样本,共可得42=16个样本;如果样本含量n为4,则一共可抽得44=256个样本。
分别求这些样本的平均数,其次数分布如表所示。
5.1样本平均数的抽样分布,N=4,n=2和n=4时的次数分布,5.1样本平均数的抽样分布,若将上表中两个样本平均数的抽样总体作次数分布图,则如图所示。
5.1样本平均数的抽样分布,由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小(n=2,n=4),样本平均数的分布却趋向于正态分布形式。
随着样本含量n的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。
5.1样本平均数的抽样分布,比较图中两个分布,在n由2增到4时,这种趋势表现得相当明显。
当n30时,的分布就近似正态分布了。
X变量与变量概率分布间的关系可由下列两个定理说明:
5.1样本平均数的抽样分布,1.若随机变量x服从正态分布N
(2);x1x2、xn,是由x总体得来的随机样本,则统计量=xn的概率分布也是正态分布且有=,即服从正态分布N(,2n)。
5.1样本平均数的抽样分布,2.若随机变量x服从平均数是,方差是2的分布(不是正态分布);x1、x2、xn是由此总体得来的随机样本,则统计量=xn的概率分布,当n相当大时逼近正态分布N(,2n)。
这就是中心极限定理。
5.1样本平均数的抽样分布,中心极限定理告诉我们:
不论x变量是连续型还是离散型,也无论x服从何种分布,一般只要n30,就可认为的分布是正态的。
若x的分布不很偏倚,在n20时,的分布就近似于正态分布了。
5.2标准误,标准误(平均数抽样总体的标准差)的大小反映样本平均数的抽样误差的大小,即精确性的高低。
标准误大,说明各样本平均数间差异程度大,样本平均数的精确性低。
反之,小,说明间的差异程度小,样本平均数的精确性高。
5.2标准误,的大小与原总体的标准差成正比,与样本含量n的平方根成反比。
从某特定总体抽样,因为是一常数,所以只有增大样本含量才能降低样本平均数的抽样误差。
5.2标准误,在实际工作中,总体标准差往往是未知的,因而无法求得。
此时,可用样本标准差S估计。
于是,以估计。
记为,称作样本标准误或均数标准误。
样本标准误是平均数抽样误差的估计值。
若样本中各观测值为x1、x2、xn,则,5.2标准误,注意,样本标准差与样本标准误是既有联系又有区别的两个统计量,上式已表明了二者的联系。
二者的区别在于:
5.2标准误,样本标准差S是反映样本中各观测值x1、x2、xn变异程度大小的一个指标,它的大小说明了对该样本代表性的强弱。
样本标准误是样本平均数的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。
5.2标准误,对于大样本资料,常将样本标准差S与样本平均数配合使用,记为S,用以说明所考察性状或指标的优良性与稳定性。
对于小样本资料,常将样本标准误与样本平均数配合使用,记为,用以表示所考察性状或指标的优良性与抽样误差的大小。
5.3t分布,由样本平均数抽样分布的性质知道:
若xN(,2),则N(,2/n)。
将随机变量标准化得:
,则uN(0,1)。
当总体标准差未知时,以样本标准差S代替所得到的统计量记为t。
5.3t分布,在计算时,由于采用S来代替,使得t变量不再服从标准正态分布,而是服从t分布(tdistribution)。
它的概率分布密度函数如下:
式中,t的取值范围是(-,+);df=n-1为自由度。
5.3t分布,t分布的平均数和标准差为:
t0(df1),(df2)t分布密度曲线如图所示,其特点是:
5.3t分布,1、t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。
2、t分布密度曲线以纵轴为对称轴,左右对称,且在t0时,分布密度函数取得最大值。
5.3t分布,3、与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。
df越小这种趋势越明显。
df越大,t分布越趋近于标准正态分布。
当n30时,t分布与标准正态分布的区别很小;n100时,t分布基本与标准正态分布相同;n时,t分布与标准正态分布完全一致。
5.3t分布,t分布的概率分布函数为:
因而t在区间(t1,+)取值的概率右尾概率为1-Ft(df)。
由于t分布左右对称,t在区间(-,-t1)取值的概率也为1-Ftdf)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 003 理论 分布 抽样 28