田间试验与统计方法第四章理论分布和抽样分布.pptx
- 文档编号:30809897
- 上传时间:2024-01-30
- 格式:PPTX
- 页数:87
- 大小:693.91KB
田间试验与统计方法第四章理论分布和抽样分布.pptx
《田间试验与统计方法第四章理论分布和抽样分布.pptx》由会员分享,可在线阅读,更多相关《田间试验与统计方法第四章理论分布和抽样分布.pptx(87页珍藏版)》请在冰豆网上搜索。
,第四章理论分布与抽样分布,第一节事件与概率第二节概率分布第三节二项式分布第四节正态分布第五节抽样分布,一、事件
(一)必然现象与随机现象,必然现象(inevitablephenomena)或确定性现象(definitephenomena):
结果可预言,确定的,必然的,可重复例,标准大气压下,水加热到100C必然沸腾随机现象(randomphenomena)或不确定性现象(indefinitephenomena):
结果事前不可预言,呈偶然性、不确定性例,种子发芽,抛硬币,随机现象或不确定性现象,有如下特点:
(1)在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;
(2)但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性频率的稳定性,通常称之为随机现象的统计规律性。
(二)随机试验与随机事件1、随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。
而一个试验如果满足下述三个特性,则称其为一个随机试验(randomtrial),简称试验:
(1)试验可以在相同条件下多次重复进行;
(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。
例如小麦发芽试验,抛硬币。
2、随机事件随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(randomevent),简称事件(event),通常用A、B、C等来表示。
(1)基本事件我们把不能再分的事件称为基本事件(elementaryevent),也称为样本点(samplepoint)。
例如,在编号为1、2、3、20的数字中随机抽取1个,有20种不同的可能结果:
“取得一个编号是1”、“取得一个编号是2”、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。
由若干个基本事件组合而成的事件称为复合事件(compoundevent)。
如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”“是20”10个基本事件组合而成。
(2)必然事件我们把在一定条件下必然会发生的事件称为必然事件(certainevent),用表示。
其概率为1例如,标准大气压下,水加热到100C必然沸腾,就是一个必然事件。
(3)不可能事件我们把在一定条件下不可能发生的事件称为不可能事件(impossibleevent),用表示。
其概率为0例,没有生活能力的种子播种后会出苗,就是一个不可能事件。
必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。
积事件AB,和事件A+B,A,B,A,B,互斥事件,对立事件,A+B,“或A发生,或B发生”。
AB,“A和B同时发生或相继发生”,AB=V,事件A和B互斥或互不相容,A+B=U,AB=V,事件B为事件A的对立事件,并记B为,事件间的关系,二、概率研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。
这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。
事件A的概率记为P(A)。
(一)概率的统计定义,思考:
投掷一枚硬币,出现正面的概率是多大?
(0表示反面,1表示正面)反复做它,那么所有出现正面的结果平均值是多少?
英国数学家皮尔逊做24000次抛硬币试验正面向上12012次频率=随着试验次数的增多,正面朝上的频率越来越接近0.5.,二、概率,例,,表在相同条件下盲蝽象在某棉田危害程度的调查结果,调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性,统计学上用n较大时稳定的p近似代表概率。
通过大量实验而估计的概率称为实验概率或统计概率,以表示。
此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为01,即0P(A)1。
(二)概率的古典定义,概率的统计定义是在大量的试验中以频率的稳定性为基础上提出来的。
不需要做试验,根据随机事件本身的特性就可以确定事件出现的概率,称为古典概率。
古典概型必须满足以下条件:
随机试验的全部可能结果(基本事件数)是有限的;各基本事件间是互不相容且发生是等可能的。
定义:
P(A)m/nm为事件A中所包含的基本事件数n为基本事件总数。
例,在1、2、3、20这20个数字中随机抽取1个,求下列事件的概率
(1)A“抽得1个数字小于5”
(2)B=“抽得1个数字是2的倍数”,小概率事件-随机事件的概率表示随机事件在试验中出现的可能性大小。
随机事件的概率很小如,小于0.05或0.01或0.001小概率原理-统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件,称为小概率事件实际不可能性原理,简称小概率原理。
这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。
小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。
(三)小概率事件实际不可能性原理,概率是事件在试验结果中出现可能性大小的定量计量。
它是度量随机事件发生的可能性的统计学指标。
是事件固有的属性,有以下明显的性质:
随机事件A的概率:
0P(A)1必然事件W的概率为1,即P(W)=1不可能事件(V)的概率为0,即P(V)=0概率接近于0(如P0.05)的事件称为小概率事件。
(四)概率的性质,第二节概率分布(probabilitydistribution),一、随机变量二、概率分布,一、随机变量(randomvariable),随机变量是指随机变数所取的某一个实数值。
表示随机现象结果的变量,也就是在随机试验中被测定的量,所取得的值称为观察值。
例1:
抛硬币试验,两种结果:
用数“1”表示“币值面向上”,“0”表示“国徽面向上”把0,1作为变量y的取值可以简单地把抛硬币试验用取值为0,1的变量来表示:
P(y=1)=0.5,P(y=0)=0.5,例2:
用“1”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。
显然p+q=1,则P(y=1)=p,P(y=0)=q=1p。
例3:
用变量y表示水稻产量,若y大于500kg的概率为0.25,大于300kg且等于小于500kg的概率为0.65,等于小于300kg的概率为0.1。
则用变量y的取值范围来表示的试验结果为P(y300)=0.10,P(300y500)=0.65,P(y500)=0.25。
(与我们前面所讲的连续型数据和离散型数据的意义一样),
(一)离散型随机变量-当试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。
将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:
概率,也可用函数f(y)表述,称为概率函数。
前面例1、例2中的y就是离散型随机变量,将其可能取值与对应概率一一列出,即为:
常用概率分布表或概率分布图表示,图离散型随机变量概率分布图,表离散型随机变量的概率分布表,离散型变量概率的分布函数:
离散型变量概率的向上累积。
其公式为,即随机变量小于等于某一可能值(x0)的概率。
离散型概率分布的例子,例:
从100件产品(其中合格品95件,废品5件)中任取10件,求每次抽到废品数的概率分布。
概率分布表,累积概率分布表,
(二)连续型随机变量(continuousrandomvariate)-对于随机变量,若存在非负可积函数f(y)(y),对任意a和b(ab)都有P(ayb)=,则称y为连续型随机变量(continuousrandomvariate),f(y)称为y的概率密度函数(probabilitydensityfunction)或分布密度(distributiondensity)。
上述例3中的y就是一个连续型随机变量。
概率密度的图形f(x),称为分布曲线。
概率是曲线下面积!
概率密度曲线f(x)与x轴所围成的面积为,1,分布函数(或称为累积分布函数)是随机变量X取得小于x0的值的概率,概率密度函数图和概率分布函数图,概率密度函数图概率分布函数图或或概率分布曲线累积分布函数图,yp(x)yF(x),x1,x2,x2,x1,P(x1xx2)=F(x2)F(x1),连续型随机变量概率分布的性质:
分布密度函数总是大于或等于0,即f(x)0;当随机变量x取某一特定值时,其概率等于0;即(c为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。
第三节二项式分布,一、二项总体及二项式分布二、二项式分布的概率计算方法三、二项式分布的形状和参数四、多项式分布,一、二项总体及二项式分布,二项总体(binarypopulation),就是非此即彼的两项构成的总体例:
小麦种子发芽和不发芽,大豆子叶色为黄色和青色,调查棉田危害分为受害株和不受害株等等。
通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。
因而二项总体又称为0、1总体,其概率则显然有:
p+q=1,如果从二项总体进行n次重复抽样,设出现“此”的次数为y,那么y的取值可能为0、1、2、n,共有n+1种可能取值,这n+1种取值各有其概率,因而由变量y及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项分布(binomialdistribution)。
B(n,p),二项总体的抽样试验具有重复性和独立性重复性是指每次试验条件不变,即在每次试验中“此”事件出现的概率皆为p独立性是指任何一次试验中“此”事件的出现与其余各次试验中出现何种结果无关,二、二项式分布的概率计算方法,数学上的组合公式为:
二项式中包含两项,这两项的概率为p、q,并且p+q=1,可推知变量y的概率函数为:
累积函数F(y):
变量小于等于y的所有可能取值的概率之和,理论次数:
对于任意y,理论次数=nP(y),这一分布律也称贝努里(Bernoulli)分布,并有,的泰勒展开式为:
可以看到,上式右边的每一项即为二项分布中变量y取0、1、2、n时的概率,又p+q=1,从而(p+q)n=1,例4.1棉田盲危害的统计概率乃从调查2000株后获得近似值p=0.35。
现受害株事件为A,其概率为p=0.35,未受害株事件为对立事件,其概率q=(10.35)=0.65。
如调查5株为一个抽样单位,即n=5,则受害株数y=0,1,2,3,4和5的概率可以计算出来,,如果每次抽5个单株,抽n=400次,则理论上我们能够得到y=2的次数应为:
理论次数=400P
(2)=4000.3364=134.56(次),和其累计函数,表4.2调查单位为5株的概率分布表(p=0.35,q=0.65),受害株数(y)受害株数(y),图4.1棉株受危害的概率分布图(p=0.35,n=5),图4.2棉株受危害的累积概率函数图(p=0.35,n=5),三、二项式分布的形状和参数,如p=q,二项式分布呈对称形状,如pq,则表现偏斜形状,受害株数(y),受害株数(y),图4.1棉株受盲蝽象为害的概率分布图(p=0.35,n=5),二项式分布的参数,平均数、方差和标准差如下式,上述棉田受害率调查结果,n=5,p=0.35,可求得总体参数为:
=50.35=1.75株,株。
四、多项式分布,所谓多项总体,是指将变数资料分为3类或多类的总体。
例如在给某一人群使用一种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的,就是三项分布。
多项总体的随机变量的概率分布即为多项式分布(multinomialdistribution)。
五、泊松分布二项分布的一种极限分布(Poissondistribution),二项分布中往往会遇到一个概率p或q是很小的值,例如小于0.1,另一方面n又相当大,这样的二项分布必将为另一种分布所接近,或者为一种极限分布。
这一种分布称泊松概率分布,简称泊松分布。
令np=m,则泊松分布如下式:
y=0,1,2,,泊松分布的平均数、方差和标准差如下式:
m的大小决定其分布形状。
当m值小时分布呈很偏斜形状,m增大后则逐渐对称。
第四节正态分布,一、二项分布的极限正态分布二、正态分布曲线的特性三、计算正态分布曲线区间面积或概率的方法,研究正态分布的意义:
客观世界的许多现象的数据是服从正态分布规律的。
在适当条件下,正态分布可以用来作二项分布及其它间断性变数或连续性变数分布的近似分布。
虽然某些总体不作正态分布,但从总体中随机抽出的样本平均数及其它一些统计数的分布,在样本容量适当大时仍然趋于正态分布。
正态分布,一、二项分布的极限正态分布,以上述二项分布棉株受害率为例,假定受害概率p=1/2,那么,p=q=1/2。
现假定每个抽样单位包括20株,这样将有21个组,其受害株的概率函数为,于是概率分布计算如下:
现将这概率分布绘于图4.5。
从图4.5看出它是对称的,分布的平均数和方差为:
=npq=20(1/2)(1/2)=5(株)2。
=np=20(1/2)=10(株),,如p=q,不论n值大或小,二项分布的多边形图必形成对称;如pq,而n很大时,这多边形仍趋对称。
可以推导出正态分布的概率密度函数为:
(49),其中,y是所研究的变数;是概率密度函数;,和为总体参数,表示所研究总体平均数,表示所研究总体标准差,参数和有如下的数学表述,(410),令可将(49)式标准化为:
(411),上式称为标准化正态分布方程,它是参数时的正态分布(图4.7)。
记作N(0,1)。
正态分布的曲线图,-3-2-10123,图4.6正态分布曲线图(平均数为,标准差为),图4.7标准正态分布曲线图(平均数为0,标准差为1),二、正态分布曲线的特点:
曲线以平均数为对称轴,左右对称;算术平均数、中数、众数三位合一;正态分布曲线是以平均数和标准差的不同而表现为一系列曲线;正态分布资料的次数分布表现为多数次数集中在算是平均数附近,距之俞远,次数俞少;正态分布曲线在离开平均数一个标准差处有拐点,且曲线是以x轴为渐进线;正态分布曲线与x轴间的面积为1,任何两个x定值间的面积或概率由平均数和标准差确定。
正态分布,图4.8标准差相同
(1)而平均数不同(=0、=1、=2)的三个正态分布曲线,图4.9平均数相同(0)而标准差不同(=1、=1.5、=2)的三个正态分布曲线,例如,上章水稻140行产量资料的样本分布表现出接近正态分布,表4.5140行水稻产量在1s,2s,3s范围内所包括的次数表,三、计算正态分布曲线区间面积或概率的方法,概率可用曲线下区间的面积来表示,或者说,用其定积分的值表示,(413),同样可以计算曲线下从到y的面积,其公式如下:
(414),这里FN(y)称为正态分布的累积函数,具有平均数和标准差。
A=P(ayb),fN(y),图4.10正态分布密度函数的积分说明图面积A=P(ayb),现如给予变数任何一定值,例如a,那么,可以计算ya的概率为FN(a),即,(415),如果a与b(ab)是y的两个定值,则其区间概率可从下式计算:
(416),例4.4假定y是一随机变数具有正态分布,平均数=30,标准差=5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。
所有正态分布都可以转换为标准化正态分布方程式,首先计算:
先将y转换为u值,然后查表计算概率。
同理可得:
FN(40)=0.9773,所以:
P(26y40)=FN(40)FN(26)=0.97730.2119=0.7654,P(y40)=1P(y40)=10.9773=0.0227,查附表2,当u=0.8时,FN(26)=0.2119,说明这一分布从到26范围内的变量数占全部变量数的21.19%,或者说,y26概率为0.2119.,例4.5在应用正态分布时,经常要讨论随机变数y离其平均数的差数大于或小于若干个值的概率。
例如计算离均差绝对值等于小于和等于大于1的概率为:
也可以简写为,相应地,离均差绝对值等于小于2、等于大于2、等于小于3和等于大于3的概率值为:
图4.13离均差的绝对值1,2和1.96的概率值,第五节抽样分布,统计学的一个主要任务是研究总体和样本之间的关系。
两个方向,从总体到样本的方向,即本节所要讨论的抽样分布。
从样本到总体的方向,即统计推断问题。
抽样分布(samplingdistribution)是统计推断的基础。
一、统计数的抽样及其分布参数二、正态总体的抽样分布三、二项总体的抽样分布,一、统计数的抽样及其分布参数,从总体中随机抽样得到样本,获得样本观察值后可以计算一些统计数,统计数分布称为抽样分布。
抽样,复置抽样,指将抽得的个体放回总体后再继续抽样,不复置抽样,指将抽得的个体不放回总体而继续进行抽样,
(一)样本平均数的抽样及其分布参数,总体,随机样本123无穷个样本,图4.14总体和样本的关系,从一个总体进行随机抽样可以得到许多样本,如果总体是无限总体,那么可以得到无限多个随机样本。
如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到个样本(所有可能的样本个数)。
随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。
由平均数构成的新总体的分布,称为平均数的抽样分布。
除平均数抽样分布外还有总和数、方差的抽样分布等。
新总体与母总体在特征参数上存在函数关系。
以平均数抽样分布为例,这种关系可表示为以下两个方面。
(1)该抽样分布的平均数与母总体的平均数相等。
(417),
(2)该抽样分布的方差与母总体方差间存在如下关系:
(418),其中n为样本容量。
抽样分布的标准差又称为标准误,它可以度量抽样分布的变异。
(二)样本总和数的抽样及其分布参数,样本总和数(用代表)的抽样分布参数与母总体间存在如下关系:
(1)该抽样分布的平均数与母总体的平均数间的关系为:
(419),
(2)该抽样分布的方差与母总体方差间存在如下关系:
(420),(三)两个独立随机样本平均数差数的抽样及其分布参数,如果从一个总体随机地抽取一个样本容量为n1的样本,同时随机独立地从另一个总体抽取一个样本容量为n2的样本,那么可以得到分别属于两个总体的样本,这两个独立随机抽取的样本平均数间差数()的抽样分布参数与两个母总体间存在如下关系:
(1)该抽样分布的平均数与母总体的平均数之差相等。
(2)该抽样分布的方差与母总体方差间的关系为:
(421),(422),二、正态总体的抽样分布,
(一)样本平均数的分布从正态总体抽取的样本平均数的分布一般为N(,)。
图4.16给出样本容量n=1,4与9时的分布,从图中可以看出随着样本容量的增加,分布的集中程度增加了,说明方差减少了。
由中心极限定理知,只要样本容量适当大,不论总体分布形状如何,其的分布都可看作为正态分布,且具平均数和方差。
在实际应用上,如n30就可以应用这一定理。
平均数的标准化分布是将上述平均数转换为u变数。
(423),例4.9在江苏沛县调查336个m2小地老虎虫危害情况的结果,=4.73头,=2.63,试问样本容量n=30时,由于随机抽样得到样本平均数等于或小于4.37的概率为多少?
查附表2,P(u0.75)=0.2266,即概率为22.66%(属一尾概率)。
(二)两个独立样本平均数差数的分布,假定有两个正态总体各具有平均数和标准差为,和,从第一个总体随机抽取n1个观察值,同时独立地从第二个总体随时机抽取n2个观察值。
这样计算出样本平均数和标准差,s1和,s2。
从统计理论可以推导出其样本平均数的差数()的抽样分布,具有以下特性:
(1)如果两个总体各作正态分布,则其样本平均数差数()准确地遵循正态分布律,无论样本容量大或小,都有N(,)。
(2)两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即,(3)两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即其差数标准差为:
(424),这个分布也可标准化,获得u值。
(425),小结:
若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:
若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在n1和n2相当大时(大于30)才逐渐接近于正态分布。
若两个样本抽自于两个非正态总体,当n1和n2相当大、而与相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。
三、二项总体的抽样分布,
(一)二项总体的分布参数,其中p为二项总体中要研究的属性事件发生的概率,q=1p。
标准差:
方差:
平均数:
(二)样本平均数(成数)的抽样分布,从二项总体进行抽样得到样本,样本平均数抽样分布的参数为:
平均数:
方差:
标准误:
同样n是样本容量。
(三)样本总和数(次数)的抽样分布,从二项总体进行抽样得到样本,样本总和数的抽样分布参数为:
平均数:
方差:
标准误:
例4.9棉田危害棉株分为受害株与未受害株。
假定调查2000株作为一个总体,受害株为704株。
这是一个二项总体,于是计算出受害率p=35.2%=0.352,=0.4776或47.76%。
现从这一总体抽样,以株为单位,用简单随机抽样方法,调查200株棉株,获得74株受害,那么,观察受害率(就是成数,或者说是样本平均数)=37.0%,试问样本平均数与总体真值的差数的概率为多少?
总体真值p=0.352,差数=()=(0.3700.352)=0.018。
标准差=0.034或3.4%。
由于二项分布在np及nq大于5时,趋近于正态分布,本例样本较大可看为正态分布,采用正态离差u查出概率。
于是=0.53。
如果以次数资料(或称为“样本总和数资料”)表示也可得到同样结果。
总体调查2000株中受害株有704株,调查200株的理论次数应为np=2000.352=70.4株。
现观察受害株为74株(总和数),差数=(np)=7470.4=3.6株,=3.6/6.754=0.53,与上相同,获得这种差数的概率为0.59。
查附表3,当u=0.53,概率值为0.59,即获得这种|0.018的概率(两尾概率)为0.59,这就说明样本估计的受害率为37.0有代表性(可以近似代表总体的受害率)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 田间试验 统计 方法 第四 理论 分布 抽样