4抽样与统计推论.pptx
- 文档编号:30847798
- 上传时间:2024-02-07
- 格式:PPTX
- 页数:110
- 大小:4.58MB
4抽样与统计推论.pptx
《4抽样与统计推论.pptx》由会员分享,可在线阅读,更多相关《4抽样与统计推论.pptx(110页珍藏版)》请在冰豆网上搜索。
章目录章目录章目录章目录一一抽样分布抽样分布简介简介三三二项式分二项式分布布二二抽样分布抽样分布四四推论统计推论统计研究总体与从中抽取的样本之间的关系总体与从中抽取的样本之间的关系是统计学的中心内容。
对这种关系的研究可从两方面着手:
一是从从总体到样本总体到样本,这就是研究抽样分布的问题;二是从样本到总体从样本到总体,这就是统计推断问题。
总体与样本之间的关系抽样调查根据调查其抽取部分调查单位的准则不同可分非概率抽样和概率抽样。
1、非概率抽样:
抽取调查单位的原则是根据主观判断或其它操作的方便。
非概率抽样的优点:
成本低、花时短、回答率高缺点:
不能做统计推论。
非概率抽样的结果是否有代表性与主观本身的水平有很大关系。
一、非概率抽样和概率抽样:
2、概率抽样:
原则:
随机原则。
随机原则:
在抽选调查对象时,规定了一定的程序,以保证每一个单位都有同等入选的机会,从而避免了主观因素的影响。
优点:
可以作统计推论。
二、样本统计量在简单随机抽样中,样本具有随机性,样本的参数在简单随机抽样中,样本具有随机性,样本的参数在简单随机抽样中,样本具有随机性,样本的参数在简单随机抽样中,样本具有随机性,样本的参数,ss22等也会随着样本不同而不同,故它们是样本的函数,等也会随着样本不同而不同,故它们是样本的函数,等也会随着样本不同而不同,故它们是样本的函数,等也会随着样本不同而不同,故它们是样本的函数,记为记为记为记为TT(xx11,x,x22,x,xnn),称为样本统计量。
),称为样本统计量。
),称为样本统计量。
),称为样本统计量。
统计量的概率分布称为抽样分布(统计量的概率分布称为抽样分布(统计量的概率分布称为抽样分布(统计量的概率分布称为抽样分布(SampleSampledistributiondistribution)三、三种不同性质的分布
(一)
(一)总体分布总体分布(二
(二)样本分布样本分布(三)(三)抽样分布抽样分布1.总体中各元素的观察值所形成的分布2.分布通常是未知的3.可以假定它服从某种分布
(一)总体分布(populationdistribution)总体总体1.一个样本中各观察值的分布2.也称经验分布3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布
(二)样本分布(sampledistribution)样样本本1.样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2.随机变量是样本统计量样本统计量样本均值,样本比例,样本方差等3.结果来自容量相同容量相同的所有所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据(三)抽样分布(samplingdistribution)抽样分布的形成过程(samplingdistribution)总体总体计算样本统计计算样本统计量量如:
样本均值、如:
样本均值、比例、方差比例、方差样样本本抽样分布:
是根据“机率”的原则而成立的理论性分布,它可以表明:
由同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。
抽样分布抽样分布Samplingdistribution:
从已知总体中随机地抽取含量为n的样本,研究所得样本的各种统计量的概率分布即所谓的抽样分布(三)抽样分布一、样本平均数的抽样分布一、样本平均数的抽样分布
(一)原总体标准差已知时的样本平均数的分布
(一)原总体标准差已知时的样本平均数的分布11、原始总体与样本平均数抽样总体、原始总体与样本平均数抽样总体设有一个总体,总体平均数为,方差为2,总体中各变数为x,该总体称为原总体原总体。
现从这个总体中随机抽取含量为n的样本,样本平均数记为。
的期望值与总体均值相同,而方差缩小为总体方差的1/n一、样本均值的分布(一个正态总体中的抽样分布)总体服从正态分布N(m,2),样本均值的抽样分布仍为正态分布,即:
(一)原总体标准差已知时的样本平均数的分布
(一)原总体标准差已知时的样本平均数的分布样本平均数的抽样总体(样本平均数的抽样总体(,)样本平均数构成的总体称为样样本本平平均均数数的的抽抽样样总总体体,其平均数记为、方差记为。
抽样总体参数和原总体参数有以下关系:
例:
设某村有5户人家,以下是总体家庭人口的统计表.表1、某村家庭人口统计表则有:
总体均值=(4+5+6+7+8)/5=6人总体标准差=1.4总体方差=2现从总体(N=5)中,作样本容量n=2的简单随机抽样,它可能选出的样本有55=25种可能选出的全部简单随机样本续表经过整理,得出样本平均家庭人口数的抽样分布如下表平均家庭人口数的概率分布图平均家庭人口数的概率分布图样本的平均值仍等于总体平均值6。
样本的平均值=(4.01+4.52+8.01)/25=6可见样本的均值平均数等于总体均值。
2.样本均值的方差所有可能出现的样本均值的方差所有可能出现的样本均值的方差比较及结论:
比较及结论:
比较及结论:
比较及结论:
1.1.样本均值的均值样本均值的均值(数学期望数学期望)等于总体均值等于总体均值2.2.样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/1/nn设有均值u,方差的分布总体,如随机抽取所有可能容量为n的样本,则样本平均数的抽样分布将随着n的增大而渐渐接近于以下正态分布N=30为大样本n30=10SE=1kg例2,某学院1000名学生,其平均身高是168cm,标准差为22.5cm,现从学生中随机抽出100名,求其样本平均数大于1.70m的概率。
解:
已知n=100=22.5u=168SE=2.25即(168,22.5/10)P(x170)=pz(170-168)/2.25=p(z0.889)=0.5-(0.889)=0.5-0.313=0.186答:
样本平均数大于1.70m的概率为18.6%总体方差已知的均值抽样分布总结:
如果样本相当大,N30,不管原分布如何,抽样分布接近正态分布。
抽样分布的均值就是总体的均值。
抽样误差就是抽样均值的标准差。
如果N足够大,不知道总体的标准差时,可用样本的标准差作为总体的标准差。
均值的抽样分布接近正态分布,因此任何两值之间的样本均值次数所占比例可以知道。
(二二)原原总总体体标标准准差差未未知知时时的的样样本本平平均均数数的的抽抽样样分布分布tt分布(分布(tt-distribution-distribution)总体总体未知未知时,抽,抽样总体体SS估估计第一,T分布的几个重要概念从一个正态总体中抽取的样本统计量的分布样本平均数从一个正态总体中抽取的样本统计量的分布样本平均数和样本方差和样本方差S2是描述样本特征的两个最重要的统计量是描述样本特征的两个最重要的统计量如果原总体的平均数为如果原总体的平均数为,标准差为,标准差为,那么样本平均数,那么样本平均数抽样总体:
抽样总体:
平均数为:
平均数为:
标准差为:
标准差为:
为样本平均数抽样总体的标准误差简称为标准误,标为样本平均数抽样总体的标准误差简称为标准误,标准误表示平均数抽样误差的大小,反映样本平均数与准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散程度。
新总体平均数之间的离散程度。
经计算得出两个重要结论经计算得出两个重要结论抽样的样本平均数的平均数等于总体平均数抽样的样本平均数的平均数等于总体平均数,即即抽样的抽样平均数的标准差等于总体标准差除以抽样的抽样平均数的标准差等于总体标准差除以样本单位数的平方根。
即样本单位数的平方根。
即4.t-分布(不要求)分布(不要求)设有服从正态分布的随机变量设有服从正态分布的随机变量x,正正态分布的分布的标准化公式准化公式为:
对于总体方差对于总体方差2已知的总体,根据公式可以知道样本平均数已知的总体,根据公式可以知道样本平均数在某一区间内出现的概率,公式为:
在某一区间内出现的概率,公式为:
附:
附:
服从标准正态分布服从标准正态分布假如假如2未知,而且样本容量又比较小(未知,而且样本容量又比较小(n30)时:
)时:
标准化公式可变换为:
标准化公式可变换为:
它不再服从标准正态分布它不再服从标准正态分布T分布类似于正态分布,也是一种对称分布,它只有一个参数,就是自由度所谓自由度是指独立观测值的个数,应为计算标准差时所使用的n个观测值,受到平均数x的约束,这就等于有一个观测值不能独立取值,因此自由度为df=n-1服从具有服从具有n-1自由度自由度t-分布分布第二,一个重要的t统计量t分布由标准正态分布/2分布构成T分布的计算已列成表格分布的计算已列成表格,应用时可根据需要由应用时可根据需要由t值值,自由度查概率自由度查概率;也可以由概率也可以由概率,自由度查自由度查t值值.1、T分布的密度函数为:
分布的密度函数为:
2.t2.t分布曲线的特点分布曲线的特点t分布受自由度自由度的制约,每一个自由度都有一条t分布曲线。
t分布密度曲线以以tt00为中心,两边对称为中心,两边对称,且在t0时,分布密度函数取得最大值。
与标准正态分布曲线相比与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。
df越小这种趋势越明显。
df越大,t分布越趋近于标准正态分布。
当n30时,t分布与标准正态分布的区别很小。
3.t3.t分布概率分布函数分布概率分布函数2倍左尾概率2倍右尾概率两尾概率4.4.查查tt分布表(附表分布表(附表44)对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表4,即t分布表。
该表第一列为自由度df,表头为单尾概率值,而表尾为两两尾概率值尾概率值,表中数字即为临界t值。
例如,当df=15时,查附表4得两两尾尾概概率率等于0.05的临界t值为=2.131,其意义是其意义是:
P(-t-2.131)=P(2.131t+)=0.025;P(-t-2.131)+P(2.131t30时,时,t分布与标准正态分布的区别很小;分布与标准正态分布的区别很小;n100时,时,t分布基本与标准正态分布相同;分布基本与标准正态分布相同;n时,时,t分布与标准正态分布与标准正态分布完全一致分布完全一致1.总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比2.总体比例可表示为3.样本比例可表示为二、样本比例的抽样分布(一个正态总体中的抽样分布)
(一)比例(proportion)1.在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布2.一种理论概率分布3.当样本容量很大时,样本比例的抽样分布可用正态分布近似4.推断总体比例的理论基础
(二)样本比例的抽样分布1.样本比例的数学期望2.样本比例的方差重复抽样不重复抽样(三)样本比例的抽样分布的数学期望与方差二、样本比例的抽样分布(一个正态总体中的抽样分布)如果在样本容量为n的样本中,具有某一特征的个体数为X,则样本比例用表示:
可用估计总体比例当n充分大时,的分布可用正态分布逼近三、样本方差的分布(一个正态总体中的抽样分布)对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)2分布,即三、样本方差的抽样分布三、样本方差的抽样分布22分布分布设设有有一一平平均均数数为为、方方差差为为的的正正态态总总体体。
现现从从该该总总体体中中独独立立地地随随机机抽抽取取n个随机变量x1、x2、.xn,并求出其标准正态离差标准正态离差:
记这记这nn个相互独立的标准正态离差的平方和为:
个相互独立的标准正态离差的平方和为:
所设变量服从自由度为所设变量服从自由度为nn的的22分布,记为分布,记为若用样本平均数代替总体平均数若用样本平均数代替总体平均数,则随机变量,则随机变量服从自由度为n-1的2分布,记为查表(附表)查表(附表)例如查自由度为df=4,概率=0.05的值9.4889.488,其含意就是df=4时2大于9.488的概率为0.05,写作P(9.488)=0.05。
假定有两个正态总体,从第一个总体中随机抽取含量为n1的样本,并独立地从第二个样本中抽取含量为n2的样本。
求出,s1和,s2.研究和的分布情况。
一、概念一、概念二、标准差已知时,样本平均数的抽样分布二、标准差已知时,样本平均数的抽样分布两个样本均值之差的抽样分布1111总体总体12222总体总体2抽取简单随机样抽取简单随机样样本容量样本容量n1计算计算x1抽取简单随机样抽取简单随机样样本容量样本容量n2计算计算x2计算每一对样本计算每一对样本的的x1-x2所有可能样本所有可能样本的的x1-x211112222抽样分布抽样分布抽样分布抽样分布两个总体都为正态分布,即两个样本均值之差的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和两个样本均值之差的抽样分布(两个正态总体中抽样分布)三、标准差未知时,样本平均数的抽样分布三、标准差未知时,样本平均数的抽样分布1与2未知,但相相等等时,用两样本合并后的方差S代替:
上式分母为平均数差的标准误,记为。
n1与n2都等于n时,简化为:
四、两个样本方差比的抽样分布四、两个样本方差比的抽样分布从平均数和方差分别为(1,12)(2,22)的两个正态总体中,抽出含量分别为n1、n2的样本,并分别求出它们的样本方差s12和s22。
两个样本方差比的抽样分布(两个正态总体中抽样分布)两个2分布除以各自自由度再相比查查FF分布表分布表(附表(附表7P2637P263)直线内插法直线内插法(一个一个dfdf值没有值没有)自由度df1,df2下a的上侧临界值:
Fdf1,df2,a下侧临界值:
Fdf1,df2,1-a=1/Fdf2,df1,a1、贝努里试验指只有两个可能结果的随机试验。
在现实生活中许多随机现象只有两种结果,如,男-女;出现-不出现;合格-不合格等。
关注的结果-“成功”;另一结果“失败”2、n重贝努里试验如果试验在相同的条件下重复n次,并且每次的试验结果相互独立,则称n重贝努里试验大数定律(lawoflargenumbers)大数定律大数定律是一类描述当试验次数很大时所呈现的概率性质的定律。
有些随机事件无规律可循,但不少却是有规律的,这些“有规律的随机事件”,在大量重复出现的条件下,往往呈现几乎必然的统计特性,这个规律就是大数定律。
若m是n次独立观察中事件A出现的次数,那么当次数n趋无穷大时,事件A出现的次数m与n的比值(频率)趋向于真实比值(概率),即当n充分大时,P(A)=m/n大数定律(lawoflargenumbers)通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。
简单地说,大数定理就是“当试验次数足够多时,事件发生的频率无穷接近于该事件发生的概率”比如,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。
这种情况下,偶然中包含着必然。
必然的规律与特性在大量的样本中得以体现。
3、二点分布一次贝努里试验的概率分布;二项分布n次贝努里试验的概率分布;4、二点分布是二项分布的特殊情况5、二点分布:
变量的取值只有两类;代码:
0、1;分布列:
x01pqp6、二点分布的性质1)P(=0)0P(=1)02)P(=0)+P(=1)=q+p=13)二点分布的期望与方差E()=0q+1p=pD()=E
(2)(E)2=02q+12pp2=pp27、二分变量中取值0和1,只表示定类变量的编码,这种变量又称虚拟变量排列与组合排列与组合排列与组合排列与组合一、排列1、重复排列:
2、非重复排列:
3、全排列例:
任选5个数字,可组成多个编号?
30人的班级,任意安排2人担任正副班长,有多少种排法?
5种户型的住房,分给5人,有多少种分配方案?
二、组合:
例:
家庭成员共8人,问有多少对人际关系?
(2人形成一对人际关系,且与方向无关)二项分布一、二项分布1、与二点分布的区别将同样的实验或观察,独立的重复n次例:
连续投掷硬币四次2、推广:
3、二次分布的定义:
n次实验中事件A出现次数的概率分布。
简写为:
(n:
实验次数P:
A在每次实验中出现的概率)二项:
指研究的变量的取值只有两个值。
假定在总体中这两个值的个案数目相等,样本(一个个案)随机抽样,样本(两个个案)二项抽样分布可用多角线图来表示。
当样本数量n=5时,概率分布如下:
rrnn1122334455667788991010000.50000.25000.12500.06250.03130.01560.00780.00390.00200.0010110.50000.50000.37500.25000.15630.09380.05470.03130.01760.0098220.25000.37500.37500.31250.23440.16410.10940.07030.0439330.12500.25000.31250.31250.27340.21880.16410.1172440.06250.15630.23440.27340.27340.24610.2051550.03130.09380.16410.21880.24610.2461660.01560.05470.10940.16410.2051770.00780.03130.07030.1172880.00390.01760.0439990.00200.009810100.0010二项抽样分(N=样本大小r=成功数)注意:
从图中可看到,当p=Q=1/2的二项分布是对称的。
(从表中也可以看到这一点(从表中也可以看到这一点)只要p+Q=1,无论p、Q是何值,也存在相应的二项抽样分布特点。
P0.05Q0.95rrnn1122334455667788991010000.95000.90250.85740.81450.77380.73510.69830.66340.63020.5987110.05000.09500.13540.17150.20360.23210.25730.27930.29850.315122#NUM!
0.00250.00710.01350.02140.03050.04060.05150.06290.074633#NUM!
#NUM!
0.00010.00050.00110.00210.00360.00540.00770.010544#NUM!
#NUM!
#NUM!
0.00000.00000.00010.00020.00040.00060.001055#NUM!
#NUM!
#NUM!
#NUM!
0.00000.00000.00000.00000.00000.000166#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
0.00000.00000.00000.00000.000077#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
0.00000.00000.00000.000088#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
0.00000.00000.000099#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
0.00000.00001010#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
#NUM!
0.0000二、变量在某一取值区间的概率1)A至多出现m次的概率2)A至少出现m次的概率3)A出现次数不少于a不大于b的概率例:
教师中吸烟的比例为50%,随机抽查教师10人,求概率:
1、全不吸烟2、1人吸烟3、至少2人吸烟4、2-4人吸烟三、二项分布的数学期望5、二项分布的方差等于6、查表方法棣莫佛拉普拉斯中心极限定理棣莫佛拉普拉斯中心极限定理棣莫佛拉普拉斯(deMovire-Laplace)定理,即服从二项分布的随机变量序列的中心极限定理。
它指出,参数为n,p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。
例:
根据生命表,年龄为60岁的人,可望活到下年的概率P=0.95。
设某单位年龄为60岁的人共有10人,问:
(1)其中有9人活到下年的概率为多少
(2)至少有9人活到下年的概率为多少(3)至多有9人活到下年的概率为多少各个机率是可以相加的例如:
N=5时,得到4个或5个成功的机会;p(4、5)=p(4)+(5)=0.156+0.031=0.187得到两个或以下是成功的机会时:
p
(2)=p(0)+p
(1)+p
(2)=0.031+0.156+0.313=0.50总结:
1、P=Q=1/2,二项分布的图形是对称分布。
2、P、Q不等于1/2时,n值愈大,样本比例服从正态分布;当n30时,即为大样本,p也叫成数;样本成数的抽样分布将随着n的增大而渐渐接近于以下正态分布N(p,p(1-p)/n)总结:
3、样本成数的期望值=p样本成数的标准差=(成数可以看成是某种形式的均值)4、这些机率值在统计推论上具有重要意义。
例1,某地资料,女性能活到75岁的概率为0.45。
今随机抽取200名女性,问有半数以上活到75岁的概率是多少?
解:
P=0.45,n=200,np远大于5,所以样本服从正态分布.样本成数的标准差=0.035P(p10.5)=p(p1-p)/SE(0.5-0.45)/0.035=p(Z1.43)=0.5-(1.43)=0.076答:
有半数以上活到75岁概率是0.076.例2,某人事部门估计职员的潜在能力,认为能够向更高一级发展的人员占26%,现随机抽取100人,问有潜在能力的人员低于30人的概率是多少?
解:
P=0.26,n=100,P=30/100=0.3,np远大于5样本成数的标准差=(0.26*(1-0.26)/100))0.5=0.04386Z=(0.3-0.26)/0.04386=0.911922P(P10.3)=Z(0.3-0.26)/0.04386=P(Z0.91)=0.5+(0.91)=0.8159即有潜在能力的人员低于30人的概率是81.6%。
两个总体都服从二项分布。
分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似。
分布的数学期望为:
方差为各自的方差之和:
两个样本比例之差的抽样分布(两个正态总体中抽样分布)你不必吃完整一头牛,才知道它的你不必吃完整一头牛,才知道它的肉是咬不动的。
肉是咬不动的。
SamelJohnson统计推论:
统计推论:
就是根据样本资料,对总体特征进行推断。
特点:
特点:
1、局部资料的特性在某种程度上能反映总体特征2、抽样结果不能恰好等于总体的结果内容:
内容:
1、通过样本对总体的未知参数进行估计(参数估计)2、通过样本对总体的某种假设进行检验(假设检验)理论基础概率论之中心极限定理定理1:
不论总体X为何种分布,只要总体均值和方差2存在,当随机样本容量n充分大时,样本均值X就会近似服从以为均值、2/n为方差的正态分布。
理论基础概率论之中心极限定理定理2:
如果总体服从以为均值、2为方差的正态分布,并且总体方差2已知,那么样本统计量X服从以为均值、2/n为方差的正态分布。
理论基础概率论之中心极限定理定理3:
如果总体服从以为均值、2为方差的正态分布,并且总体方差2未知,那么样本统计量X,S分别为样本的均值和标准差,样本容量为n,则统计量服从自由度为n-1的t分布。
本章结束
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 统计 推论