第5章__抽样推断.pptx
- 文档编号:30840932
- 上传时间:2024-01-31
- 格式:PPTX
- 页数:80
- 大小:1.06MB
第5章__抽样推断.pptx
《第5章__抽样推断.pptx》由会员分享,可在线阅读,更多相关《第5章__抽样推断.pptx(80页珍藏版)》请在冰豆网上搜索。
第五章抽样推断,教学目的与要求,抽样推断是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。
通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。
抽样推断的意义和作用抽样误差抽样估计的方法抽样的组织设计,本章学习以下主要内容,一、抽样推断的概念和特点,概念,抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。
特点,按随机原则抽选调查单位。
由部分推断总体,使其成为可能并具有一定的可靠性,抽样推断运用概率估计的方法。
抽样推断的误差可以事先计算并加以控制。
第一节抽样推断的意义和作用,二、抽样推断的作用,三、有关抽样的基本概念,
(一)总体和样本,总体,也称全及总体。
指所要认识的研究对象全体。
总体单位总数用“N”表示。
样本,又称子样。
是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。
样本单位总数用“n”表示。
1、有些客观现象需要了解全面情况,2、可以补充、核对全面调查的结果,3、用于工业生产过程的质量控制,4、时间经费限制导致的抽样调查,
(二)总体指标与样本指标,总体指标,研究总体中的数量标志,总体平均数,总体方差,研究总体中的品质标志,总体成数,成数方差,样本指标,研究数量标志,样本平均数,样本标准差,研究品质标质,成数标准差,样本成数,(三)样本容量和样本个数,样本容量:
一个样本包含的单位数。
用“n”表示。
一般要求n30,样本个数:
从一个全及总体中可能抽取的样本数目。
(四)重复抽样和不重复抽样,重复抽样:
又称回置抽样。
可能组成的样本数目,可能组成的样本数目,不考虑顺序,考虑顺序,标号为A、B、C、D的四个圆球从中随机抽取两个,考虑顺序,AA、AB、AC、ADBA、BB、BC、BDCA、CB、CC、CDDA、DB、DC、DD,可能样本个数,不考虑顺序,AA、AC、BA、BB、BDCB、CC、DA、DC、DD,考虑顺序,重复,不重复,AB、AC、ADBA、BC、BDCA、CB、CDDA、DB、DC,不考虑顺序,AB、AC、ADBD、CB、DC,第二节抽样误差,一、抽样误差的含义,由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。
抽样误差大小表明抽样结果的好坏。
二、抽样误差产生的原因,1、登记、汇总或计算产生的误差,2、未遵循随机抽取的原则产生的误差,3、抽样调查固有的误差,三、抽样平均误差,1、概念:
抽样平均误差是抽样平均数或抽样成数的标准差。
反映了抽样平均数与总体平均数抽样成数与总体成数的平均误差程度。
2、计算方法:
抽样平均数的平均误差,抽样成数平均误差,实例分析:
设有四个工人工资分别为40、50、70、80元,现在随机从其中抽取2人,并求平均工资,用以代表4人总体的平均工资水平,如果采用重复抽样,则所有可能样本以及平均工资如下表:
四个工人工资分别为40、50、70、80元,所以,抽样平均数平均误差的计算公式:
采用重复抽样,此公式说明,抽样平均误差与总体标准差成正比,与样本容量成反比。
(当总体标准差未知时,可用样本标准差代替),通过例题可说明以下几点:
样本平均数的平均数等于总体平均数。
抽样平均数的标准差仅为总体标准差的,可通过调整样本单位数来控制抽样平均误差。
例题:
假定抽样单位数增加2倍、0.5倍时,抽样平均误差怎样变化?
解:
抽样单位数增加2倍,即为原来的3倍,则:
抽样单位数增加0.5倍,即为原来的1.5倍,则:
即:
当样本单位数增加2倍时,抽样平均误差为原来的0.577。
即:
当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165。
数理统计证明采用不重复抽样误差公式:
公式表明:
抽样平均误差不仅与总体变异程度、样本容量有关,而且与总体单位数的多少有关。
例题一:
随机抽选某校学生100人,调查他们的体重。
得到他们的平均体重为58公斤,标准差为10公斤。
问抽样推断的平均误差是多少?
例题二:
某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?
例题一解,即:
当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。
例题二解,计算结果表明:
根据部分产品推断全部产品的平均使用寿命时,采用不重复抽样比重复抽样的平均误差要小。
已知:
则:
已知:
则:
抽样成数平均误差的计算公式,采用重复抽样:
采用不重复抽样:
例题三:
某校随机抽选400名学生,发现戴眼镜的学生有80人。
根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?
例题四:
一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?
例题三解,已知:
则:
样本成数,即:
根据样本资料推断全部学生中戴眼镜的学生所占的比重时,推断的平均误差为2%。
例题,已知:
则:
样本合格率,计算结果表明:
不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。
抽样误差的影响因素,
(1)总体各单位标志变异程度。
(2)样本容量的大小。
(3)抽样方法。
(4)抽样的组织形式。
四、抽样极限误差,含义:
抽样极限误差指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。
计算方法:
它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。
抽样平均数极限误差:
抽样成数极限误差:
五、抽样误差的可靠程度,抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。
因为既然抽样误差是一个随机变量,就不能期望抽样平均数(成数)落在一定区间内是一个必然事件,而只是给予一定的概率保证而已所以我们在进行抽样估计时,不但要考虑抽样误差的可能范围有多大而且还必须考虑落到这一范围的概率有多少,前者是估计的精确度问题,后者是估计的可靠性问题,两者密不可分。
根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:
=t,(t为概率度),t:
反映的是极限误差的相对程度,是确定概率保证程度大小的指标。
给定t值,就可以通过查正太分布函数的概率分布表,查到相应的概率F(t),当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);,可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。
为了说明这个关系,我们举一个实例来说明:
设有五位射击选手,他们的得分各为2、4、6、8、10分,很显然总平均成绩为。
现在随机选两名选手的平均成绩来估计总平均成绩水平。
假如采用不重复取样,(不考虑顺序),样本分布为:
各样本平均数的分布频率:
根据上列概率分布,可以求出各区间抽样平均数的概率:
上式说明抽样极限误差的概率,例如极限误差为1,即总体平均数落5至7在之间的概率为0.6,极限误差为2的概率为0.8等等。
这说明抽样极限误差一定是与概率的可靠程度联系在一起的。
要确定抽样平均数(成数)落在一定区间的概率,必须研究抽样平均数(成数)的分布规律。
由于N=5n=2,极限误差用抽样平均误差来表示,由不重复抽样的基本公式得:
由正态分布理论,介绍两个重要定理:
定理一:
可以看出前面的值越大,可靠程度,即概率越高(通过正态分布表可以得到各个极限误差的概率保证程度),当总体为正态分布N(),则从这个总体抽取容量为n的的全部样本平均数也服从于正态分布,其平均数,其标准差为,定理二:
如果变量X的分布具有有限的平均数和标准差,则从这个总体抽取容量为n的全部样本,其平均数的分布随着n的增大而趋近于平均数为,标准差为的正态分布。
定理2并不要求总体分布是正态的,甚至可以是不知道的,只要样本的容量增大,抽样平均数就趋于正态分布。
这和定理1限制总体分布为正态,而样本容量n不作限制的情况是不同的。
(三)误差范围愈大,抽样估计的置信度愈高,但抽样估计的精确度愈低;反之,误差范围愈小,则抽样估计的置信度愈低,但抽样估计的精确度愈高。
常用的几个概率保证程度与对应的概率度,落在总体均值某一区间内的样本,第三节抽样估计方法,
(一)点估计,例,优良估计的标准,
(1)无偏性。
以抽样指标估计总体指标要求抽样指标平均数等于被估计的总体指标值本身。
(2)一致性。
样本单位数充分大时,抽样指标充分接近总体指标。
(3)有效性。
选取的样本抽样指标的方差应该比其他估计量的方差小。
点估计的特点:
简单。
但没有标明抽样估计的误差,也没有指出误差在一定范围内的概率保证程度。
(二)区间估计,是根据样本指标和抽样误差去推断全及指标的可能范围,并能反映出估计的准确程度和把握程度。
由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。
就是说,推断全及指标在这个范围内只有一定的把握程度。
用数学的语言讲,就是有一定的概率。
例1,某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。
试以概率95.45%保证,估计该农场10000亩小麦平均亩产量的可能范围。
若概率保证程度不变,要求抽样允许误差不超过1斤,问至少应抽多少亩作为样本?
问题二解:
已知:
则样本单位数:
即:
当,至少应抽544.6亩作为样本。
例2,某机械厂日产某种产品8000件,现采用纯随机重复抽样方式,从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。
例3:
为调查农民生活状况,在某地区5000户农民中,按不重复简单随机抽样法,抽取400户进行调查,得知这400户中拥有彩色电视机的农户为87户。
要求计算:
1、以95%的把握程度估计该地区全部农户中拥有彩色电视机的农户在多大比例之间?
2、若要求抽样允许误差不超过0.02,其它条件不变,问应抽多少户作为样本?
例题三的问题一解:
已知:
N=5000,N=400,1、计算样本成数:
2、计算抽样平均误差:
即:
以95%的把握程度估计该地区农户中拥有彩电的农户在17.87%至25.63%之间。
4、计算总体P的置信区间:
下限:
上限:
3、计算抽样极限误差:
例题三的问题二解:
当,其他条件不变时:
=1635(户),总结:
区间估计的步骤,1、确定样本指标。
2、根据给定的概率保证程度F(t)找出对应的概率度t。
3、计算抽样极限误差,然后根据样本指标求出估计总体指标的上下限。
4、根据给出的概率保证程度进行总体指标的区间估计。
本节练习,一判断题1、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。
(),2、在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。
()3、抽样成数的特点是:
样本成数越大,则抽样平均误差越大。
(),4、抽样平均误差总是小于抽样极限误差。
()5、在其它条件不变的情况下,提高抽样估计的可靠程度,则降低了抽样估计的精确程度。
()6、从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。
()7、抽样平均误差反映抽样误差的一般水平,每次抽样的误差可能大于抽样平均误差,也可能小于抽样平均误差。
(),8、在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大于抽样平均误差。
()9、抽样估计的优良标准有三个:
无偏性、可靠性和一致性。
()10、样本单位数的多少与总体各单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比。
()11、抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。
()12、用来测量估计可靠程度的指标是抽样误差的概率度。
(),二单项选择题部分1、抽样调查所必须遵循的基本原则是(B)。
A、准确性原则B、随机性原则C、可靠性原则D、灵活性原则2、在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/2时,则样本单位数为原来的(C)。
A、2倍B、3倍C、4倍D、1/4倍,3、在一定的抽样平均误差条件下(A)。
A、扩大极限误差范围,可以提高推断的可靠程度B、扩大极限误差范围,会降低推断的可靠程度C、缩小极限误差范围,可以提高推断的可靠程度D、缩小极限误差范围,不改变推断的可靠程度4、反映样本指标与总体指标之间的平均误差程度的指标是(C)。
A、平均数离差B、概率度C、抽样平均误差D、抽样极限误差,5、以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身,这一标准称为(A)。
A、无偏性B、一致性C、有效性D、准确性6、在其它条件不变的情况下,提高估计的概率保证程度,其估计的精确程度(B)。
A、随之扩大B、随之缩小C、保持不变D、无法确定,7、抽样极限误差和抽样平均误差的数值之间的关系为(A)。
A、抽样极限误差可以大于或小于抽样平均误差B、抽样极限误差一定大于抽样平均误差C、抽样极限误差一定小于抽样平均误差D、抽样极限误差一定等于抽样平均误差,三计算题部分1、对一批成品按重复抽样方法抽选100件,其中废品4件,当概率为95.45%(t=2)时,可否认为这批产品的废品率不超过6%?
第四节抽样的组织形式,1、简单随机抽样(纯随机抽样)2、类型抽样(分类抽样)3、机械抽样(等距抽样4、整群抽样(分群抽样),简单随机抽样(纯随机抽样),1、内容:
对总体中所有单位除编号外不加任何处理,完全随机地抽取调查单位。
2、随机抽取样本的具体做法:
(1)直接抽取法;
(2)抽签法;(3)随机数字表法。
前面讨论的平均误差、极限误差、点估计、区间估计都是针对简单随即抽样而言的。
3、特点:
(1)是最基本的抽样方式;,
(2)简便易行;,(3)适用于总体单位数不太多的均匀总体。
(四个公式),4、抽样平均误差的计算,5、总体指标的区间估计,(两个不等式),
(二)必要抽样数目的计算(简单随机抽样),建筑工地打土方工人4000人,需测定平均每人工作量,要求误差范围不超过0.2M3,并需有99.73%保证程度。
根据过去资料为1.5M3、1.36M3和1.48M3,求样本数应是多少?
如果误差范围缩小一半,其他条件不变,样本数又应是多少?
例1,当样本出现不等方差,尽量选择方差比较大的样本,因为样本的变异程度较大,选取的样本单位数量自然要多些,这样用样本指标来推断总体指标结果更准确。
某笔厂月产10000支金笔,抽样调查,一等品率为90%、92%、96%和94%,现在要求误差范围在2%之内,可靠程度达95.45%,问必须抽取多少单位数?
例2,影响样本容量的因素,1、总体各单位标志变异程度变异程度大,样本就要多抽些。
2、极限误差的大小误差越大,样本容量越小;反之,允许的极限误差小,样本容量就越大。
3、可靠程度F(t)的大小F越大,样本容量就越大。
4、抽样方法重复抽样比不重复抽样要多抽一些样本单位。
注意的问题,1、用公式估计样本容量,尽量选择大的。
2、利用过去的资料,选方差较大的,成数方差缺乏的情况下用极大值0.25代替。
3、样本容量不采取四舍五入,取其相邻的较大整数值。
(二)类型抽样(分类抽样),1、内容:
先对总体各单位按一定标志加以分类(组),然后再从各类(组)中按随机原则抽取样本。
2、样本分配形式:
(1)等比例抽样;,
(2)不等比例抽样。
(3)抽样调查成本较低。
3、特点:
(1)先分组,后抽样;,
(2)样本代表性高、抽样误差较小;,4、抽样平均误差的计算:
(1)重复抽样:
(2)不重复抽样:
或各组组内方差的平均数,某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷。
现用类型等比例抽样调查1200公顷,平均单位面积产量15000千克,高产田面积比重79%。
资料如下表。
试以68.27%概率保证估计该农场小麦单位面积产量的区间。
以同样概率保证估计该农场小麦高产田面积比重的区间。
例,某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷。
现用类型等比例抽样调查1200公顷,平均单位面积产量15000千克,高产田面积比重79%。
资料如下表。
试以68.27%概率保证估计该农场小麦单位面积产量的区间。
以同样概率保证估计该农场小麦高产田面积比重的区间。
例,(三)机械抽样(等距抽样),先将全及总体的所有单位按某一标志顺序排队,然后按固定的间隔抽取样本。
1、内容:
(1)无关标志:
选择标志与抽样调查内容无关。
(2)有关标志:
选择标志与抽样调查内容有关。
随机起点等距抽样,3、特点:
(1)先排队,后抽样;按无关标志排队,相当于简单随机抽样,按有关标志排队,相当于类型抽样。
(2)注意避免抽样间隔与现象本身的周期重合。
(四)整群抽样(分群抽样),先将总体分成若干群,再以群为单位从总体中抽取样本群,对抽中的群内所有单位都进行观察。
2、特点:
(2)影响抽样误差的总体方差是总体群与群之间的群间方差,群内方差不影响。
(3)一般采用不重复抽样的方法。
(1)抽取的是群,不是总体单位,总体群用R表示,样本用r表示;,1、内容:
3、抽样平均误差的计算(不重复抽样):
把某企业大量生产的一种零件分成288群,现从中抽取24群产品进行检验,用以检查产品的合格率,检查结果如下表。
试以99.73%的概率保证估计全部零件合格率的区间。
例,例,例,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- _ 抽样 推断