抽样调查的基本概念与理论依据.pptx
- 文档编号:30846377
- 上传时间:2024-02-03
- 格式:PPTX
- 页数:57
- 大小:412.32KB
抽样调查的基本概念与理论依据.pptx
《抽样调查的基本概念与理论依据.pptx》由会员分享,可在线阅读,更多相关《抽样调查的基本概念与理论依据.pptx(57页珍藏版)》请在冰豆网上搜索。
第六章抽样调查1抽样调查的意义2抽样调查的基本概念和理论依据3抽样平均误差4抽样推断5必要抽样单位数的确定1、抽样调查的意义一、抽样调查的概念、特点
(一)、概念:
抽样调查是按照随机原则随机原则从全部研究对象中抽取一部分单位进行观察,并依据所获得的数据对全部研究对象的数量特征数量特征做出具有一定可靠性可靠性的估计判断,从而达到对全部研究对象的认识的一种统计方法。
(二)、抽样调查的基本特点:
根据部分实际资料对全部总体的数量特征做出估计。
按随机的原则从全部总体中抽取样本单位。
抽样推断的抽样误差可以事先计算并且加以控制。
二、抽样调查的作用:
对某些不可能进行全面调查而又要了解其全面情况的社会经济现象,必须应用抽样调查。
对某些社会经济现象虽然可以进行全面调查,但抽样调查可以节约时间、费用,提高调查的时效性。
抽样调查和全面调查同时进行,可以发挥相互补充和检查质量的作用。
抽样调查可以用于工业生产过程的质量控制。
利用抽样调查原理,还可以对某种总体的假设进行检验,来判断这种假设的真伪,以决定行动的取舍。
2、抽样调查的基本概念及理论依据一、总体与样本
(一)、总体与总体指标总体:
总体:
是根据研究目的确定的所要研究的同类事物的全体。
总体单位数称为总体容量,一般用N表示。
总体指标:
总体指标:
用来反映总体数量特征的指标。
(二)、样本与样本指标样本:
样本:
从总体中抽取的部分总体单位所构成的整体。
样本所包含的总体单位个数称为样本容量,一般用n表示。
在实际工作中,人们通常把n30的样本称为大样本,而把n30的样本称为小样本。
样本指标:
样本指标:
是根据样本资料计算的、用于估计和推断相应总体指标的综合指标。
()()211iPPXFFXXFFXXFFNXPNPPssS=SSSS-=S=总体指标:
或()211ippxffxxffxxfsfnxpnsppS=SSSS-=S=-样本指标:
或()二、概率抽样与非概率抽样概率抽样:
也叫随机抽样,是指按照随机原则抽取样本。
概率抽样最基本的组织方式有:
简单随机抽样、分层抽样、等距抽样和整群抽样。
非概率抽样:
也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。
重点调查、典型调查、配额调查等属于非随机抽样。
(但由于非随机抽样的效果取决于调查者的经验、主观判断和专业知识,故难免掺杂调查者的主观偏见,出现因人而异的结果,且容易产生倾向性误差;此外,非随机抽样不能计算和控制其抽样误差,无法说明调查结果的可靠程度。
)随机原则:
就是排除主观意愿的干扰,使总体的每个单位都有一定随机原则:
就是排除主观意愿的干扰,使总体的每个单位都有一定的概率被抽选为样本单位,每个总体单位能否选入样本是随机的。
的概率被抽选为样本单位,每个总体单位能否选入样本是随机的。
三、抽样框:
是包括全部抽样单位的名单框架。
编制抽样框是实施抽样的基础。
抽样框的好坏通常会直接影响到抽样的随机性和调查的效果。
抽样框的主要形式有三种:
1、名单抽样框:
即列出全部总体单位的名录一览表,如职工名单、企业名单等。
2、区域抽样框:
即按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。
3、时间表抽样框:
即将总体全部单位按时间顺序排列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。
四、抽样误差:
误差登记性误差代表性误差系统性误差随机性误差登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。
任何一种统计调查都可能产生登记性误差。
代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。
系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统偏低或偏高。
随机性误差又称偶然性误差,是指遵循随机原则抽样,由于随机因素(偶然性因素)引起的误差。
抽样估计中的所谓抽样误差,就是指的这种随机误差。
五、抽样方法和样本可能数目样本的可能数目既和样本的容量有关,也和抽样的方法有关。
根据取样方式的不同,抽样方法有重复抽样和不重复抽样两种。
1、重复抽样:
是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。
2、不重复抽样:
是指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。
重复抽样与不重复抽样的区别:
重复抽样:
同一总体单位有可能被重复抽中;每个总体单位在每次抽样中被抽中的概率都是相同的。
抽样误差较大。
不重复抽样:
同一总体单位不可能被重复抽中;由于每次抽取是在不同数目的总体单位中进行,每个总体单位在各次抽样中被抽中的概率不相等。
抽样误差较小。
根据对样本的要求不同,抽样方法又有考虑顺序抽样和不考虑顺序抽样两种:
1、考虑顺序的抽样:
即从总体N中抽取n个单位构成样本,不但要考虑样本各单位的不同性质,而且还考虑不同性质各单位的中选顺序。
相同构成成分的单位,由于顺序不同,也作为不同样本。
2、不考虑顺序的抽样:
即从总体N个单位抽取n个单位构成样本。
只考虑样本各单位的组成成分如何,而不考虑单位的抽样顺序。
如果样本的成分相同,不论顺序有多大不同,都作为一种样本。
以上抽样方法的两种分类还存在交叉情况,即有:
考虑顺序的不重复抽样数目考虑顺序的重复抽样数目不考虑顺序的不重复抽样数目不考虑顺序的重复抽样数目()!
nNNANn=-nnNBN=()!
nNNCnNn=-1nnNNnDC+-=例如:
从4个(N)职工中抽取其中的2个(n)进行调查。
考虑顺序的重复抽样数目不考虑顺序的不重复抽样数目2416()nnNBN=个()()!
4!
43216()!
2!
42!
22nNNCnNn创=-个A=40、B=50、C=70、D=80考虑顺序的重复组合:
AABACADAABBBCBDBACBCCCDCADBDCDDD不考虑顺序的不重复抽样数目ABBCCDACBDAD六、抽样调查的理论基础大数法则:
大数法则:
关于大量的随机现象具有稳定性质的法则。
中心极限定理:
中心极限定理:
如果总体变量存在有限的平均数和方差,那么不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋近于正态分布。
(一)、大数法则的意义可以归纳为:
现象的某种总体规律只有当具有这些现象足够多数的单位汇总综合在一起的时候,才能显示出来。
因此只有从大量现象的总体中,才能研究这些现象的规律性。
现象的总体性规律,通常是以平均数的形式表现出来。
所研究的现象总体包含的单位愈多,平均数也就越能够正确地反映出这些现象的规律性。
各单位的共同倾向(这些表现为主要的、基本的因素)决定着平均数的水平;而单位对平均数的离差(这些表现为次要的、偶然的因素)则由于足够多数单位的汇总综合的结果,而相互抵消,趋于消失。
联系到抽样推断来看,大数法则证明:
如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数n,可以几乎趋近于1的概率,来期望抽样平均数与总体平均数的绝对离差为任意小,即对于任意的正数有:
随着抽样单位数n的增加,抽样平均数x有接近总体平均数X的趋势。
()lim1inPxXa-=
(二)、大数法则未解决的问题:
抽样平均数与总体平均数的离差究竟有多大?
离差不超过一定范围的概率究竟有多少?
这个离差的分布怎样?
要解决这些问题,就要依靠中心极限定理。
要解决这些问题,就要依靠中心极限定理。
在现实生活中,一个随机变量服从于正态分布未必很多,但多个随机变量和的分布趋近于正态分布则普遍存在的。
抽样平均数也是一种随机变量和的分布,因此在抽样单位数n充分大的条件下,抽样平均数也趋近于正态分布,这为抽样误差的概率估计提供了一个极为有效而且方便的条件。
3抽样平均误差一、抽样实际误差:
二、抽样平均误差:
是抽样平均数(或抽样成数)的标准差。
它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。
xX-()2ixxXmS-=样本可能数目三、抽样估计的一般原理
(一)、抽样估计的特点:
抽样估计是在逻辑上运用归纳推理而不是运用演绎推理。
抽样估计是在方法上运用不确定的概率估计法而不是确定的数学分析法。
抽样估计的估计结论存在着一定的抽样误差。
(二)、抽样估计的优良标准无偏性:
用抽样指标估计总体指标要求抽样指标的平均数等于被估计的总体指标。
一致性:
随着样本的单位数n的无限增大,抽样指标和未知的总体指标之间的绝对离差为任意小的可能性也趋于必然性。
有效性:
用抽样指标估计总体要求作为优良估计量的方差应该比其它估计量的方差小。
()ExX=()()()lim1lim1nnPxExPxXaa-=-=举例说明抽样平均误差的意义:
设有4个工人,各人的工资水平分别是40、50、70、80元,现采用重复抽样方法随机从中抽取2人。
序号样本变量(x)样本平均数平均数离差离差平方1(A、A)40、4040-204002(A、B)40、5045-152253(A、C)40、7055-5254(A、D)40、8060005(B、A)50、4045-152256(B、B)50、5050-101007(B、C)50、7060008(B、D)50、80655259(C、A)70、4055-52510(C、B)70、50600011(C、C)70、70701010012(C、D)70、80751522513(D、A)80、40600014(D、B)80、506552515(D、C)80、70751522516(D、D)80、808020400合计9602000ix元)(604)80705040(X()()()22:
9606016:
20001611.18:
240604:
100015.81()4ixExxXXXNXXNmsS=S-=S=S-=样本平均数的平均数样本可能数目(元)抽样平均误差样本可能数目(元)总体平均数(元)总体标准差元举例说明抽样平均误差的意义:
设有4个工人,各人的工资水平分别是40、50、70、80元,现采用不重复抽样方法随机从中抽取2人。
序号样本变量(x)样本平均数平均数离差离差平方1(A、B)40、5045-152252(A、C)40、7055-5253(A、D)40、8060004(B、A)50、4045-152255(B、C)50、7060006(B、D)50、80655257(C、A)70、4055-5258(C、B)70、5060009(C、D)70、80751522510(D、A)80、40600011(D、B)80、506552512(D、C)80、707515225合计7201000ix元)(604)80705040(X()()()22:
7206012:
1000129.13:
240604:
100015.81()4ixExxXXXNXXNmsS=S-=S=S-=样本平均数的平均数样本可能数目(元)抽样平均误差样本可能数目(元)总体平均数(元)总体标准差元四、抽样平均误差的计算公式:
变量总体属性总体当N很大时,重复抽样与不重复抽样的差别不大!
21xpnnppnssmm=-=重复抽样:
()2111xpnnNppnnNsmm骣=-琪桫-骣=-琪桫不重复抽样:
()2215.8111.18()2115.81219.13()24nnnNsmsm=骣=-琪桫骣=-=琪桫重复抽样:
元不重复抽样:
元五、影响抽样误差大小的因素是:
总体被研究标志的变异程度。
在其他条件不变的情况下,总体标志的变异程度愈小,则抽样误差也愈小;总体标志的变异程度愈大,则抽样误差也愈大。
抽样单位数的多少。
在其他条件不变的情况下,抽样单位数愈多,抽样误差愈小;抽样单位数愈少,抽样误差愈大。
抽样的方法。
在其他条件不变的情况下,重复抽样的抽样误差大于不重复抽样。
抽样的组织形式。
抽样误差的大小与样本单位数的平方根成反比:
如果抽样误差要减少二分之一,则样本单位数必须增大到4倍。
例:
某电子元件厂生产A型号的电子管,现从10000件产品中,抽取100件进行检验,结果是60件合格。
计算合格品率的抽样平均误差。
16060%10010.6(10.6)1004.90%
(1)
(1)0.6(10.6)100
(1)100100004.87%ppnpnppnpPnnNmm=-=-=-=-=根据已知条件:
在重复抽样的情况下:
()在不重复抽样的情况下:
六、抽样极限误差:
是抽样指标和总体指标之间抽样误差的可能范围。
xpxxppxxppxXpPXxXPpPxXxpPpD=-D=-D+D-D+D-D+D-D+D将上式等价转换为下列不等式:
因为,总体指标是未知,上述不等式应该转换为:
例1、要估计一批优良水稻品种种子的平均千粒重,现在随机从该批种子抽取1市斤,计数12500粒,折合平均每千粒重x=40克,如果确定极限误差范围为8克,这就要求该批种子的平均千粒重落在408克,即在32克到48克之间。
例2、要估计某农作物幼苗的成活率,从播种这一品种的秧苗地中随机抽取秧苗1000株,其中死苗80株,则秧苗成活率p=1(801000)=92%。
如果确定极限误差范围为5%,这就要求该农作物成活率p落在92%5%,即在87%至97%之间。
基于理论上的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量,把极限误差除以抽样平均误差,得出相对数tt,表示极限误差范围为抽样平均误差的若干倍。
tt称为概率度。
这一变换称为概率的标准化过程。
xxxxppppttttmmmmD=D=D=D=或或例1、已知种子平均每千粒重量的抽样平均误差为4克,那么就以概率度t=84=2来表示误差的可能范围。
即以来规定误差范围的大小。
这时就要求该批种子的平均千粒重落在克之间。
例2、已知幼苗成活率的抽样平均误差为3%,那么就以概率度t=5%3%=1.67来表示误差的可能范围,即以来规定误差范围的大小,这时就要求该农作物的成活率p落在之间。
2xm402xm1.67pm92%1.67pm抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。
因为既然抽样误差是一个随机变量,就不要期望抽样平均数(成数)落在一定区间是一个必然事件,而只是给予一定的概率保证而已。
所以在进行抽样估计时,不但要考虑抽样误差的可能范围有多大,而且还必须考虑落在这一范围的概率有多大。
前者是估计的准确度问题,后者是估计的可靠性问题,两者密不可分。
常用的tt值及所对应概率的关系:
概率度(t)概率F(t)168.27%295.45%399.73%012312368.37%95.45%99.73%4、全及指标的推断用抽样指标来估计总体指标有三项要素:
一是:
估计值;二是:
估计值的误差范围;三是:
概率保证程度。
一、估计的方法有两种:
点估计与区间估计点估计:
也称定值估计,即以实际抽样资料得到的抽样指标值作为总体指标的估计值。
区间估计:
根据估计可靠程度的要求,选定概率度,以及极限误差,再利用抽样调查取得的抽样平均数,定出估计的上、下限。
区间称为置信区间,估计可靠程度称为置信度。
二、举例说明估计的两种方法:
(一)、总体平均数的估计对一批电子元件进行耐用性能的检查,随机重置抽样方法选取100件作耐用测试,所得结果的分组资料如下:
耐用时数(小时)组中值(x)件数(f)900以下87519009509252950100097561000105010253510501100107543110011501125911501200117531200以上12251合计100要求:
在95%的可靠程度下对该批电子元件的平均耐用时数作出估计。
概率保证程度为95%,查概率表得t值为1.96。
22287519252122511055.5100(8751055.5)1(12251055.5)110051.91()51.915.19()1001.965.1910.17xxfxfxxfsfsntmmS鬃=SS-=S-鬃-=D=(小时)()小时小时(小时)1、定值估计:
这批电子元件的平均耐用时间为1055.5小时,误差不超过10.17小时的可靠程度为95%。
或:
这批电子元件的平均耐用时间为1055.5小时精确度为99%,可靠度为95%。
2、区间估计:
估计区间的下限:
1055.510.17=1045.33小时估计区间的上限:
1055.510.17=1065.67小时所以,这批电子元件的平均耐用时数在1045.33小时至1065.67小时之间,可靠程度为95%。
%995.105517.101
(二)、总体成数的估计:
以上例的资料,设电子元件的耐用时间在1000小时及以上为合格品,以95.45%的概率估计该批电子元件的合格率。
19191%10010.91(10.91)2.86%10095.45%222.86%5.72%pppnpnppnttmm=-=-=D=抽样合格品率:
抽样平均误差:
()概率保证程度为的概率度1、定值估计:
这批电子元件的合格品率为91%,误差不超过5.72%的可靠程度为95.45%。
或:
这批电子元件的合格品率为91%,精确度为93.7%,可靠程度为95.45%2、区间估计:
估计的下限:
91%5.72%=85.28%估计的上限:
91%5.72%=96.72%所以,这批电子元件的合格品率在85.28%至96.72%之间,可靠程度为95.45%。
%7.93%91%72.515、必要抽样单位数的确定一、抽样设计必须掌握两个基本原则:
(一)、保证实现抽样的随机性原则
(二)、保证实现最大的抽样效果原则,即在一定的调查费用条件下,选取抽样误差最小的方案;或在给定精确度的要求下,做到调查费用最少。
二、抽样调查的几种常用形式简单随机抽样类型抽样等距抽样整群抽样多阶段抽样
(一)、简单随机抽样:
它是按随机原则直接从总体N个单位中抽取n个单位作为样本。
是抽样中最基本也是最单纯的方式,它适用于均匀总体。
重置抽样不重置抽样2
(1)xxnnnNsmsm=-)()(:
,抽样成数的单位数为在不重置抽样的条件下)(抽样成数的单位数为:
在重置抽样的条件下,是:
,抽样平均数的单位数在不重置抽样的条件下:
抽样平均数的单位数是在重置抽样的条件下,pptNpNptnpptntNNtntnppxx1112222222222222在确定抽样单位数时,应注意的问题:
(一)、抽样单位数受允许误差的制约,允许误差愈小,抽样单位数就愈多。
所以在抽样方案设计中,对抽样误差的可能范围要十分慎重地进行思考。
(二)、为了防止由于抽样单位数不足而扩大抽样误差,在实际工作中往往根据比单位数大的一个数目进行抽样,以满足共同的需要。
(三)、在未知总体标准差或成数时,往往选择最大值或50%,只有这样才能抽取足够多的样本单位数,以保证抽样后的极限误差在预先设定的允许误差范围之内。
例:
对生产某型号电池进行电流强度检验,根据以往正常生产的经验,电流强度的标准差=0.4安培,而合格率为90%。
用重置抽样的方式,要求在95.45%的概率保证下,抽样平均电流强度的极限误差不超过0.08安培,抽样合格率的极限误差不超过5%,问必要的抽样单位数应该为多少?
两个抽样指标所要求的单位数不同,应抽取其中比较多的单位数,即144个电池。
在实际工作中,只要条件允许,一般应抽取150200个电池。
以保证抽样调查后,计算的极限误差能够在预先设定的允许误差范围内,使抽样调查的任务顺利完成。
14405.01.09.02110008.04.022222222222pxpptntn)(条件下,根据公式:
在重置抽样
(二)、类型抽样:
它的特点是先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽取一定单位构成样本。
通过分类,可以把总体中比较接近的单位归为一组,使各组的分布比较均匀,而且保证各组都有中选的机会,这样计算的抽样平均指标变异程度也就比较小,所以在总体各单位标志值大小悬殊的情况下,运用类型抽样比简单随机抽样可以得到更加准确的结果。
在类型抽样中,组内:
进行的是抽样调查,存在抽样误差。
组间:
进行的是全面调查,不存在抽样误差。
由于总体进行了分组,总体标准差就分解为两个部分:
平均组内方差和组间方差。
由于在类型抽样中,组间是全面调查,总体标准差就只剩下平均组内方差。
222inix2差:
类型抽样的抽样平均误例:
某地区全部粮食耕地5000亩,按平原和山区面积比例抽取样本容量630亩,计算相应指标如下表。
以95%的概率估计该地区平均亩产量的区间。
按地形分组全部面积(亩)Ni抽样面积(亩)ni抽样平均亩产(斤)xi亩产标准差(斤)i平原4000504960200山区1000126750400合计5000630918253)斤之间。
该地区粮食总产量在()斤之间。
即:
总平均亩产量在(斤。
,其对应的值为)(斤)(斤)斤4688800449120076.93724.89876.1991876.19918)(76.1908.1096.196.1%9508.106306400064000630126400504200)(91863012675050496022222XttFnnnfxfxxxiiiix(三)、等距抽样:
它的特点是事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的一种抽样组织形式。
设全及总体有N个单位,现在需要抽取一个容量为n的样本,可以将总体单位N按一定标志(包括按有关标志或无关标志)排队,然后将N划分n个单位相等的部分,每个部分都包含k个单位,即Nn=k。
并在第一部分顺序为1、2、3、ik个单位中随机抽取一个单位,而在第二部分中抽取第i+k单位,在第n个部分抽取第i+(n1)k单位,共n个单位组成一个样本,而且每个样本的间隔均为k,这种抽样方法称为等距抽样。
等距抽样的随机性体现在抽取第一个样本单位,当第一个单位确定后,其余的各个单位也就确定了。
例:
某块麦地长720尺,宽200尺,包括100条垅,这块麦地面积为200720=144000平方尺,折合1440006000=24亩。
现在等距抽取25个10尺长垅为样本进行实割实测。
样本距离=总垅长样本数=(720100)25=2880尺。
从地角一边样本距离之半处抽取第一个样本,即从1440尺点前后各5尺为第一个样本,以后每隔2880尺抽取一个样本,一直抽足25个样本为止,并测得各样本的产量如下:
样本产量(斤)0.60.81.01.21.41.61单位数351042125斤之间。
即()斤之间,整块地小麦总产量在()斤之间。
斤,或在(即每亩平均产量为斤每亩地样本数亩产极限误差亩产极限误差每亩平均产量为斤)时:
,即设概率保证程度为斤斤亩整块地小麦总产量(斤)平均垅宽样本长度每亩地样本数样本平均产量每亩平均产量斤)(斤)(斤))8.75522.6847247.314243.2857.3143.2857.143007.14049.0300300(049.0049.011%27.6872003002430021060006000(049.0)7200251(25061.01247.02552.1125252516.136.022xxxttxNnnsffxxsfxfx(四)、整群抽样:
整群抽样是将总体各单位划分成若干群,然后以群为单位从其中随机抽取一些群,对中选群的所有单位进行全面调查的抽样组织形式。
在整群抽样中,群间群间:
进行的是抽样调查,存在抽样误差;群内群内:
进行的是全面调查,不存在抽样误差。
谢谢2423年月日11:
26:
5311:
26:
5311:
26:
532423年月日2423年月日11:
26:
5311:
26:
5311:
26:
532423年月日2423年月日11:
26:
532423年月日11:
26:
53
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样调查 基本概念 理论依据