抽样理论讲义Word文档格式.docx
- 文档编号:22058338
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:37
- 大小:151.47KB
抽样理论讲义Word文档格式.docx
《抽样理论讲义Word文档格式.docx》由会员分享,可在线阅读,更多相关《抽样理论讲义Word文档格式.docx(37页珍藏版)》请在冰豆网上搜索。
常见的非机率抽样方法,综合Kish(1965)和Cochran(1977)的说法,有下列几种:
(一)偶遇样本(haphazardsample)或便利抽样(convenientsample),是碰到谁就选谁的抽样,做研究的人并不在乎调查对象是否有代表性,例如生物学家解剖青蛙,心理学家观察人们对声光刺激的反应,医生征求自愿者做药物反应的实验等等。
(二)立意选样(purposivesampling)或判断选样(judgmentsampling),这是经由专家主观判断,立意选定他们认为「有代表性」的样本来观察。
例如人类学家或社会学家会选定一个或几个村庄来代表乡村地区,交通专家选定几个路口来计算交通流量,教育专家选定几个学校班级的学生来代表所有的学生等等。
(三)自愿样本(volunteersubjects),听任自动送上门来的人组成样本群。
(四)配额选样(quotasampling),依照母体的人口特征按比例分配样本数,在配额之内进行非机率抽样,也就是把调查对象依照特征分类后,根据各类别的百分比每类立意选样至额满为止。
例如某个地区七岁到十二岁的小孩之中,约有一半是男的,另一半是女的,有四分之一住在都市,四分之三住在乡村。
如果样本数是一千,则根据上述各类别的比例先算出各种特征交叉汇编后每一组合的配额,在配额内立意选出符合该类别的人即可。
这样做可以节省时间和资源,而又维持了样本的「代表性」。
(五)雪球抽样(snowballedsample),先找到原始受访者,然后再从受访者所提供的信息找到其它受访者。
以上这些非机率抽样方法由于没有机率做推论基础,大多只能做描述性的用途,而不能对全体做科学的估计或验证理论的假设检定,因为它们提不出确切的误差数据,无法计算样本数据的准确程度。
贰、抽样的基本原理
假设某个地区七岁到十二岁的小孩共有两百四十万人,如果我们要抽取一千个人来调查有关他们的压岁钱收入和支出情形,怎么抽才会「准」呢?
用常识来判断,总要有一些都市人,一些乡下人,要男生,也要女生,要富豪子弟,也要清寒子弟等等。
这些顾虑都是担心万一抽得不好,变成瞎子摸象,整个推论就失效了。
在谈抽样原理之前,首先让我们先熟悉几个名词和符号。
1、资料的中心点和离散程度:
平均数和标准差
大家都知道平均数是什么,它是所有个案观察值的总和除以累加的个案数,也就是我们通常说的一组资料的中心点。
我们把全体的平均数写成μ(念成mu)。
它的定义是:
=(x1+x2+…+xN)/N……………………………………(2.1)
式中N是全体的总个案数,xi是第i个个案的观察值。
其次一个名词是标准差σ(念成sigma),是衡量一组资料中各个点和中心点之间的「标准距离」。
也就是衡量一组数据中各点的集中或离散程度。
………………………(2.2)
从定义上来看,它是每一个点和中心点μ的差,平方后累加起来取平均数,再开根号还原。
平方的原因是要避免各点和中心点的差正负相抵。
二、正态分布和中央极限定理
假设这个地区两百多万个七岁到十二岁小孩的压岁钱平均数是μ,标准差是σ。
现在我们要抽取一千个样本,从样本观察值来估计μ,一个很自然的选择是用样本的平数来估计,让我们把样本的平均数写成
(念成XBar,Bar是横杠的意思),它的定义是:
…………………………………………(2.3)
式中n是样本数。
如果我们使用一套机率抽样的作业程序抽出一千人,取得他们的观察值后会得到一个平均数,把它写成,表示是第一次抽样得到的结果。
现在把整个作业重做一遍,我们可能得到不同的一千个人,因为在机率抽样之下每个人都有中选的机会,重新做一遍就可能抽到不同的人。
我们把第二次抽样的结果写成。
当然这个不一定会和相同,就像两颗子弹不会射中相同的一点一样。
如此一直做下去,如果我们做K次的话,会有一共有K个样本平均数。
在数学上有个中央极限定理,它的内容是:
在样本数足够大的情况下,如果把这K个排起来,它们会形成正态分布,而这些样本平均数的平均数会等于μ,这些样本平均数的标准差会等于。
什么是正态分布呢?
它是一种钟形,以平均数为中心、左右对称的图形分布。
譬如说,全校同学的身高由低而高排列起来,会有少数人很矮或很高,大部分人集中在中间,而越靠近平均身高的人会越多,形成像钟形的样子。
事实上,我们可以利用正态分布的特性计算出身高在某一高度之间者到底有多少人。
这是因为根据正态分布,有68%的人会落在平均数左右一个标准差距离之内,有95%的人会落在平均数左右两个标准差之内,而有99.7%的人会落在平均数左右三个标准差范围之内的缘故。
三、点估计、区间估计、和信赖系数
根据中央极限定理,我们知道如果做很多次抽样的话会得到很多个,而这些排起来会形成正态分布,它们的平均数是μ,标准差是。
换句话说,有68%的会落在之间,有95%的会落在之间,有99.7%的会落在之间。
把上述的说法稍为转换一下就变成:
有68%的会包含着μ,有95%的会包含着μ,有99.7%的会包含着μ,而这就是抽样和估计最根本的道理。
我们从全体之中以机率抽样方式抽取n个样本,取得样本观察值,计算它们的平均数,然后加减两倍的得到一组上下区间,然后说:
我们有95%的信心,这个上下区间一定会包含着全体的平均数μ。
如果我们仍不放心的话,可以用加减三倍的,那么这组区间包含着μ的信赖度就有99.7%。
用样本平均数来估计全体的平均数μ称为点估计。
点估计命中目标的机会是很低的,因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事,所以我们最好不要用点估计,而要用区间估计。
根据中央极限定理和正态分布的特性我们知道这个区间包含着全体平均数μ的机会有68%,的机会有95%,而的机会有99.7%!
真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确的程度,而这68%,95%,99.7%就称做是信赖系数。
说得更确切一点,以95%信赖系数为例,它的意思是:
如果我们进行一百次独立的抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数μ。
实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着μ的机会是95%,信赖系数越高,估计的区间也就越宽,这是高信赖系数所必须付出的代价。
譬如我们估计全国七岁到十二岁小孩的压岁钱平均数是在10元到1000元之间。
这个估计即使有99.7%的信赖度也没有什么用,因为这段区间实在太宽了,如果是100元到120元之间,而且信赖系数是99.7%,这就是个非常好的估计。
我们学习抽样方法就是要使这个信赖区间尽可能的缩小。
刚刚提到过一个好的估计必须既准又稳,我们用来估计μ,如果做很多次的话,会有很多个。
中央极限定理已经给我们保证,这些的平均数会等于μ,所以是「准」的估计已无问题,但是这些是否都靠近在一起,称得上是「稳」呢?
这就要看这些的标准差了。
我们已经知道的标准差是,其中σ是全体的标准差,n是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。
其次,σ是全体数据的标准差,我们并不知道它到底是多少,在区间估计里我们也需要用到它,因此为了要知道估计的准确程度,连全体资料的σ也要一起估计才行。
至少有两种方法来估计σ,一是用样本观察值的标准差,它的定义是:
…………………(2.4)
在数学上可以证明用来估计是合乎「准」的要求的,但是这个方法必须做完抽样,取得样本数据后才能派上用场,有时很不方便事前的规划和设计。
二是用速简方式,我们知道通常的数据若以平均数为中心,左右各三个标准差的距离大概可以网罗绝大部分的数据。
所以我们可以用常识判断,找出这组资料可能的最大数和最小数的差,再除以六,即是我们对σ的速简估计,因为从最小数到最大数之间大概有六个标准差的距离。
举例来说:
压岁钱最少的大概是零,最大的大概有一万元,差距是一万,除以六得1667元,这就是我们对σ的估计。
先不论我们抽样得到的是多少,在规画作业时我们就可以知道,如果样本数是一千,那么95%信赖度的区间宽度是,估计是或是±
105元,这个宽度通常也叫做抽样误差。
4、抽样误差和样本数的决定
习惯上我们都以95%的信赖系数做为一般抽样设计的常模,因此公式就成为我们决定样本数和误差大小的依据。
上述的例子说明了如果样本数是一千,则抽样误差是±
105元。
若希望把误差控制在±
50元之内,那么至少需要多少样本呢?
我们可以代入公式,计算得到n应该是4446人。
另外一个比较快速的估计方式是使用百分比。
假设我们想调查的是全体国民之中有多少百分比的人吸烟,则以前的平均数现在变成百分比,亦即从0到1之间的一个数字。
样本百分比的标准差则跟着这个百分比变化,但是绝对不会超过,为了保险起见,我们就用来代入,换句话说,原来的公式现在变成,这是估计的最大抽样误差。
例如样本数为400时,抽样误差为;
样本数为900时,抽样误差是±
0.033;
同理,样本数一千六百时,抽样误差是正负二点五个百分点;
样本数二千五百时抽样误差是正负二个百分点。
我们可以看到样本数在一千到一千六百时最划得来;
若再往上加,经费会增加很多,但抽样误差却减少得很有限,并不经济,所以一千到一千六百是最常见到的样本数。
还有一件值得注意的事情是:
样本数的大小和母体总数的大小并没有什么关系。
这似乎出乎一般人的意料之外。
在理论上,如果样本数和母体数的比例,也就是抽取率,在百分之五以下的话,样本数的决定几乎不受母体数的影响。
美国有三亿人,盖洛普民意调查经常把样本数定在一千二百左右,英国有六千万人,要达到相同的准确度也需要相同的样本数,北京大学有三万学生,同样的也需要一样多的样本数。
参、单纯随机抽样
在介绍抽样方法之前,让我们先认识一下随机数表(如附录表一)。
这个表是根据两个原则做出来的:
(一)从0到9任何一个数字在任何位置出现的机会都是一样的。
(二)每一个数字出现在任何一个位置并不影响其它数字出现在其它的位置。
换句话说,每一个数字的出现都是独立的,从这两个特性我们可以引申到:
(三)从00,01,02,......到98,99任何两位数出现在一起的机会都是相等的。
(四)从000,001,......到998,999任何三位数出现在一起的机会都是相等的。
(五)以此类推到更多位数。
我们将透过以下抽样方法的介绍来熟悉随机数表的使用。
一、单纯随机抽样的定义
单纯随机抽样(simplerandomsampling,srs)的定义是:
任何样本数为n的样本组合中选的机率都是相等的。
这个方法有理论上的用途,但实际上使用的并不多。
二、单纯随机抽样的执行
把全体所有成员从1到N编号,然后依随机数表抽取n个号码。
例如从四千人中抽五个人,把所有人自1到4000编号,然后用随机数表随便选一行开始,假设我们选第三行,由于4000是四位数,所以我们一次要用四个数字以使得从0001到4000之间的每一个号码都有相同的中选机会。
自上至下第三行起自左向右,所有的数字都依次算入,它们是4546,7717,0977,5580,0095,3286,3294,8582,2269,0056,5271,......等。
把超过4000的号码舍去,我们有0977,0095,3286,3294,2269五个号码中选,代表这五个号码的人就是我们的样本。
三、对母体平均数的估计
=i/n..........................................(3.1)
四、的变异数估计(抽出不放回)
()=s2/n((N-n)/N)..........(3.2)
式中s2=(yi-)2/(n-1)是样本变异数。
五、对母体百分比的估计
=i/n............................(3.3)
式中yi=1如果第i个个案具备该特征,
yi=0如果第i个个案不具备该特征。
六、的变异数估计(抽出不放回)
()=((1-)/n-1)((N-n)/N)……(3.4)
肆、等距抽样SYS比较好用
一、等距抽样的定义
等距抽样(systematicsampling)也有人称它为系统抽样。
它是先把全体总数N除以样本数n,得到K,也就是每间隔K个抽一个的意思,再用随机数表自1到K选一个随机数R,则R,R+K,R+2K,......,R+(n-1)K等号码中选。
例如四千人抽五人,K=4000/5=800,每隔800个抽一个,自1到800选一个随机数。
假设我们自随机数表第五行开始,800是三位数,所以我们要用三位数,自上至下第五行,自左向右,第一个是955太大舍去,第二个是929,也太大舍去,第三个是400,所以编号400,1200,2000,2800,3600,这五个人中选。
如果K不是整数,我们可以四舍五入取整数,也可以用「借一位小数」的方法,也就是把所有的数字都向后挪一位数,包括K值、随机数值在内,抽出之后再将此一小数去掉,如此则不会出现多抽或少抽一个样本的情形。
例如N=50,n=6,K=8.33,借1位小数,取K=83,由1到83取一个随机随机数53,则得到53、136、219、302、385、468等五个样本,将个位数无条件删去,则中选的样本是第5,13,21,30,38,46等五个。
二、母体清册(抽样框可以有形也可以无形)(frame)的排列次序
公共汽车的乘客,百货公司的顾客无形学校的学生有形
等距抽样的效果和据以抽样的母体清册(frame)的排列次序有很大的关系。
理论上,等距抽样的样本平均数变异数是
V(sy)=〔1+(n-1)〕2/n..........................(4.1)
式中是「群内相关系数」(intraclustercorrelation)
=E(yij-)(yij’-)/E(yij-)2.............................(4.2)
理论上,
当母体清册呈无次序状态完全随机方式排列时,=0,样本平均数的变异数完全等于单纯随机抽样下样本平均数的变异数,估计公式可以直接引用上一节的所有公式(3.1)至(3.4)。
当母体清册呈有次序排列时,是负值,样本平均数的变异数比单纯随机抽样下样本平均数的变异数还要小,引用上述公式形成高估。
当母体清册呈周期性排列时,是正值,样本平均数的变异数比单纯随机抽样下样本平均数的变异数还要大,引用上述公式形成低估。
例如在有次序排列的情况下:
N=9,n=3,K=3,
=1,2,3,4,5,6,7,8,9;
=5,
r=1时,中选1,4,7,平均数为4,其群内组合为(1,4)(1,7)(4,7);
r=2时,中选2,5,8,平均数为5,其群内组合为(2,5)(2,8)(5,8);
r=3时,中选3,6,9,平均数为6,其群内组合为(3,6)(3,9)(6,9)。
另一个例子是母体清册在周期性排列的情况下:
N=9,n=3,K=3,
=1,4,7,2,5,8,3,6,9;
r=1时,中选1,2,3,平均数为2,其群内组合为(1,2)(1,3)(2,3);
r=2时,中选4,5,6,平均数为5,其群内组合为(4,5)(4,6)(5,6);
r=3时,中选7,8,9,平均数为8,其群内组合为(7,8)(7,9)(8,9);
所以在母体清册有次序排列的情况下,等距抽样的中选样本不但可以自动反映母体的代表性(或母体结构)K分之一照相,也可以降低抽样误差。
在几乎大部分的母体清册都计算机化之后,排序容易,等距抽样势将成为主流趋势。
从另一方面来看,母体清册如果是在周期性排列的情况下,这种情况大多是时间序列或是经济方面的数据,也有可能是有规则性的组合如军队、中小学生等,为正值,抽样误差可能非常大,解决的办法是抽取多个随机数,例如有一组周期性排列的数据,N=1000,n=10,K=100,若利用等距抽样,原为1至k抽一个随机数,现在改采1至rk抽r个随机数。
若r=2,则为1-200抽2个r,假设抽到随机数036和147,则中选的样本是:
36,147,236,347,436,547,636,747,836,847。
等距抽样的好处是快速方便,所以用得很多。
有时候不知道N和n,只知道K也可以用。
譬如以百货公司顾客、汽车乘客或球场观众为对象,若决定每三十人抽一人,则马上即可进行而不必事先知道全体有多少人,样本要多少等等。
它的缺点是最怕遇到具有周期性的数据,万一这一个周期和K成比例,则样本死守一个规则,完全失去代表性。
例如每七天查一次帐,结果永远查到一星期内的同一天,后果必然不堪设想。
伍、分层随机抽样
分层随机抽样(stratifiedrandomsampling)是先把母群体的所有个体依某些特征分类,也就是分层,然后在各层之内再进行独立的随机抽样。
譬如某个地区七岁到十二岁的小孩,我们可以先区分为都和乡村两大层,然后各自以各层为新的全体进行抽样。
这个方法的好处很多,不但可以减化工作量,而且可以提高估计的精确度,只要分层时守着「同层之内同构型取其最大,异层之间异质性取其最大」的原则即可。
如此可使得层内的数据一致而集中,标准差愈小,则抽样误差也愈小。
一、对母体平均数的估计
st=ii..........................................(5.1)
二、st的变异数估计(抽出不放回)
(st)=i2(si2/ni)((Ni-ni)/Ni)..........(5.2)
三、对母体百分比的估计
st=ii..........................................(5.3)
四、st的变异数估计(抽出不放回)
(st)=i2(i(1-i)/ni-1)((Ni-ni)/Ni)....(5.4)
五、各层样本数的分配:
纽曼的最佳分配(Neyman’soptimumallocation)
如果不考虑各层的抽样调查费用或是各层的费用没有差别,则
ni=n(Nii/ii).....................................(5.5)
可导致最小的抽样误差。
陆、比率估计
比率估计并不是抽样方法的一种,却是常用的一种估计方式。
它借着辅助变量当作分母提出一些比前几节直接估计较为间接但却可能更好的估计方法,譬如回归就是其中一个例子。
在接下来要介绍的集体抽样方法用的也是比率估计。
一、对母体比率值的估计
r=(i)/(i)=/..............................................(6.1)
二、r的变异数估计
(r)=.....................................................(6.2)
式中=(yi-rxi)2/(n-1)....................................(6.3)
y=((i)/(i))x=rx.....................................(6.4)
四、对y变异数的估计
(y)=..............................................................(6.5)
柒、集体抽样
集体抽样(clustersampling)是先把母群体分割成许多小集群,把这些小集群编上号码,然后随机抽取这些号码,凡是被抽中的,则整个小集群的所有成员全部调查。
譬如学校的班级就是常用的集群。
这个方法的冒险性非常大。
主要的功能是节省时间、人力和经费,是很不得已的作法,非万不得已不要采用。
即使要用,也要守着「集群内部异质性越大越好」的原则来做。
=(i)/(i).................................................(7.1)
式中yi是第i个集体所有样本观察值的加总,
n是抽出的样本集体数,
mi是第i个集体的个体数。
二、的变异数估计
()=........................................................(7.2)
式中=(yi-mi)2/(n-1)....................................(7.3)
N是母体总集体数,
是母体平均每一集体的个体数。
捌、多阶段集体抽样
一、两段集体抽样(two-stageclustersampling)
两段或多段集体抽样其实并没有「集体全查」的意思,它是指在第一个阶段先抽出一部分集体(PrimarySamplingUnit,P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 理论 讲义