抽样技术第二章_简单随机抽样xx.pptx
- 文档编号:30840849
- 上传时间:2024-01-31
- 格式:PPTX
- 页数:129
- 大小:1.78MB
抽样技术第二章_简单随机抽样xx.pptx
《抽样技术第二章_简单随机抽样xx.pptx》由会员分享,可在线阅读,更多相关《抽样技术第二章_简单随机抽样xx.pptx(129页珍藏版)》请在冰豆网上搜索。
第二章简单随机抽样,第二章简单随机抽样,2.1概述2.2简单估计量及其性质2.3比率估计量及其性质2.4回归估计量及其性质2.5简单随机抽样的实施,概述,一、简单随机抽样(或单纯随机抽样)本书一般局限于不放回随机抽样二、实施方法三、地位、作用是其他抽样方法基础,案例在1936年美国总统选举前,一份颇有名气的杂志进行了民意测验,调查兰登与罗斯福谁将当选下届总统。
为了了解公众意向,调查者通过电话簿和汽车登记簿给大批人发了调查表,通过分析回收的调查表,显示兰登非常受欢迎。
因此该杂志预测兰登将获胜。
实际选举结果正好相反,最后罗斯福在选举中获胜。
其数据如下:
问题一:
对于一个确定的总体其样本唯一吗?
问题二:
如何科学地抽取样本?
怎样使抽取的样本充分地反映总体的情况?
思考,合理、公平,2.1定义与符号,定义2.1从总体的N个单元中,一次整批抽取n个单元,使任何一个单元被抽中的概率都相等,任何n个不同单元组成的组合被抽中的概率也都相等,这种抽样称为简单随机抽样.定义2.2从总体的N个单元中,逐个不放回抽取单元,每次抽取到尚未入样的任何一个单元的概率都相等,直到抽足n个单元为止,这样所得的n个单元组成一个简单随机样本.,定义2.3按照从总体的N个单元中抽取n个单元的所有可能不同组合构造所有可能的个样本,从中随机抽取一个样本,使每个样本被抽到的概率都等于1/,这种抽样称为简单随机抽样。
注意:
定义2.1与定义2.3是等价的。
三个定义之间的联系,证明不放回无序:
按定义1,每个样本被抽中的概率相同,即为。
证明:
设被抽中的单元号码:
1,2,3n对应的观察值为:
在有序逐个抽取时,样本的概率为:
在无序情况下,一个包含n个指定单元的样本,其单元抽取的顺序共有种不同的形式,因此抽取到包含这n个样本的总概率:
抽取原则:
A.随机原则B.每个抽样单元被抽中的概率已知或事先确定C.每个抽样单元被抽中的概率相等,注意:
(1)它要求被抽取的样本是有限总体、具体总体、与抽样框一致的总体;
(2)它是从总体中逐个抽取;(3)它是一种不放回的抽样;(4)它是一种等概率的抽样。
(二)类型:
放回简单随机抽样:
有序、无序不放回简单随机抽样:
有序、无序,放回简单随机抽样,【例】设总体有5个单元(1,2,3,4,5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本个数为:
放回简单随机抽样所有可能的样本:
重复,顺序,放回有序SRSWR(考虑样本单元的顺序):
如1,2和2,1作为不同的样本。
所有可能的样本个数:
每个样本被抽中的概率为。
放回无序(不考虑样本单元的顺序):
特点:
每次抽样时,总体的结构不变,抽样是相互独立进行的;总体单元有可能多次被抽中的机会。
不放回简单随机抽样,不放回有序(考虑样本单元的顺序):
不放回无序SRSWOR(不考虑样本单元的顺序):
每个样本被抽中的概率相同,即为,特点:
总体单元最多只有一次被抽中的机会,且被抽中的机会随抽选的次数增多而增多。
放回或不放回简单随机抽样的比较,由于放回简单随机抽样的特点,在实际操作中,人们不太可能心甘情愿地用两倍以上的费用去访问同一个单元。
因此,不放回简单随机抽样通常比放回简单随机抽样“有效”些,但由于总体单元数多,而抽中的单元数相对较少,有许多事件的概率习性对于放回或不放回两种情况几乎差不多,因而有时候我们常从随机放回这一最简单的形式入手讨论问题,而将有关结果近似地套到随机不放回的情况。
本书中简单随机抽样若不特指,一般都是指不放回抽样(无序)。
思考:
1.下列抽样方式是否属于简单随机抽样方式?
为什么?
(1)从无限多个个体中抽出500个个体作为样本。
(2)箱子里共有100个零件,从中选出10个零件进行质量检验。
在抽样操作中,从中任意取一个零件进行质量检验后,再把它放回箱子。
2.在简单随机抽样中,某一个个体被抽中的可能性是()。
A.与第n次抽样无关,第一次抽中的可能性大些;B.与第n次抽样无关,每次抽中的可能性都相等;C.与第n次抽样无关,最后一次抽中的可能性大些;D.与第n次抽样无关,每次都是等可能抽样,但每次抽中的可能性不一样;答:
B,简单随机抽样的具体实施方法,常用的有抽签法和随机数法两种。
(一)抽签法抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样本。
抽签法在技术上十分简单,但在实际应用中,对总体各单元编号并制作号签的工作量可能会很繁重,尤其是当总体容量比较大时,抽签法并不是很方便,而且也往往难以保证做到等概率。
因此,实际工作中常常使用随机数法。
(二)随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。
由于计算机产生的随机数实际上是伪随机数,不是真正的随机数,特别是直接采用一般现成程序时,产生的随机数往往不能保证其随机性。
因此,一般使用随机数表,或用随机数骰子产生的随机数,特别在n比较大时。
1、随机数表及其使用方法随机数表是由0到9的10个阿拉伯数字进行随机排列组成的表。
所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。
在编制时,使用一种特制的电器或用计算机,将0至9的10个数字随机地自动摇出,每个摇出的数字就是一个随机数字。
为使用方便,可依其出现的次序,按行或按列分成几位一组进行排列。
根据不同的需要,它们所含数字的多少以及分位和排列的方式尽可以不同。
目前,世界上已编有许多种随机数表。
其中较大的有兰德公司编制,1955年出版的100万数字随机数表,它按五位一组排列,共有20万组;肯德尔和史密斯编制,1938年出版的10万数字随机数表,它也按五位一组排列,共有25000组。
我国常用的是中国科学院数学研究所概率统计室编印的常用数理统计表中的随机数表。
简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:
每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。
设总体容量为N,若N的位数为r,则一定要从r位数中抽取。
遇到1至N的数可直接使用;遇到其它的数不能直接使用。
当r2时,可从含有起点数字左边的r位数开始,也可从右边的r位数开始。
可从起点开始向下抽取,也可向右抽取。
但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更。
在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时,遇到重复的数字应舍去不用。
随机数表法一般分下述几步:
第一步:
确定起点页码,如用笔尖在随机数表上随机指定一点,若落点数字(或距落点最近的数字)为奇数,则确定起点在第1页;否则,起点在第二页。
第二步:
确定起点的行数与列数,先在表上随机指定一点,由落点处的两位数确定起点的行数。
由于每页只有50行,所以当落点处的两位数大于50时,则取其减去50的差数为行数。
为保证等概性,当落点处的数为“00”时,则行数应取作50。
然后依同样的方法再确定起点的列数。
第三步:
确定所抽样本单元的号码。
从上述确定的起点开始向下(或向右),每次取一个r位数。
通常,若所需抽的数是一位数或两位数(即r1或2),则由起点开始,依次向右抽取较方便,达到该行右端时,从下一行左端开始继续向右抽取;若所需抽的数是三位及以上(即r3)则由起点开始依次向下抽取较方便,达到最后一行时,向右移10位(或r位),再从第一行开始向下继续抽取,直到取足所需的n个r位数为止,以这n个r位数所对应的总体单元组成样本。
2、随机数骰子及其使用方法,随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面体,即正方体),面上刻有09的数字各2个。
每盒骰子由盒体、盒盖、泡沫塑料垫及若干个(通常是36个)不同颜色的骰子组成。
使用随机数骰子时可以像普通骰子那样用投掷的方法。
但正规的方法是将一个或n个骰子放在盒中,拿去泡沫塑料垫,水平地摇动盒子,使骰子充分旋转,最后打开盒子,读出骰子表示的数字。
一个骰子一次产生一个09的随机数。
要产生一个m位数字的随机数,就需要同时使用m个骰子(事先规定好每种颜色所代表的位数,例如红色表示百位数,蓝色表示十位数,黄色表示个位数等),或将一个骰子使用m次(规定第一次产生的数字为最高位数,最后一次产生的数字为最末位即个位数字等)。
特别规定m个骰子的数字(或一个骰子m次产生的数字)都为0时,表示1m。
也许有人会认为,在抽样时不用随机数表,而采取随意抽选的办法也可以达到预期的抽样效果。
表面上看,这种想法似乎有一定道理,但实际试验的结果证明随意抽样不等于随机抽样。
简单随机抽样的方法评估,简单随机抽样对总体不加任何限制,等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。
另一方面,因为是等概率抽取样本,所以要求总体在所研究的主要标志上同质性或齐性(共性)较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。
但是,在社会经济现象中,这种均匀总体是很少见的。
因此,实际工作中很少单纯使用简单随机抽样方法。
再者,因为直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。
此外,简单随机抽样要求在抽样前编制出抽样框,并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至在某些情况下干脆无法使用。
因此,在此基础上研究其它抽样技术显得更加重要。
符号的表示,总体均值总体总值(总体总量)总体比例总体比率(总体比值),2.2简单估计量及其性质,2.2.1简单估计量的性质引理2.1从大小为N的总体中抽取一个样本量为n的简单随机样本,则总体中每个特定单元入样的概率为,两个特定单元都入样的概率为。
一、总体均值的估计1.简单估计及其无偏性:
定理2.1对于简单随机抽样,作为的简单估计是无偏的。
注意定理可以表示成更简洁的形式:
证明1:
(定义法)根据前面对简单随机抽样的定义和说明,我们知道对于规模为N的有限总体简单随机抽样,样本量为n的所有可能样本总共有个,对应的样本均值总共也有个,其中任意特定的一个样本及其样本均值出现的概率都是,于是对于所有可能样本整体而言,样本均值就是一个随机变量,按按照数理统计中数学期望的含义,有,证明2:
从总体规模为N的总体中抽取一个样本容量为n的简单随机样本。
若对中体中的每个单元如引理2.2引进随机变量如下:
则可表示为,式中都是常数,故,估计量的方差,在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差(方差或标准差)。
但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误差大小也是不一致的。
联合国统计局编的抽样调查理论基础一书指出:
“从研究大多数国家的抽样实践中,可以看出:
虽然计算估计量的标准差,至少对关键性的几个估计量计算其标准差来说,仅需增加很少的额外开支或负担,但是他们并不意识到确定估计量的标准差的重要意义。
这是否因为统计人员无意识地忽视了估计量的不精确性所产生的严峻的现实呢?
计算标准差,并且把他们与估计量一起列出来,应该成为实际工作的一个常规。
”,2.2.2简单估计量方差与协方差,1.简单估计量的方差按照数理统计中的定义,有限总体的方差通常定义为:
但在抽样理论中,惯用的是另一种形式:
1、简单估计量的方差,证明:
仿照前面定理2.1之证明3引进随机变量,且运用引理2.2的结论就可完成证明。
参见31-32页。
推论2.4对于简单随机抽样,的方差为:
2、两个估计量的协方差,2.2.3方差与协方差的估计,证明:
只需证由定义由对称论证法,区间估计,在获得各种总体特征的简单估计量的方差估计后,由于这些简单估计量均以样本均值为核心构建,根据中心极限定理它们都接近正态分布核心估计量样本均值分布近似服从正态分布。
于是,可按照数理统计中有关正态分布总体特征的区间估计步骤进行估计,首先根据样本调查值计算出和,然后用作为的近似,例子1,1,例:
在某地区10000户家庭中,按简单随机抽样抽取400户,调查一个月的伙食费(单位:
元)。
经计算:
(1)试估计该地区平均每户每月的伙食费,并估计其标准差。
(忽略f)
(2)给出置信度为95%时该地区平均每户每月伙食费的近似置信区间。
解:
(1)
(2),例:
某地区专业杂志目前拥有8000家订户,从中按简单随机抽样抽取了484户,这484户的年均收入为30500元,标准差为7040元。
试求该杂志订户的年均收入的置信度为95%的近似置信区间。
解:
2.3比率估计量及其性质,一、使用比估计的两种情况,1.比值(或比率),例:
例:
“筛选性”问题,例:
1802年,法国的Laplace受政府委托进行法国人口的估计与推算。
推算方法如下:
2.利用辅助变量的信息改进估计的精度,利用辅助变量的信息改进估计的精度,二、简单随机抽样下的比估计1.比的简单估计量:
2.性质:
对于简单随机抽样,证明:
(3)比率估计量的方差估计,比率估计量的方差估计值,例:
某小区有1920户,从中随机抽取了70户,调查各户的住房面积(单位:
平方米)和家庭人口,得数据:
试对人均住房面积作点估计和置信度为95%的区间估计。
解:
3.比率估计量与简单估计量的比较,回归估计Linearregression,1.简单随机抽样中的回归估计量:
对于简单随机抽样,总体均值和总体总值的回归估计量分别为:
证明:
例:
总体由75308个农场组成,设yi为第i个农场养牛的头数,xi为第i个农场的面积。
已知农场平均面积为31.25英亩,选取一个样本容量为2055的简单随机样本。
经计算得:
试估计每个农场平均养牛头数及标准差。
解:
2.5简单随机抽样的实施,一、样本容量的确定的原则与主要因素,
(一)费用函数在简单随机抽样情况下,设调查函数为:
c:
总费用:
固定费用:
可变费用,设计费分析费办公费管理费场租费等,访问员费交通费礼品费电话费等,费用与精度有关
(二)误差限误差限是指在一定的概率保证下,参数及它的估计值的最大的绝对或相对误差。
种类:
绝对误差与相对误差绝对误差:
(1)(r=d)相对误差:
当样本量足够大时,可以用正态分布近似:
区间与置信水平,均值的抽样分布,(1-)%区间包含了%的区间未包含,即由于可用估计量必定是近似无偏的,因此当n充分大时,根据正态分布的性质:
(2),由
(1)式与
(2)得:
绝对误差:
相对误差:
为的变异系数,上式中可以用替代。
(三)其他考虑因素,1、问题的重要性2、所研究问题目标量的个数3、参照同类调查4、调查表的回收率n=初始样本量/预计有效回答率5、有效样本6、资源限制等,其他因素,
(二)总体参数为Y或的情形,将代入d或,得到:
或在实际工作中,通常先计算或,其中:
C=为总体变异系数。
如果0.05,则就取,否则对进行修正:
n=,(三)总体参数为P的情形V(P)=,在实际工作中,通常先计算:
或如果0.05,就取,否则对进行修正:
或:
注:
的保守估计;当时,PQ很接近P=0.5时的最大值0.25,常常以P=0.5代入计算;当P0.9)时,若用p=0.5来计算,则y样本量过大。
【例2.7】某销售公司希望了解全部3000家客户对该公司的综合满意程度,决定用电话调查一个简单随机样本。
这时,销售公司希望以95%的把握保证客户满意的总体比例P在样本比例的范围内,但对总体比例无法给出一个大致的范围这时,应调查多少个客户,才能保证对总体比例估计的要求?
解:
3000d=10%=0.1Z=1.96,修正样本量n:
两个样本量计算的结果很接近,说明抽样比小于5%时,可以不计算修正样本量。
【例】在人口变动情况调查中,出生率是一个十分重要的指标.根据以前调查的数据,出生率的估计可取为18,问在置信度95%下,实际调查估计P的绝对误差限为0.5和相对误差限为5%各需要多大的样本量?
解:
Z=1.96p=0.018q=0.982d=0.0005r=0.05,将d=r()代入上式得:
(四)影响样本容量的因素,由方差公式则可知影响n的因素有三个:
总体规模N、抽样误差V、总体方差S2。
但S2未知,而是用置信度1-和绝对误差限d代替V,所以并不能用上式确定样本容量。
由推出另一方面,根据双侧百分点的定义,有比较两式,即有注意,于是可知,影响样本容量的因素有四个:
总体规模N,置信度1-,绝对误差限d和总体方差。
置信度1-要求越高,所需的样本容量n越大;绝对误差限d要求越小,所需的样本容量n越大;当总体方差S2最增大时,为达到规定的精度,往往要增加样本容量;总体规模N,对小规模的总体,其作用明显,对中等规模的总体,作用中等,对大规模的总体,作用很小。
样本量设计中的误区:
1.估计精度越高越好吗?
简单随机抽样估计比例P的样本量与误差(当p=0.5时)样本量误差500.141000.105000.04510000.032100000.0098对精度要求的判断十分重要。
为得到最小误差而选择最大样本量不是最好的选择。
2.样本量与总体规模N有关吗?
按照总体比例确定样本量合适吗?
例:
简单随机抽样估计P,置信度95%,允许误差d=5%,在P=0.5的情况下总体规模(N)所需样本量(n)50(小)44100795002171000278500035710000370100000(中)383100000038410000000(大)384,由此可知,在精度要求相同的情况下,在北京进行一项调查和在全国进行一项调查,样本量差别不大。
总体规模越大,进行抽样调查的效率越高。
六、确定样本量的步骤1、确定估计精度水平。
包括误差限和置信度2、对总体方差的预估计。
利用以前的调查结果与经验利用预调查或试调查的结果利用同类或相似或有关的二手数据的结果利用某些理论上的结论利用有经验的专家判断3、在简单随机抽样方式和回答率为100%的前提下,计算初始样本量。
4、确定抽样方式,利用设计效应调整样本量。
简单随机抽样的deff=1分层随机抽样的deff1系统随机抽样的deff15、判断有效回答率r,调整样本量。
6、根据分组数据精度的要求,确定各组的样本量。
7、考虑费用、时间、所拥有的资源,最终确定样本量。
精度常见的表示方法:
二、估计总体均值或总量时样本量的确定方法先对总体均值的情形讨论。
1.精度要求:
置信度1-的绝对误差限为d,即,则估计总体均值时样本量这样确定:
2.精度要求:
置信度1-的相对误差限为r,即则估计总体均值时样本量这样确定:
精度要求样本量的确定,例1:
若要求估计职工的平均收入的绝对误差在20元之内,置信度为95%,N=4328,,则样本量应该是多少?
解:
例2:
在某地区10000户家庭中,按单纯随机抽样抽取400户,调查一个月的伙食费(单位:
元)。
经计算:
利用这次抽样结果,现在若要再进行一次简单随机抽样,分别要求如下时,样本量各为多少?
(1)要求d=50(置信度为0.95);
(2)要求r=0.05(置信度为0.95)。
解:
2.设计效应(designeffect):
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 技术 第二 简单 随机 xx