中国人民大学题库答案详解抽样技术.docx
- 文档编号:28566478
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:37
- 大小:42.73KB
中国人民大学题库答案详解抽样技术.docx
《中国人民大学题库答案详解抽样技术.docx》由会员分享,可在线阅读,更多相关《中国人民大学题库答案详解抽样技术.docx(37页珍藏版)》请在冰豆网上搜索。
中国人民大学题库答案详解抽样技术
中国人民大学题库答案详解抽样技术
中国人民大学同等学力申请硕士学位课程考试试题课程代码:
123105课程名称:
抽样技术与方法试题卷号:
1名词解释非概率抽样非概率抽样又称为非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法,其最主要的特征是抽取样本时并不依据随机原则。
包含有判断选样、方便抽样、自愿样本、配额抽样等。
最优分配在分层随机抽样中,对于给定的费用,使估计量的方差V(y(_)st)达到最小,或者对于给定的估计量方差V,使总费用达到最小的各层样本量的分配,称为最优分配。
PPS抽样是有放回的按规模大小成比例的概率抽样。
其抽选样本的方法有代码法、拉希里方法等。
PPS抽样是按概率比例抽样,属于概率抽样中的一种。
是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。
就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。
自加权样本指调查中每个样本单元的设计权数是相同的,也就是说每个单元最终入样的概率是相等的。
在不考虑非抽样误差的情况下,可以认为自加权样本完全代表总体,因为每个样本单元都代表了总体中相同数目的单元。
(此时可以使用标准统计方法来进行点估计。
此外,自加权样本往往方差较小,样本统计量更稳健)
简述题有人认为“抽样调查除了调查误差以外,还有抽样误差,因此抽样调查不如全面调查准确”,请对此加以评价。
一项调查的误差来自多个方面,抽样调查因为只调查总体中的一小部分,用部分的调查结果推断总体,所以存在着抽样误差,但这只是所有误差中的一部分。
对于抽样调查,误差包括抽样误差和非抽样误差。
有些情况下,全面调查由于参与的人员众多、涉及范围大,因此虽然没有抽样误差,但在数据采集和数据汇总整理的过程中却有产生其他误差的更大可能性,所以调查规模并不是越大越好。
与全面调查相比,抽样调查的工作量小,这就为使用素质较高的工作人员并对他们进行深入的培训创造了条件。
此外,如果能对调查过程实施更为细致的监督、检查和指导,可以使抽样调查所得到的数据质量比同样的全面调查数据质量更高,从而使调查的总误差更小。
试对分层抽样中的联合比率估计和分别比率估计方法进行比较。
如果每一层都满足比率估计量有效的条件,则除非Rh=R,都有分别比率估计量的方差小于联合比率估计量的方差。
但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。
实际使用时,如果各层的样本量都较大,且有理由认为各层的比率Rh差异较大,则分别比率估计优于联合比率估计。
当各层的样本量不大,或各层比率Rh差异很小,则联合比率估计更好些。
此外,联合比估计不像分别比那样需要已知每层的辅助信息Xh。
计算题某住宅区调查居民的用水情况,该区共有=1000户,调查了=100户,得y(_)=12.5吨,s2=1252,有40户用水超过了规定的标准。
要求计算:
(1)该住宅区总的用水量及95%的置信区间;
(2)若要求估计的相对误差不超过10%,应抽多少户作为样本?
(3)以95%的可靠性估计超过用水标准的户数;
(4)若认为估计用水超标户的置信区间过宽,要求缩短一半应抽多少户作为样本?
【解】已知N=1000,n=100,f=nN=1001000=0.1,y(_)=12.5,s2=1252
(1)估计该住宅区总的用水量Y为:
Y(^)=Ny(_)=1000*12.5=12500吨估计该住宅区总的用水量Y的方差和标准差为:
V(Y(^))=N2v(y(_))=N21-fns2=10002*1-0.1100*1252=11268000s(Y(^))=SQRT(v(Y(^)))=11268000≈3356.7842因此,在95%的置信度下,该住宅总的用水量的置信区间估计为:
Y(^)±z0.025s(Y(^))=12500±1.96*3356.7842≈12500±6579即,我们可以以95%的把握认为该住宅总的用水量在5921吨~19079吨之间。
(2)根据题意,要求估计的相对误差不超过10%,即r≤0.1,假定置信度为95% 根据公式:
n0=z2s2r2y2=1.962×12520.12×12.52≈3078由于n0N=3.0780.05,所以需要对n0进行修正:
n=n01+n0/N=30781+3.078≈755若要求估计的相对误差不超过10%,应抽不少于755户作为样本。
或:
n0=1/(1/N+d2/(zα/22s2))≈755(d=ry(_)=1.25)
(3)令超过用水标准的户数为A,样本中超过用水标准的户数为a = 40,估计超过用水标准的比例p为:
p=a/n=40/100=40%估计超过用水标准的比例p的方差和标准差为:
v(p)=1-fn-1p(1-p)=1-0.1100-1*40%*60%≈0.002182s(p)=v(p)=0.002182≈4.67%在95%的可靠性下,超过用水标准的比例p的估计区间为:
p±z0.025s(p)=40%±1.96*4.67%因此,我们有95%的把握认为,超过用水标准的比例p在30.85%-49.15%之间,超过用水标准的户数的点估计为:
1000*40%=400户,超过用水标准的户数在1000*30.85%户~1000*49.15%户之间,即309户~492户之间。
或:
p±z0.025(1-fn-1p(1-p)代入得(0.3089,0.4911)(4)若要置信区间的宽度缩小为原来一半,即要求应抽取的户数n满足方程z0.0251-fn-1p(1-p)=1/2*z0.025v(p)≈0.045766代入数据解得n=306.25≈306户。
为估计市区人均居住面积,按与各区人数呈比例的概率从12个区中抽了4个区,经调查的数据如下:
样本区号区居住面积(米2)
人口数12835326604746216709964560353183522647098142895058585257试对市区人均居住面积作点估计和置信度为95%的区间估计。
【解】设居住面积为Y,人口数为X,N=12,n=4,f=n/N=1/3。
人均居住面积点估计值为R(^)=r=14yi14xi=92366062117019≈4.363米2/人.sy2=1n-11n(yi-rxi)2=1314(yi-rxi)2=13[(2835326-4.363*604746)2+(1670996-4.363*456035)2+(1835226-4.363*470981)2+(2895058-4.363*585257)2)≈101742707182.336373V(R(^))=V(r)≈1x21-fn1n-11n(yi-rxi)2=1-1/34×sy2x2≈16*101742707182.33637370027647599.390625≈0.24215s(R(^))=V(r)=0.24215≈0.492因此置信度为95%的区间估计为:
4.363±1.96*0.492,即(3.3987,5.3273)试题卷号:
2名词解释概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。
(概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。
)
具体说来,概率抽样具有以下几个特点:
(1)按一定的概率以随机原则抽取样本。
(2)每个单元被抽中的概率是已知的,或是可以计算出来的。
(3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。
也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。
概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。
从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。
因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。
事后分层又称抽样后分层,是对一个总体先进行简单随机抽样或系统抽样,抽取一个样本量为n的样本,然后对样本中的单元按某些特征进行分层并进行分层抽样估计。
πPS抽样是不放回的与单元大小成比例的概率抽样(该抽样方法是在总体抽取样本时,借助总体单元大小或规模(Mi)的辅助变量来确定单元入样概率(Zi)或包含概率(πi,πij)的方法)
随机化回答在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。
为了获得对这类问题总体比例进行估计的资料,就需要采用随机化的方式来获取回答信息并进行估计的技术,我们称之为随机化回答。
简述题什么是抽样框?
简述抽样框的类型和作用,以及良好抽样框的标志。
总体的具体表现是抽样框。
通常,抽样框是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。
抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。
若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
抽样框有不同类型:
名录框(总体中所有单元实际的名录清单,如在校学生名单、企业名册、电话号码簿等)、区域框(其单元由地理区域构成的集合,抽样总体由这些地理区域组成)、自然框(把相关的自然现象概念(如时间、距离等)作为抽样框使用)。
抽样框对抽样调查具有十分重要的作用。
1)首先,抽样框是代表总体进行抽样的,抽样框的缺陷会造成目标总体与调查总体不一致,在估计中出现偏差;
2)其次,抽样框中的联系资料是用来确定总体单元所在的位置和联系地址的,如果出现错误,可能会产生无法联系而造成无回答;
3)抽样框中的辅助资料可以用来进行分层等以改进抽样设计或改进估计方法,以提高抽样效率。
因此完备的抽样框是做好抽样调查的前提条件。
良好抽样框的标志是具有充分的辅助信息、目标总体和抽样总体完全重合,也就是目标总体单元和抽样总体单元完全呈一一对应的关系。
具体来讲:
1)关联性,指抽样框与目标总体的对应程度,要求两者之间尽可能地关联;
2)准确性,涵盖误差尽可能小,分类是否准确?
联系资料是否完整?
辅助资料是否齐全等;
3)时效性,抽样框是否及时更新;
4)最后还可以从建立抽样框的费用进行评估。
对多阶段抽样中自加权的有关问题进行论述。
由于不等概率抽样往往不满足自加权,因此在多阶段抽样中,最后一阶按等概率(如SRS等)抽取最终单元(USU),其它阶段采用PPS,且各阶段样本量对不同单元都等于常数,则所得样本是自加权的。
计算题从某农村的200户中随机等概率(无放回)抽取50户,发现其中8户有自行车,这8户人数分别为3,5,3,4,7,4,4,5人。
根据这一资料要求:
(1)估计该村具有自行车的户数及其估计精度;
(2)估计该村具有自行车的总人数及其估计精度。
【解】由已知得:
N=200,n=50,f=n/N=0.25总体中具有自行车户数的比例为P
(1)这次简单随机抽样得到的P的估计值=8/50=0.16,即具有自行车的户数估计值Y(^)=Np=0.16*200=32.所以总体比例P在95%情况下的置信区间可以写为:
p±z0.025v(p)其中v(p)=1-fn-1p(1-p)≈0.002057,v(Y(^))=v(Np)=N2v(p)=82.28故P的置信区间:
0.16±1.96*0.002057=0.16±0.0889。
所以户数的置信区间为:
200*(0.16±0.0889)即[14,50]
(2)有自行车家庭人数M,则n0=8,m(_)=1n018mi=4.375,从而具有自行车的总人数估计值为M(^)=Y(^)m(_)=32*4.375=140。
s2=1n0-11n0(mi-m)2≈1.696则V(m(_))=1-fns2=1-0.258*1.696=0.159,因此V(M(^))=V(Y(^)m(_))=Y(^)2V(m(_))=322*0.159=162.816s(M(^))=162.816≈13某城市共有1000家餐馆,分为大中小三层,现预估计在餐馆就餐的人数,采用抽样调查,根据以往资料层NhSh2中3002500小600400大1001000
(1)若欲估计就餐总人数的误差不超过4000人,可靠性为95%,采用最优分配应抽多少家餐馆作为样本(假设每层每户的调查费用相等);
(2)若不按比例抽样在数据上比较复杂,其费用相当于调查50家餐馆,因此从效益上看改为按比例抽样是否值得?
【解】根据如上表格按中、小、大依次分层:
N1=300,N2=600,N3=100,N=1000,S12=2500,S22=400,S32=1000
(1)总人数绝对误差限dy=4000,所以y(_)st的绝对误差限为d=dy/N=4.W1=0.3,W2=0.6,W3=0.1考虑每层每户调查费用相等,所以使用内曼分配,从而抽取餐馆数:
n=(1LWhSh)2d2(zα/2)2+1N1LWhSh2=(0.3×50+0.6×20+0.1×1000)2421.962+11000(0.3×2500+0.6×400+0.1×1000)≈30.162324.165+1.09≈173即应抽取173家餐馆作为样本。
(2)如果采用比例分配,则n0=1LWhSh2d2(zα/2)2+1N1LWhSh2=0.3*2500+0.6*400+0.1*1000421.962+11000(0.3×2500+0.6×400+0.1×1000)≈10904.165+1.09≈207由于n0-n=207-173=3450,所以从效益上看改为按比例抽样更值得。
试题卷号:
3名词解释配额抽样是将总体中的各单元按一定标准划分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便抽样的方法抽取样本单元。
设计效应为一个特定的抽样设计(包括抽样方法以及对总体目标量的估计方法)估计量的方差与相同样本量下不放回简单随机抽样(SRSWOR)的估计量的方差之比,即Deff=所考虑的抽样设计估计量的方差/相同样本量下简单随机抽样估计量的方差如果deff 1,则所考虑的抽样设计比简单随机抽样的效率高;
反之,如果deff 1,则所考虑的抽样设计比比简单随机抽样的效率低。
deff对复杂抽样时确定样本量有很大作用,在一定精度条件下,简单随机抽样所需的样本量n’比较容易得到,如果可以估计复杂抽样的deff,那么复杂抽样所需的样本量为:
n = n’*deff整群抽样将总体中若干个基本单元合并为组,这样的组称为群。
抽样时直接抽取群,然后对中选群中的所有基本单元全部实施调查,这样的抽样方法称为整群抽样。
沃纳模型沃纳模型论及总体是简单的二元总体,即总体中的每个单元或者属于A类或者不属于A类(即基于敏感特征设立两个对立的问题),除此之外,别无他属。
我们向被调查人员提出两个问题,要求其回答“是”或者“不是”,调查人员并不知道被调查者回答了哪个问题,只知道两个问题被提出的概率为P和1-P,这样就可以使被调查者确信其回答不会泄露本人隐私。
简述题试述概率抽样,非概率抽样各自的特点、作用和局限。
概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。
概率抽样包括等概率抽样(单元之间被抽中的概率相等)与不等概率抽样两种。
概率抽样有几个特点:
1)按一定的概率以随机原则抽取样本。
2)每个单元被抽中的概率是已知的,或是可以计算出来的。
3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。
估计量不仅与样本单元的观测值有关,也与其入样概率有关。
概率抽样的优点:
能得到总体目标量的估计值,并能计算出每个估计值的抽样误差,从而得到对总体目标量进行推断的可靠程度。
另外,也可以按照要求的精确度,计算必要的样本单元数目。
这两大优点为调查方案的评估提供了有力的依据。
与非概率抽样相比,概率抽样比较复杂,对调查人员的专业技术要求高,调查费用较高,但其优点是其他调查方法无可替代的,所以概率抽样成为抽样调查中最主要的方式。
非概率抽样:
抽取样本时不依据随机原则。
常见的非概率抽样方法有:
判断选样(由调查人员人为确定样本单元)、方便抽样(例如“拦截式”调查,比较适合探索性研究)、自愿样本(比如网上调查)、配额抽样(将总体中的各单元按一定标准化分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便抽样的方法抽取样本单元)。
非概率抽样的优点是操作简单,不需要抽样框,经济、快速,调查数据的处理也容易,所以有广阔的应用空间。
非概率抽样的局限是不能计算抽样误差,不能从概率的意义上控制误差,样本数据不能对总体情况进行推断。
同时由于抽取样本时具有较大的随意性,从而导致被调查单元间存在系统性差异。
简述辅助信息在抽样调查中的作用。
在抽样调查中,辅助信息可以用于抽样的设计、目标量的估计,还可以用于调查数据的处理。
1)
抽样设计:
在抽样设计阶段,许多抽样方法都需要利用辅助信息。
如分层抽样需要利用辅助信息进行分层,把总体各单元按相应规则分到各个层中。
好的分层应该做到去定合理的层数、层界,单元应该分别归属于哪层,每层样本量多少等(如不等概抽样中单元规模这个辅助信息)。
可以说,进行任何抽样设计都需要辅助信息,抽样框是辅助信息集中的体现,辅助信息内容越多、质量越高,就为进行良好的抽样设计提供更多更好的素材,具有充分的辅助信息也是良好抽样框的重要标志。
(有些辅助信息在抽样前不知道,事后分层等…)
2)
估计:
在抽样估计阶段(即估计量设计阶段),可以利用辅助信息改进估计方法,提高估计的精度,这一点在比率估计和回归估计中表现明显(举例,如比率估计等引入辅助变量x;
事后分层等)
3)
关于数据调整:
一个是对入样单元进行权数的计算和调整;
另一个是利用辅助信息减小调查中无回答的偏差,提高了估计的精度。
(如调查中男女比率差异,按性别辅助信息引入分层等)
计算题为了解某小区住户的平均月支出(单位:
元),在7000户家庭中按不放回简单随机抽样抽出200户进行调查,并得到样本均值y(_)=1800,样本方差s2=640000。
(1)试估计该小区住户的平均月支出,并给出95%置信度下的区间估计。
(2)若要求估计的相对误差不超过10%,则需抽出多少户家庭进行调查?
【解】由已知得:
N=7000,n=200,y(_)=1800,s2=640000,s=800,f=n/N≈0.02857
(1)该小区住户的平均月支出估计值为Y=y(_)=1800v(y(_))=1-fns2=1-0.02857200*640000≈3108.57695%置信度下的区间估计为:
y(_)±z0.025v(y)=1800±1.96*3108.576=1800±109.28因此区间估计为:
[1690.72,1909.28]
(2)n0=z0.0252*s2/(r2y(_)2)=1.962×6400000.12×18002=2388381.1123232400≈75.88则需抽取76户家庭进行调查。
有下列数据层Why(_)hshph10.353.120.5420.553.93.30.3930.17.811.30.24设n=1000
(1)采用按比例分层抽样的方法估计Y(_)和P并计算其标准误;
(2)采用奈曼分配的方法估计Y(_)和P并计算标准误;
(3)将按比例分配和奈曼分配与简单随机抽样相比能提高效率多少。
【解】
(1)根据题中已知条件,采用按比例分层抽样的方法估计Y(_)为:
Y=y(_)prop=1LWhyh=0.35*3.1+0.55*3.9+0.1*7.8=4.01估计Y(_)的方差和标准误差为:
vprop(y(_)st)=1-fnSw2=1-fn1LWhSh2≈11000(0.35*22+0.55*3.32+0.1*11.32)≈0.0201585sprop(y(_)st)=v(yst)=0.0201585≈0.141981估计P及其方差和标准误差为:
pprop=1LWhph=0.35*0.54+0.55*0.39+0.1*0.24=0.4275v(pprop)≈1-fn1LWhphqh≈11000(0.35*0.54*0.46+0.55*0.39*0.61+0.1*0.24*0.76)≈0.000218s(pprop)=v(pprop)=0.000218≈0.014765
(2)采用Neyman分配的方法估计Y(_)和P的方法和与
(1)是一样的,即Y=y(_)st=1LWhyh=0.35*3.1+0.55*3.9+0.1*7.8=4.01pprop=1LWhph=0.35*0.54+0.55*0.39+0.1*0.24=0.4275但是采用Neyman分配估计Y(_)和P的方差的方法不同,分别为:
v(y(_)st)=1n(1LWhSh)2-1N1LWhSh2≈11000(0.35*2+0.55*3.3+0.1*11.3)2≈0.013286s(y(_)st)=v(yst)=0.013286≈0.115265v(pst)≈1n(1LWhphqh)2=11000(0.35*0.54×0.46+0.55*0.39×0.61+0.1*0.24×0.76)≈0.000236s(pst)=v(pprop)=0.000236=0.015362(3)由于Vsrs(y(_))=1-fnS2≈11000(1LWhSh2+1LWh(Yh-Y)2)≈0.0201585+0.0017329=0.0218914比例分配的设计效应为deffprop=v(y(_)prop)/Vsrs(y(_))=0.02015850.0218914≈0.9208,所以与简单随机抽样相比比例分配能提高效率1-deffprop=7.92%;
内曼分配的设计效应为deffopt=v(y(_)st)/Vsrs(y(_))=0.0132860.0218914≈0.6069,所以与简单随机抽样相比内曼分配能提高效率1-deffopt=39.31%.试题卷号:
4名词解释目标总体和抽样总体目标总体也可简称为总体,是指所有研究对象的总体,或者是研究人员希望从中获取信息的总体,它是研究对象中所有性质相同的个体所组成。
抽样总体是指从中抽取样本的总体。
通常情况下,抽样总体应该与目标总体完全一致,但实践中两者不一致的情况却时常发生。
分层抽样也叫类型抽样法,是将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。
交叉子样本在抽样时,对同一个总体按照同样的抽样方法,独立或非独立地来进行两个或两个以上样本的抽取,并使得每个子样本对总体参数都提供一个有用的估计,则被抽取的子样本称为交叉子样本。
交叉子样本方法最早是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis,1936年)所提出,最初用于总体参数的估计,以后扩大应用于抽样和非抽样误差的估计。
逆抽样方法针对样本中含有稀少项目很少或没有(设比例为P)的情况(调查产生比较大的偏差),事先根据调查精度和成本的要求,制定出样本中出现稀少项目的单元个数为n,然后一个一个地随机抽取样本,直到样本中具有这种属性的单元个数为n为止,然后对样本容量X的分布及P的估计的方法。
简述题说明总体方差和估计量方差各自的作用,以及它们之间的相互关系。
总体方差是未知的,但是确定存在的。
估计量方差可以由样本数据计算出来,但只是总体的近似反映,未必等于真实值。
试述随机化回答技术作用、特点,谈谈你对随机化回答技术的理解。
在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 人民大学 题库 答案 详解 抽样 技术