样 本 轮 换 前 沿 综 述1Word下载.docx
- 文档编号:20492358
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:18
- 大小:118.55KB
样 本 轮 换 前 沿 综 述1Word下载.docx
《样 本 轮 换 前 沿 综 述1Word下载.docx》由会员分享,可在线阅读,更多相关《样 本 轮 换 前 沿 综 述1Word下载.docx(18页珍藏版)》请在冰豆网上搜索。
一、子样本轮换理论
子样本轮换是传统的轮换模式,一般可分为两种:
单水平轮换、不完全单水平轮换,尤其不完全单水平轮换受到抽样调查专家的普遍关注,如韩国大学(KoreaUniversity)的YouSungPark、KeeWhanKim,世界健康统计中心(NationalCenterforHealthStatistics)的JaiWonChoi,、澳大利亚NSW伍伦贡大学(UniversityofWollongong,NSWAustralia)的CraigH.McLaren、数学和应用统计学院的(SchoolofMathematicsandAppliedStatistics,UniversityofWollongong,NSW2522,Australia)的DavidG.Steel等人都对此进行过系统的研究。
影响样本轮换效果的主要的、直接的因素是样本重叠率,而样本重叠率取决于样本轮换模式。
样本轮换模式是指入选单位保留在样本中的时间模式,轮换模式因为样本单位保留在样本中的时间长度和时间间隔不同而不同。
子样本轮换模式可以用
模式表现出来,即样本单位在样本中保留a个月连续调查,离开样本b个月,然后再回到样本a个月,如此重复m次。
如果
则轮换模式变成“
”模式,即样本单位只在样本中保留m个月,然后离开样本,不再返回,这就是单水平轮换模式;
,轮换保持
,则是不完全单水平轮换。
模式可以涵盖绝大部分月度调查的轮换模式。
(一)单水平轮换模式
1.简介
单水平轮换模式一般都用“
”模式来表示,即入选单位在样本中保留
个月,然后离开样本。
PhilipA.Bell(1998)将其称作“ain”模式,即入选单位在样本中保留a个月,然后离开样本。
这一模式会使
月后样本之间的重叠比率是
。
当
或
时,除非
,否则一年之后相同的月份之间没有共同样本(其中
表示入选单位在样本中保留的时间,
表示月份的间隔时间)。
2.当前应用情况
连续调查的重要目的是要了解研究变量随时间变化的情况。
对于调查设计来说这意味着调查结果不仅对研究变量当期的状况有一个好的估计,同时对随时间的变化量也要有一个好的估计量。
在各国月度劳动力资源调查(MonthlyLabourForceSurveys,即MLFSs)中,这两个目标要求设计在连续月份中的样本要有较高比例的相同样本。
(1)澳大利亚的LFS调查即采用
模式或者称作
模式。
澳大利亚的LFS调查是十五岁以上的居民人口调查。
住户最先按照地理区域来划分,然后在每个中选区域内抽取住户群。
向在中选的住户群内所有的住户搜集数据。
调查的最初阶段是抽选地理区域。
这些区域被分成8个轮换组,用于控制住户轮换进或轮换出调查。
MLFS现行的轮换模式是从轮换组里连续8个月抽取相同的住户,接下来从相同的地理区域抽选新的样本,新样本再连续调查8个月。
每个轮换组要在不同的月份轮换新的住户。
这种轮换模式保证了在相邻的月份里八分之七的地理区域的样本重叠,这就使同一样本轮换组的连续估计量之间有较强的相关性。
(2)加拿大劳动力调查中入样单位连续查6个月,即采用
(3)当前我国农村住户调查也采用单水平轮换模式,只是略有不同。
我国农村住户调查是在轮换调查了若干年之后,在总体中重抽样本,然后再在新的样本中重新开始轮换。
这种方式可以保持样本的新鲜性,跟上样本框的调整速度,保证样本对总体的代表性。
但缺点是不断重抽样本会增大调查费用,而且会使资料的衔接性变差。
3.估计方法
(1)S.G.Prabhu-Ajgaonkar(1967)和B.D.Tikkiwal(1979)提出关于总体均值的估计量
只要样本轮换率不是零,这个估计量就有最小方差线性无偏估计的特性,即是样本轮换率等于零,虽然这个估计量不再是最小方差线性无偏估计量,但使用这个额估计量仍然很便利且没有多少方差损失。
(2)Yates(1949)在样本轮换率固定、总体方差不变及同一样本单位在连续时间内呈指数相关且相关系数
为已知常数的情况下,提出总体均值的估计量
H.D.Patterson(1950)年说明这个估计量是最小方差线性无偏的,方差表达式为
由
循环使用
而得到,并指出变化估计量的最小方差线性无偏估计为
4.评价
单水平轮换会使相邻两月的样本有较高的重叠率,从而保证相邻月份之间的样本具有较高的相关性。
连续调查就是想要得到一个或多个项目随时间变化的情况。
对于调查设计来说这一目标可以简化成两个方面:
调查项目每一时期都要有好的估计量和对随时间的变化量要有好的估计量。
在LFS中,这两个目标要求设计在连续月份中的样本要有较高比例的相同样本。
但根据CraigH.McLaren、DavidG.Steel等人的理论,在时间间隔
,否则一年之后相同的月份之间没有共同样本。
作为月度调查
基本上不可能发生。
单水平轮换的弱点在于经过一段时间的轮换之后(比如说不同年份的相同月份之间)不再有相同的样本。
Tallis、SutcliffeandLee等人对高重叠率也此否定态度。
Tallis(1995)提出在MLFS连续调查之间的高样本重叠率会缩减探测经济拐点的能力。
SutcliffeandLee(1995)提出相邻月份之间没有相同样本单位的样本轮换模式会对时间序列的潜在规律提供更好地估计量。
显然这种单水平轮换模式显然不能得到最优的时间序列趋势尤其是有季节变动的时间序列趋势的估计量。
抽样调查专家对此的处理方式通常是先对时间序列进行平滑,然后通过复合估计量进行调整。
(二)不完全单水平轮换
不完全单水平轮换是指在样本中的一些单位在一定时期内保留在样本中,然后再退出样本一段时期后又重新返回样本一段时期,样本中的单位都只提供当期的资料。
如美国现期人口调查(CurrentPopulationSurvey,简写为CPS)采用的4—8—4轮换模式就是每个月的样本都是由8个轮换组组成,每个样本轮换组在样本中保留4个月,在以后连续的8个月中离开样本,然后又重新归入样本4个月。
当前关于样本轮换模式讨论最多的就是不完全单水平轮换。
该种轮换方法的表达方式很多,按照CraigH.McLaren、DavidG.Steel等人(1997)的a—b—a(m)模式,美国现期人口调查CPS(CurrentlyPopulationSurveys)的4—8—4模式可以记成4—8—4(8)模式;
PhilipA.Bell(1998)将不完全单水平轮换模式记作“ainbout”模式,即入选单位在样本中保留a月,然后离开样本b月,而后返回样本,4—8—4模式可以记作“4in8out”模式;
YouSungPark、KeeWhanKim,JaiWonChoi等人(1998)将不完全单水平轮换模式的一般形式记作
,即每个轮换组的一些调查单位被连续调查
个月,下面
个月离开样本,接下来的
个月返回样本中,这一过程重复
次。
例如4—8—4模式可以写成
为讨论方便我们采用最后一种记法。
不完全单水平轮换模式最大的优势在于可以用于对时间趋势的预测,尤其是在对有周期性波动的时间序列进行预测时,这种优势尤为明显。
因此不完全单水平轮换的a—b—a(m)模式,a、b之和与波动周期相同。
也就是说时间序列的波动周期是年度的话,可采用4—8—4、2—10—2、6—6—6模式等;
如果时间序列的波动周期是季度的话,可采用1—2—1模式。
(1)美国的现期人口调查CPS当前使用的样本轮换模式4—8—4(8)模式:
入选样本单位连续调查4个月,离开样本8个月,然后再回到样本4个月。
这就使
月以后相同样本的比率是
,当
时,样本中相同单位的比率是4/8,当
时,相同样本的比率是
时没有相同样本。
(2)日本住户调查、采用2—10—2(4)模式:
入选住户连续调查2个月,离开样本10个月,在回到样本2个月。
这种模式使相邻的两月有1/2的样本单位相同,当
时相同样本的比率仍然是1/2。
这是当前使用的轮换模式。
(3)英国现阶段进行的季度LFS调查看作月度调查的话就可以大约看成是1—2—1(5)模式:
入选住户调查一个月后离开样本,之后又重新回到样本。
这一过程重复至住户被包含在样本中达
次为止。
这种模式是一个月或两个月之内没有相同的样本,当
,相邻两年相同月份的相同样本单位的比率是
美国和日本所使用的样本轮换模式都是对入选样本单位连续调查a月,样本单位离开样本b月,在接下来的a月中样本单位又重新回到样本中。
这一过程重复进行,住户被包含在样本中的次数使
次,都属于不完全单水平轮换。
下面还会谈到其他不完全单水平轮换模式的例子,但还没有付诸实施。
(1)1—2—1(8)模式。
在这种轮换模式每个住户每季度只抽中一次,共抽8次,本季度其他月份抽本区域内其他不同的住户。
这种轮换模式会使相邻的月份之间没有相同样本单位。
(2)2—2—2(8)模式。
在这种模式中,每个住户每4个月入样2个月,共被抽中8次。
在这4个月的其他月份同轮换组的其他样本入样,这种轮换模式将会导致连续月份会有50%的相同样本。
(3)1—1—1(6)模式:
这样轮换的结果使相邻两月没有相同样本,当
时相同样本的比率是1-/12。
(4)6—6—6(12)模式:
这样轮换的结果是
月以后,当
时,样本中相同单位的比率是
;
时相同样本的比率是
很多调查专家都推荐使用1—2—1(m)模式,如CraigH.McLarenandDavidG.Steel、PhilipA.Bell等人。
对于月度调查趋势的估计很重要,而且月度资料往往会呈现出受季节因素的影响,因此在估计是不能不考虑季节调整。
样本轮换后对于趋势的估计是当前很多查专家关注的重点。
1—2—1(m)模式单次轮换的时间跨度正好是3个月,因此能有效地进行季节调整。
CraigH.McLarenandDavidG.Steel等人曾在1997年和2000年分别进行过测算,在调查的重点是关注月度变化时,相邻月份之间要求有较高的重叠率,因而推荐使用重叠率较高的“in-for-8”模式,此时该模式的效率高于“in-for-6”模式,高于4—8—4模式,更高于1—2—1模式。
在季节因素对时间序列有明显的影响时,1—2—1(m)模式是最有选择,其效率甚至高于每月独立的抽取全新样本的模式。
3.估计方法
对美国现期人口调查的4—8—4样本轮换模式,Rao、Graham(1964)采用了总体均值估计量
4.评价
不完全单水平轮换是样本轮换模式讨论的重点。
不完全单水平轮换主要应用在月度调查的样本轮换中,可以使不同年份的相同月份保持一定的重叠样本比重,从而对时间序列的趋势进行有效的预测,这是单水平轮换以及永久随机数法轮换目前不能够完成的。
当前不完全单水平轮换模式理论相对比较成熟,而且多种不完全单水平轮换模式已经在各国调查中应用,收到良好的效果。
各种调查要选择的轮换模式可以根据调查的具体目标而具体确定,并配和适当的估计量,以提高估计精度。
二、永久随机数法轮换样本
1.永久随机数法抽样技术简介。
永久随机数(PermanentRandomNumbers)法抽样技术在调查中的应用近几年蓬勃兴起,主要集中在农业调查以及能源调查方面。
永久随机数法抽样技术是一种有序抽样技术。
在这一抽样技术中,抽样框的每个单位都被赋予从区间(0,1)产生的随机数,并保留下来,不再改变。
抽样框的所有单位按照随机数的大小排序,随机数具有某一特征的单位将入样。
因为随机数被保存下来,因此称之为永久随机数(PRNs)。
永久随机数法强调随机数与调查单位的唯一确定性。
如果有新调查单位产生,则随即产生与之相对应的新的随机数,并参与到总体排序中;
如果有旧的单位消亡则将随机数与单位一起从总体中删除。
因而能够实现抽样框的维护。
这一过程可以看成将总体各单位赋予随机数,均匀分布在(0,1)之间,于是可以实现抽样的随机性。
Ohlsson(1995)曾详细证明这一过程是随机抽样。
当前讨论的永久随机数抽样方法主要有简单随机抽样(Ohlsson,1995)、分层抽样、Poisson抽样、配置抽样(BrewerandHanif,1983)、有序Poisson抽样SequentialPoissonsampling(Ohlsson1990,1995)、OddsRatioSequentialPoissonSampling(ORSPS)(Pedro.J.Savedra(1995)、Rosen(1996))、GoodmanandKish(BrewerandHanif(1983))。
利用永久随机数进行样本轮换主要是基于随机数的永久性,即随机数赋予单位之后不再改变。
永久随机数抽样技术是有序抽样,这种排序实际上是对总体多主题无关标志排序,所以可以实现多主题抽样。
样本轮换在永久随机数抽样技术里转化为随机数区间的移动。
永久随机数抽样技术在抽取样本时可以抽取随机数最小的
个单位作为样本,也可以抽取随机数落在某一区间的单位作为样本。
抽取样本的随机数起点可以不是0,而是0与1之间的任何一个随机数,这是因为(0,1)区间可以看作一个循环系统,当随机数区间的终点(起点加上抽样区间)大于1时,将其减掉1得到的新的数值就会重新落入(0,1)区间。
这就是永久随机数法样本轮换的基本原理。
当然永久随机数抽样技术还有许多其他的抽样方法,如下面将要谈到的Poisson抽样,这里不再一一介绍。
2.永久随机数法样本轮换。
(1)等概率抽样中的样本轮换
对于等概率抽样,Breweretal.(1972)给出了利用永久随机数进行样本轮换的常数平移法,只要在抽样的过程中将起点和终点移动一个特定距离即可。
要注意的是,对同一项调查,年度间平移的距离必需为一个常数,否则会破坏样本轮换的一致性。
为更形象地阐述样本轮换的原理,下面结合例子予以说明。
由20个单位构成的总体当中,抽取50%的单位作为样本,每年轮换50%。
将总体按照永久随机数排序,可抽取已有总体的前50%样本单位,或者抽取永久随机数小于50%的单位;
此时抽样区间是(0,0.5),样本轮换时,将区间的上下限根据样本轮换率平移,如轮换50%的样本,则第二年抽取随机数在(0.25,0.75)之间的样本单位,第三年抽取永久随机数在(0.5,1.0)的样本单位。
抽样及样本轮换结果如表1所示。
表1中★表示抽中。
由表1不难看出在等概率抽样中,永久随机数法能有效实现样本轮换。
样本单元
1
2
3
4
5
6
7
8
9
10
永久随机数
0.04
0.09
0.14
0.19
0.24
0.29
0.34
0.39
0.44
0.49
第一年
★
第二年
第三年
11
12
13
14
15
16
17
18
19
20
0.54
0.59
0.64
0.69
0.74
0.79
0.84
0.89
0.94
0.99
表1
(2)不等概率抽样中的样本轮换
在调查单位的规模有较大差异或者调查单位在总体中所占的地位不一致的情况下,通常采用不等概率抽样调查方法。
在永久随机数抽样技术中,通常采用的Poisson抽样来实现不等概率抽样。
Poisson抽样的规则是如果
(其中
为入样概率,
为永久随机数),则抽中第i个样本单位。
Pedro.J.Saavedra提出在不等概率抽样中继续采用上述常数平移的做法会不可避免的将入样概率小的单位轮换出样本,而保留了入样概率较大的调查单位。
这是因为调查单位对应的永久随机数的产生是随机的,如果入样概率较大,则大于其对应的永久随机数的可能性要比入样概率较小的调查单位大。
Pedro.J.Saavedra采用EIA-782PetroleumProductSurvey的数据进行测算,结果入样概率较大的单元会保留在样本中不被轮换出。
为了减少概率对样本轮换的影响,将调查单位的抽选概率
引入样本轮换中。
也就是说
,
是抽选概率,
是常数。
同以前一样,如果
,则取
在Pedro.J.Saavedra的实证测算中可以看到,是用这种方法可以使重叠样本单位均匀分布在样本中。
但这种方法的弱点在于永久随机数在样本轮换过程中发生了改变,也就是说永久随机数是指上失去了永久性,那么永久随机数的很多优势就难以发挥出来。
Breweretal等人提出如下样本轮换方法则可以保证永久随机数的永久性的基础上,实现样本轮换。
设与前一年样本的重复率为
,新样本的起点是重复率
的函数。
定义新样本的终点如下:
其中,
下一年样本抽选区间的低限点,
上一年样本抽选区间的高限点,
上一年第i个单位的抽样概率,
=前后两年期望的样本重复率。
或在
时,
下一年样本抽样区间的高限点,
上面计算所得的抽样区间中下一年低限点,
下一年第i个单位的抽样概率,如果
,则抽中该单位。
需要注意的是,
是第i个个体的入样概率,对第i个个体而言,
与其规模大小
成正比,即
在抽样比例较高时,会出现入样概率
的情形,此时取
,即该单位为必选单位或者确定性单位,这种单位不再离开样本,这符合目录抽样中某一规模以上的样本单位全部入样的原理。
运用上述理论并结合上例中的数据,同样抽取50%的单位作为样本并每年轮换50%,考察在Poisson抽样中样本轮换的实现。
表2是抽样及样本轮换结果。
其中样本单位10、15、19时必选样本。
需要说明的是Poisson抽样产生的样本量不是确定的量,而是以事先确定的样本量为期望的随机变量。
因此在本例中,计划抽取50%的单位,即抽取10个单位作为样本,而实际抽取结果第一年抽到9个单位,第二年抽到9个单位,第三年抽到10个单位,这符合Poisson抽样的特点。
由表2不难看出,在Poisson抽样条件下,确定性样本始终保留在样本中,非确定性样本能够有效地实现样本轮换。
0.04
0.09
0.14
0.19
0.24
0.29
0.34
0.39
0.44
0.49
入样概率
0.27
0.13
0.64
0.08
0.32
0.15
0.46
1.00
0.54
0.59
0.69
0.74
0.79
0.84
0.89
0.94
0.99
0.25
0.42
1.0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 述1