第七章抽样文档格式.docx
- 文档编号:12989829
- 上传时间:2022-10-01
- 格式:DOCX
- 页数:15
- 大小:37.95KB
第七章抽样文档格式.docx
《第七章抽样文档格式.docx》由会员分享,可在线阅读,更多相关《第七章抽样文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
如果使用正确,两千多个个体的样本,可有效地代表有两亿个成员的研究对象总体,出错的概率不超过百分之二到四。
这种以小见大,以少胜多并非无稽之谈,而是有缜密的统计学原理为依据,并已一再被经验证据所证实。
并非所有样本都可使结论推而广之,抽取样本必须遵守严密的程序,而且从任何样本得出的结论都必须附带说明,表明其局限性。
7.1.2总体、个体和抽样框架
研究者从一大批研究对象中抽取样本。
这些研究对象是一个个的个体(elements),有时称作个案(cases),可以是个人、群体或组织,也可以是信息、文档,甚至是社会行为(如离婚、吸毒、乱扔垃圾)。
这些都是研究者拟测量或可以测量的事物。
拟定研究对象的全体叫做总体(population)或全域(universe)。
总体是抽样的基础,必须严格界定,没有定义清晰的总体就谈不上抽样。
总体有三个要素:
内容、范围和时间。
内容即组成总体的个体单位是什么:
人、物还是机构等;
范围即总体所处的空间界限,包括地理位置;
时间即总体存在的时间界限。
表7.1举例说明了抽样的个体单位(人、企业、医院住院人次、商业广告),地理位置和时间界限。
表7.1:
总体的例子
1.所有年满18岁(含)以上、2016年12月31日居住在上海市市内并有上海市居民户口的成年人,不包括被监禁和劳教人员。
2.所有雇员10人以上、2016年6月在深圳市开业的国外独资企业。
3.从2016年7月1日至2017年6月30日期间江苏省所有县级以上医院收住的病人人次。
4.从2017年1月27日至2月2日期间,中央电视台一套节目在晚间7:
00到9:
00播放的所有的电视广告。
5.全国在1970年8月至1977年8月期间获得大学专本科医学学历目前仍在从医的人员。
6.2016年云南省所有吸食海洛因的人员。
研究者对研究的总体一般先有一个初步的设想(如一个城市所有的人口),然后对具体的总体再作出更为精确的界定。
最后确定的总体称为对象总体(targetpopulation)。
样本的大小和对象总体规模之间的比值叫做抽样比例(samplingratio)。
假如从一个50000人组成的总体中抽出150人的样本。
抽样比例为150/50000=0.003,或百分之0.3。
假如总体是500,抽取的样本是100,抽样比例则是100/500=0.2,或百分之20。
总体实际上是一个抽象的概念。
为什么总体有具体的数字但却把它看作是抽象的呢?
因为除了极小的总体,一般的总体是很难确定准确的规模的。
如一个城市的人口,在任何特定的时刻,它的总量总是在发生变化。
有人降生,有人去世,有人坐各种交通工具进入或者离开。
在我国,一地的人口一般指的是具有户籍的常住人口,在有关的时刻正在外地工作生活的人也算在内。
即便有户籍登记为依据,精确地查明瞬时人口的确切数字也几乎是办不到的事情,各种不确定因素很多。
越是大的城市越是如此。
由于总体是抽象的概念,研究者有必要对总体作出估计。
抽象的概念却需要具体的测量,因此有必要给总体下操作定义。
怎样才能使总体具有可操作性呢?
研究者应首先设法开列一个名单,尽可能包括总体中所有的个体。
这个名单就是抽样框架(samplingframe)。
抽样框架包括户籍登记(以住户或个人为个体)、企业名册(把企业作为个体)、手机号码(对象总体所有成员都拥有手机)、学校花名册,等等。
在美国,研究者可使用驾驶执照注册资料作为抽样框架,因为美国的成年人几乎人人都开车。
这点在中国目前还做不到。
要获得成功的样本,好的抽样框架十分关键。
抽样框架与概念上界定的总体如不一致就可能产生无效抽样。
因此,糟糕的抽样框架是抽样出错的主要原因。
然而,要找到完美的抽样框架极不容易,更何况有些对象总体根本没有可供参考的清单。
类似学校花名册这样完美的框架并不多。
在美国,有人把电话号码作为抽样框架,然而美国有很多人不愿公布自己家庭的电话号码,而且电话号码每天都在变动,有人搬进或者搬出某一住处。
除非研究对象就是那些在电话簿上登出号码的人,否则电话号码不能作为框架。
对象总体的任何性质或特点称为总体的参数(parameter),如城市居民吸烟人口的百分比、16岁以上妇女的平均身高。
严格说来,总体的参数只有在检测完所有个体的时候才能获得。
但是对于大型的总体(如一个国家的人口),我们永远无法获得绝对精确的参数。
因此研究者只能依靠样本来估计。
研究者根据从样本获取的信息来推断总体的参数。
有关的统计推断技术我们将在第十六章介绍。
有一个典型的例子可说明正确使用抽样技术的重要性。
早年在美国有一家杂志叫做《文粹》(TheLiteraryDigest)。
1920、1924、1928和1932总统大选前,该杂志分别给选民寄去明信片,询问他们选谁当总统。
他们利用汽车注册登记和电话号码簿做抽样框架。
这四次选举该杂志的预测完全正确,杂志的名声因此大振。
1936年,他们将样本扩大至一千万人,调查结果预测兰登将击败福兰克林·
罗斯福。
然而最终却是罗斯福获得了压倒性胜利。
这次预测的错误有几个原因,但最主要的问题出在抽样上。
尽管杂志选择了一个很大的样本,可是样本没能准确代表对象总体,即所有的选民。
他们的抽样框架将当时未拥有汽车和电话的选民排除在外。
在30年代的大萧条中,这种人口的比例在美国高达百分之六十五。
当时这些低收入的人拥护罗斯福当总统。
该杂志先前的成功是由于那时低收入和高收入人群在选择总统上没有大的分歧,而且因为不是处在大萧条中,拥有汽车和电话的人口比例比30年代后期要大。
这个例子告诉我们两点。
首先,抽样框架至关重要。
第二,样本的代表性比它的大小更为重要。
据信,一个有代表性的2500人的样本对全美人口所能作出的预测,要高于一个不具代表性的一千万甚至五千万人的样本。
7.2非概率抽样
根据是否按照概率论的随机原则进行操作,抽样可分为两类:
非概率抽样(non-probabilitysampling)和概率抽样(probabilitysampling)。
按照概率论原则所做的抽样有强有力的数学理据,较为精确。
不按概率论原则办事的抽样有局限性和缺陷。
研究者选择后者可能是缺乏时间或身处特殊条件之下,抑或缺少随机抽样的知识。
除非万不得已,研究者都应该使用概率抽样。
7.2.1简便抽样
简便抽样(conveniencesampling)会产生没有代表性因而根本无效的样本,建议不要采用。
如果图方便省事随意找来一个样本,那么这种样本可能完全不能代表对象总体。
唯一的好处是代价低、速度快,但由此产生的偏差会引起误导,甚至很严重。
电视台记者带着摄像机和话筒在城市大街上随意采访行人就是这方面的一个例子。
这类受访问者不具有代表性。
譬如这类人不包括不常外出和家住农村很少进城的人。
此外,采访的记者往往选择他们认为“合适”的对象进行采访,忽略那些其貌不扬、年岁较大、或者看上去反应迟钝的人。
再如,有的报纸或杂志要求读者剪下调查问卷填好后从邮局寄去。
并非所有的读者都对有关的主题感兴趣、或者有时间去做剪报的事。
那些感兴趣并有时间应答的人数可能不在少数,如多达数千人。
尽管如此,由此得出的结论不可用来推测总体的看法。
类似的调查结果可作参考,但不可当真,因为它反映的只是感兴趣并有时间应答的人群的观点。
7.2.2配额抽样
配额抽样(quotasampling)较随意抽样是一大改进,但它仍然是抽样的弱类型。
在做配额抽样时,研究者首先确定类别,如男性和女性,30岁以下、30岁至60岁、60岁以上,然后决定每个类别抽取多少个体。
每个类别的人数是固定的,如在一个四十人的样本中,30岁以下男女各5名,30至60岁男女各10人,60岁以上男女各5人。
这种做法和随机分组中的配对相似,无法准确代表总体所有的特性。
由于研究者确保样本反映总体成员之间的一些差异,配额抽样优于随意抽样,因为随意抽样获得的样本可能来自同一年龄同一性别或者同一职业。
然而,使用配额抽样的研究者在确定类别和每类人数以后,有可能使用随意的方法选定具体的人选,如采访他最先遇到的5个30岁以下的女性。
这5个女性在某些方面可能非常相似,比如都是大学生,或是一块逛街的同事。
在随意选择各类别的成员时,研究者同样有可能只挑选那些看上去愿意合作、善于言谈的人。
美国著名的盖洛普民意调查结构,曾准确预测了1936、1940、1944三届美国总统选举,但在1948年却没能成功。
其中一个重要原因是配额类别没能准确代表地方和所有的选民。
配额抽样虽然有缺陷,但它比概率抽样经济,省事,速度快。
在概率抽样中,研究者必须准备抽样框架,并且设法找到特定的个人。
这些人有可能找不到,即便能找到,他们也有可能拒绝合作。
7.2.3目的或判断抽样
定量研究一般避免使用随意抽样和配额抽样。
在特殊情况下,可使用目的抽样(purposiveorjudgmentalsampling)。
研究者头脑中带有特殊的目的、或根据专家的判断来选择个体。
这种方法不适用于选择如“普通大学生”或“一般的学校”。
所选的个体是否具有代表性,研究者不得而知。
这种方法通常用于探索性研究和实地研究。
目的抽样适用于三种情形。
第一,用这种方法可选择那些有特点、有信息价值的个体。
例如,研究者打算调查近期杂志中出现的某个文化主题,有必要作内容分析。
他选择某家流行的妇女杂志作为取材对象,因为这家杂志代表时尚和潮流。
第二,用目的抽样可从那些通常难以接触、特殊的人群总体抽取样本,如卖淫嫖娼者或吸毒者。
把所有卖淫者列出名单然后进行随机抽样无法做到。
研究者因此转而利用其他途径,如卖淫者出没的场所和其他知情人,也可依靠当地的派出所,目的都是为了找到尽可能多的调查对象,形成研究用的“样本”。
七十年代美国有个社会学家叫道格拉斯·
哈珀(DouglasHarper),他与流浪汉交朋友,与他们一同住在长途运行的火车上或贫民窟里,用实地考察方法研究流浪汉。
目的抽样的第三种情形是对某些特别的个体做深入的考察。
其目的不是为了将结论推及更大的人群和范围,而是深入细致地了解所选定的样本本身。
7.2.4滚雪球式抽样
“物以类聚,人以群分”,社会化的人都处于这样或那样的网中,如朋友圈、联谊会、学术团体等,互相之间有联系。
王二有朋友张三,张三有朋友李四,王二也许不认识李四,但通过张三他们联系在一起。
不管是否互相认识,他们由于共同的背景、兴趣或利益联系在一起。
这种网有的小,如两、三个人的扒手集团;
有的大,如全世界搞某个共同课题的科学群体。
研究者可利用这样的网,找到若干个体,形成自己的研究样本。
这就是滚雪球式的抽样(snowballsampling)。
象滚雪球一样,研究者通过王二找到张三,又通过张三找到李四。
如研究一个城市中企事业单位的高级主管,约见某经理,可让他介绍他所认识的其他经理,再约见、再介绍,如此形成需要的样本。
7.3概率抽样
概率抽样又称随机抽样(randomsampling)。
概率论建立在随机过程的基础之上。
随机一词在数学中有特殊的含义。
抽样是一种随机选择。
在随机选择中,所有待选个体都有同等的机会被选上,哪些中选,哪些落选,完全听由机遇决定。
民间的抓阄就是一种随机选择
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七 抽样