社会研究方法8.pptx
- 文档编号:342001
- 上传时间:2022-10-09
- 格式:PPTX
- 页数:75
- 大小:182.44KB
社会研究方法8.pptx
《社会研究方法8.pptx》由会员分享,可在线阅读,更多相关《社会研究方法8.pptx(75页珍藏版)》请在冰豆网上搜索。
,第八讲抽样,在我们面临一个抽样调查或研究案时,通常会依照下列步骤进行:
决定数据的搜集方式:
面访、邮寄问卷、电话访问、或混合使用。
定义母体。
决定操作性定义及据以抽样的母体清册,如会员名单、户籍数据、或电话簿。
(操作性定义中要把极度困难、难以解决的抽样对象排除在外)决定样本数。
分层。
(以上都是办公室的大佬在决定,从这里开始就是助理实际操作的阶段了)决定各层样本数。
各层独立进行抽样设计。
分段。
(分阶段集体抽样)决定各段抽出单位数。
(A*B*C的决定因素是预算)执行。
本讲内容及掌握核心,所谓“抽样”,就是要解决“到哪里搜集事实”的问题。
从操作的角度,把握如下问题是重要的:
1)为何要抽样?
抽样的最终目的是什么2)如何达到抽样的最终目的?
3)抽多少?
怎样抽?
4)抽样过程中会有什么问题(误差)?
每一个问题都是要掌握的核心问题。
其实,在这一讲中,我们要把统计分析的要旨讲到。
1.研究中为何要抽样?
从几个小故事看抽样的基本逻辑:
“从部分认识总体”要注意:
日常生活中是大致的、模糊的要求;而社会研究要求有信度和效度。
从日常生活我们可以引出为何要抽样的第一个原因:
普查的不经济、不必要;但我们又要认识总体普查(census)时间、财力、人力成本高;,所以,要抽样,所谓抽样,就是从组成总体的所有元素中,按一定方式选择或抽取一部分元素的过程。
也即从总体中抽取样本的过程。
简要地说,抽样的最终目的:
从样本推知总体。
但是,为何能够这样做呢?
背后是概率原理,随机抽样(概率原理):
代表性的最大保证总体中每个个体有同等机会入选样本。
非随机抽样:
难以保证样本的代表性。
随机抽样的用处,还体现在抽样分布的概率原理上,这一原理决定了随机样本对总体是有代表性的。
所以,随机抽样能够保证达到最终目的。
总体是极端重要的概念或意识,总体是一个极端重要的概念或意识。
很多研究属于“残缺研究”,就在于他们没有总体意识,数据就停留在对样本的统计上。
或者说,本来通过部分研究总体,却停留在部分上。
即未完成抽样的最终目的。
什么是总体?
总体(population):
构成它所有元素(element)的集合。
元素就是构成总体的最基本单位。
样本(sample):
就是从总体中按一定方式抽出的部分元素集合。
从最常用的角度,社会研究中,元素就是个人;总体则是你所研究的个人组合而成的群体的范围。
我们练习的“总体”是什么?
总体下有子总体的概念。
例:
上海大学生;上政大学生(相对于前者就是子总体);,抽样面临的一个根本难题,社会研究对象的复杂性:
如果所有人的所有属性都是一样的,就无需复杂的抽样技术,研究其中任一元素足够;社会研究的对象是复杂的社会现象;个人千差万别的同时又有一定相似性(可以理解为既离散又集中;或者说同质/异质程度)正是这一点,决定了所有抽样问题、由样本推知总体的复杂性。
对理解抽样及整个调查极端重要的概念,集中、离散(离中):
统计语言最典型的代表就是平均数。
一个班的平均成绩如何,就是大家成绩上的相似性的反映;如果大家成绩彼此差距大,这个平均分代表性就差;说明分数分布上离散程度高;一般用标准差这个统计概念来表示。
同质、异质:
非统计语言是判断群体在某个属性上的相似与差异程度。
平均数和标准差就分别说明了大家(群体)学习成绩(属性)的同质异质程度。
由对象的复杂性及重要概念引出的抽样的两个重要问题,其一,样本如何具有代表性?
所谓“代表性”,就是部分的特征基本上能够对应于总体的特征,这样,就可以从部分(样本)推论到总体。
一般来说,样本越多,越具有代表性;直接到总体当然最好;但不可能不必要不可行。
联系上面所说,同等规模的样本下,总体同质性越高,样本的代表性越大;,误差的不可避免,其二,抽样必然存在误差,但我们可以控制在一定范围内。
人既差异又相似,存在着同质和异质的问题,所以,只要是抽样,就必然存在着误差;因而,总体存在着异质程度的不同,样本也存在着异质性;误差存在是必然,部分毕竟不是总体,但明白了误差大小,就意味着对研究的准确性和可靠性有了一定的把握。
因而,整个调查研究的难点,就围绕控制误差展开。
控制误差的关键环节,关键环节1:
抽样时确定样本量;关键环节2:
统计时由样本推知总体这也是关于抽样中的两个核心和难点问题。
2.如何达到抽样的最终目的,样本量确定和推论是整个调查研究两个核心和难点;但是样本量的确定是服务于最终目的的。
因而,我们首先需要把握如何通过抽样调查来达到这一最终目的由样本推知总体;实际上,这就是整个统计分析的最内核之处。
当然,变量的相关分析是另一个难点,二者是密切联系的。
统计中两个核心概念,统计值(statistic)VS.参数值(parameter)统计值:
样本值样本中某一变量的综合描述;或者说,是样本中所有元素的某种特征的综合数量表现。
参数值:
总体值。
关于总体中某一变量的综合描述;或者说,总体中所有元素的某种特征的综合数量表现。
调查研究的最内核之处:
从统计值推论参数值,从样本值推论总体值就完成了从部分研究总体(抽样的最终目的)的过程。
真实的总体值的获得,只有通过调查总体中每一个元素但是,直接对总体研究既不经济也无必要;所以从样本值推论出来的总体值,我们称为参数值,是一个估计的非真实的总体值;,为何是估计?
抽样误差的存在,因为误差不可避免,所以,达到抽样的最终目的(推知总体)才是通过样本统计值去估计总体的参数值;抽样误差(samplingerror):
样本统计值与总体参数值之间的偏差。
因为总体与样本的异质性存在。
对异质性的统计学分析,既然是由于异质性的存在,误差不可避免;那么对误差的测算和衡量把握,就离不开对异质性的考虑;这就是两个重要概念:
在完成由样本推知总体(抽样的最终目的)中起着重要作用;标准差;样本值的标准差,记作s(S.D)总体值的标准差,记作,回过头来理解:
标准差,最简单地理解:
集中与离散标准差就是用来衡量样本及总体内个体间差异程度。
一般与平均值相对;它恰是来衡量个体的相似或同质程度。
标准差能显示平均值的代表程度;也即同质程度如何举例:
两组学生考试成绩平均分都为90;标准差为25分、35分,二者的关系换算,样本统计值的标准差S;总体参数值的标准差二者的换算公式:
S=总体标准差/样本量的开平方总体的标准差s/样本量的开平方研究实践中,s可以求得。
也是通过spss命令就能得出。
如何估计?
两个重要概念,了解标准差的含义,在于把握异质性程度;把握了异质性程度,意味着对抽样误差有了基本了解;然后,就较容易理解如何由样本值估计总体值。
控制误差,在这个环节,就意味着给出这个估计值的范围和这种估计的可靠性如何。
这就涉及到两个极为重要的概念:
估计值的范围:
即置信区间;估计的可靠性:
即置信度,仔细理解:
置信区间,参数值既然是通过样本值估计出来的,误差又不可避免,所以,估计值要有一个范围,这个范围就是置信区间;即:
总体参数值落在样本值某一区间内;例如:
关于上政学生每周上网时间调查;样本值是平均7小时;因为有抽样误差;故:
估计总体值则是6.5小时7.5小时之间;,置信区间举例,又如:
统计值:
有60的学生每月花费100元;估计的参数值则是:
每月花费100元的学生比例在5060之间;在研究中,我们在给出统计数据时,如果是指的总体值,都要注明置信区间,但是,这个区间从何而来,这就要涉及另一个重要概念:
置信度(水平)。
仔细理解:
置信度(水平),最简单地说,就是当我们给出估计的总体值时,我们要对这个估计的把握性程度做出说明。
即:
研究推论/估计表明,总体值落在样本值某一区间内;我们做出这一估计或推论,把握程度如何。
这就是置信水平。
在实际应用中的置信度(区间),教材p.125;p.2813(这两部分回去一定要反复看,彻底记熟),即:
置信度与置信区间之间的联系,两两相对的数值一定要记熟。
这是调查统计分析基础的基础。
这两两相对的数值是:
置信度9095,置信区间总体值在统计值的正负1.65个SE之间总体值在统计值的正负1.96个SE之间,这两个(尤其95)是研究中最常用最常用到的。
什么意思呢?
理解置信度(区间)的实际意义,以上政上网时间调查为例;通过样本值我们得出:
每周平均上网时间为7小时;假设总体的标准差为0.5小时;则在95的置信水平上,推论到总体值,则是71.960.5;计算得出总体值置信区间为(6.02小时7.98小时)。
那么就可以说:
我们有95的把握认为,上政学生每周平均上网时间在6.02小时到7.98小时之间。
小结1:
把握抽样调查背后的逻辑,1、总体异质性存在,研究总体不必要不可行;2、所以要抽样,由样本值估计总体值;3、抽样有误差(总体异质性存在),所以要控制;4、控制关键还是落在异质性上,即标准差;5、通过标准差,我们就可以得到估计的范围和把握性。
6、最终落脚点:
一样本值;二置信区间;三置信度。
要注意:
这里主要针对单变量的描述统计。
这是基础。
双变量就我们的课程时间和掌握要求来说,不讲。
小结2:
置信度和置信区间,通过把握这两个重要概念:
置信水平和置信区间,实际上我们就可以完成抽样(也是调查)的最终目的。
即:
由部分推论总体;由样本值估计总体值。
实质上,借助这两个概念,实际研究中我们在解决研究的信度和效度问题;精确程度和把握程度。
回顾:
发给大家的表格1,SPSS数据处理举例,课堂练习,1、请将上述上政学生上网抽样调查,样本值每周平均上网时间为7小时;假设标准差为0.5小时;在90的置信度上,重新计算总体值的置信区间。
并用文字表达出来。
2、在上述调查中,另一组样本数据为:
每月平均花费100元,标准差为12元。
请你分别在95、90两个置信水平上计算置信区间;也用文字表达出来。
3.另一个重要环节:
样本量确定,前面我们已经明白了调查统计的核心;即抽样的最终目的;但是,达到这一目的之前,还有一个无法逾越的环节:
抽样;才能用我们已打造好的测量工具问卷收集数据;然后才能通过搜集统计来的样本值去推论(估计)总体值。
抽样环节的首要问题,是确定样本量。
不过,我们首先来看一下:
基本的抽样方案和程序。
基本程序背后的考虑,对调查研究而言,抽样过程服务于最终目的,要考虑的是:
抽多少、怎样抽,,考虑这两个问题的背后在于保证样本具有足够的代表性,同时误差控制在接受范围内。
3.1抽样方案,1、界定总体;所谓“界定”不是一个简单的确定问题,是需要事先了解和掌握总体个方面的情况;作业:
回去之后要了解这么几方面信息:
1)有几座学生宿舍;男女各多少座;且至少要估算:
每座宿舍有多少人?
2)总共有多少学生?
多少个专业?
每个专业大致分布?
每个年级有多少学生?
男女比例如何?
想一想:
你可以从哪些地方了解到总体的这些基本状况?
基本的抽样程序,2、确定样本规模;要注意的是:
在具体抽样实施之前,我们就要确定研究的把握性:
即确定置信度和可接受的抽样误差。
操作中,一般我们将置信度定在95%的水平上。
这样,我们就好确定具体的样本量。
3、具体实施抽样;包括制定抽样框;决定抽样方案;操作实施等环节。
3.2抽多少:
确定样本规模/大小,依前面所说,样本的两个核心问题:
代表性和误差确定样本量,实质就是:
给定了研究的置信度(一般采95),我们要抽多少样本,才能保证估计的总体值能落在一定范围内。
要注意理解和实施中的一个难点:
抽样误差是样本值与总体值的偏差;这是需要我们在研究中求得的;但为了把握和可靠,抽样前我们又需要对抽样误差有一个控制;,一个重要区分,置信度和抽样误差都是需要我们事先确立的;事先确定的抽样误差是对整个研究的判断;而置信区间,主要指,在单变量的统计中,在具体问题上由样本值估计总体值的范围;这是调查后要做要得到的数据;它说明了在特定问题上的误差。
一般来说,问题不同,总体值的置信区间也不同。
回顾:
上网时间和花费。
几条重要原则,1、确定样本量的基本方法很多;但公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的;2、我们在实际操作中可以根据简单随机抽
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会 研究 方法