管理第四讲抽样设计.pptx
- 文档编号:30841000
- 上传时间:2024-01-31
- 格式:PPTX
- 页数:71
- 大小:464.94KB
管理第四讲抽样设计.pptx
《管理第四讲抽样设计.pptx》由会员分享,可在线阅读,更多相关《管理第四讲抽样设计.pptx(71页珍藏版)》请在冰豆网上搜索。
第四讲抽样设计,数字化时代的我们?
买火柴的故事?
普查抽样一个好的抽样调查胜过一次蹩脚的普查.,在1936年美国总统选举前,一份颇有名气的杂志的工作人员做了一次民意测验,调查兰顿和罗斯福中谁将当选下一届总统。
为了了解公众意向,调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表(在1936年电话和汽车只有少数富人拥有),通过分析收回的调查表,显示兰顿非常受欢迎。
于是此杂志预测兰顿将在选举中获胜。
实际选举结果正好相反,最后罗斯福在选举中获胜。
其数据如下:
简单随机抽样,思考,问题:
为什么调查失败?
如何科学地抽取样本?
使得样本能比较准确地反映总体,搅拌均匀使得每个个体被抽取的机会均等合理、公平,简单随机抽样,在高考阅卷过程中,为了统计每一道试题的得分情况,如平均得分、得分分布情况等,如果将所有考生的每题的得分情况都统计出来,再进行计算,结果是非常准确的,但也是十分烦琐的,那么如何了解各题的得分情况呢?
通常,在考生有这么多的情况下,我们只从中抽取部分考生(比如说1000名),统计他们的得分情况,用他们的得分情况去估计所有考生的得分情况。
联系生活,样本总体,估计,思考:
样本一定能准确地反应总体吗?
抽样,统计学:
统计的基本思想:
用样本估计总体,即当总体容量很大或检测过程具有一定的破坏性时,通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况。
是研究如何搜集、整理、归纳和分析数据的学科,它可以为人们制定决策提供依据。
抽样,一、基本概念和术语,1.抽样调查:
从研究对象的总体中选择一部分代表加以调查研究,然后用所得的结果推论和说明总体特征,这种由总体中选取一部分代表的过程就是抽样,所选取的这一部分代表就称为样本.选取样本的方法分为两大类:
一类是依据研究任务的要求和对调查对象的分析,主观地,有意识地在研究对象的总体中进行选择.叫非概率抽样,主要用于案例研究.另一类是依据概率理论,按照随机原则选择样本,完全不带调查者的主观意识,称为概率抽样,主要用于以调查为基础的研究.,抽样调查的特点与普查相比具有如下特点:
1.调查费用较低.2.速度快3.应用范围广4.可获得内容丰富的资料5.准确性高,2.总体(population)总体通常与构成它的元素(element)共同定义;总体是构成它的所有元素的集合,而元素则是构成总体的最基本单位.总体中所包含元素的数目通常用大写字母N表示.3.样本(Sample)样本就是从总体中按一定方式抽取出的一部分元素的集合如从某省总数为12.8万的大学生总体中,按一定方式抽取出1000名大学生进行调查,这1000名大学生就构成该总体的一个样本.样本中的元素数目通常用小写字母n表示.,4.抽样框(SamplingFrame)抽样框也叫抽样范围,是指一次抽样时总体中所有个案(元素)的完整清单.5.参数值(Parameter)也称总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现.在统计中最常见的参数值是总体某一变量的平均数,需要注意的是,参数值只有对总体中的每一个元素都进行调查或测量才能得到.,6.统计值(Statistic)统计值也称为样本值,它是关于样本中某一变量的综合描述.或者说是样本中所有元素的某种特征的综合数量表现.统计值是从样本中计算出来的,它是相应的参数值的估计量,比如样本平均数就是总体平均数的估计量。
参数值和统计值的区别是:
参数值是固定不变的,唯一的,通常是未知的,而统计值是变化的,即,对于同一个总体来说,不同样本的统计值是有差别的,对于任一特定样本来说统计值是已知的,可计算的,从统计值推论参数值,正是社会调查的一项重要内容。
7.置信度(Confidencelevel)与置信区间(ConfidenceInterval)置信度也称为置信水平,它是指总体参数值落在样本统计值某一区间内的概率,或者说是总体参数值落在样本统计值某一区间中的把握性程度.它反映的是抽样的可靠性程度.置信区间指的是样本统计值与总体参数值之间的误差范围,置信区间反映的是抽样的精确性程度,比如,从某一机关一万名干部中抽取200人为样本,调查其平均工资,若样本的平均工资为100元,那么总体平均工资落在95-105元这一区间的概率可能为96%(误差为5元),落在90-110元这一区间的概率可能为99%(误差为10元)可见,置信区间越大,即,误差范围越大,置信水平越高,抽样的精确性程度就越低,反之,置信区间越小,误差范围越小,抽样的精确性程度就越高.,二、抽样的程序,抽样的程序在总体中抽取一个样本时,总要尽可能地使样本具有代表性.如果样本的统计值近似总体的参数值,则这个样本可以称为一个代表性样本.(representativesample).问题是怎样做才可以减少抽样的误差,求得一个有代表性的样本呢?
这就要依据下面的四个步骤:
二、抽样的程序,1界定总体根据调查的目的要求,确定调查对象的范围,包括时间,地点和人物,例如我们要研究北师大大学生生活态度,可以界定总体的范围如下,2011年北京师范大学大一至大四的在校本科大学生.总体的定义越清楚越好,由样本所得的研究结果,原则上只能推论到这个所界定的总体范围.,二、抽样的程序,2确定抽样框在应用之前必须审核其完整性和准确性,例如,有无遗漏,有无列于名单上但实际上不存在的个案,有没有重复或不属于研究范围的等等.,二、抽样的程序,3设计和选取样本确定样本的数量.决定样本的大小时,必须同时考虑抽样误差和研究代价.如,抽样框中有三万大学生,不可能全部调查,要抽取多少个案来进行研究呢?
在正常的情况下,样本越大就越有代表性,但是样本越大,所需的研究代价就越大.选择抽样的具体方法抽样方法有许多种,不同的方法产生的样本代表性是不同的.,二、抽样的程序,4样本评估在样本抽出后,需采用各种调查方法对样本进行实际调查以收集资料,最后对收集到的资料进行计算并将结果推论和说明总体.在开始调查之前要对样本进行评估,评估的目的是初步检查样本的代表性,以免由于前面步骤中的失误使样本偏差太大,评估样本:
收集若干容易得到的资料以进行总体和样本之间的比较.如果样本与总体的情况相似,这样的样本就有代表性,如果两者资料相差甚多,则表明前面的抽样步骤有问题要检查,修正.,二、抽样的基本方法,1.概率取样:
按照随机原则抽取样本,即在总体中抽取单位时,完成排除了人的主观因素的影响,使每一个单位都有同等的可能性被抽中,具有代表性,可用作推论。
多用于正式、量化研究。
包括简单随机取样、分层随机取样、聚类随机取样、系统随机取样。
2.非概率取样:
每个研究对象的抽取概率是未知、抽样方式不是随机、样本通常按照研究目的选择。
不具有代表性、不能判断总体,用于非正式质化研究,三、抽样技术的分类,概率抽样,3.1简单随机取样,两个方法:
抽签法随机数表法,实例,现从我班89名同学中选取10名参加文艺汇演,为保证选取的公平性,你打算如何操作?
.抽签法,思考,开始,抽签法,89名同学从0到88编号,制作编号为0到88的号签(共89个),将89个号签搅拌均匀,随机从中逐一抽出10个号签,与所抽取号码一致的学生即被选中,结束,简单随机抽样,抽签法的一般步骤,(总体个数N,样本容量n)
(1)将总体中的N个个体编号;
(2)将这N个号码写在形状、大小相同的号签上;(3)将号签放在同一箱中,并搅拌均匀;(4)从箱中每次抽出1个号签,连续抽出n次;(5)将总体中与抽到的号签编号一致的n个个体取出。
这种方法适用于调研总体中个体数目较少的情况。
随机数表法,要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,若用抽签法抽取,请写出其过程有简化制签的方法吗?
简化制签过程的一个有效方法就是制作一个表,其中的每个数都是用随机方法产生的,这样的表称为随机数表,于是,我们只需要按一定的规则到随机数表中选取号码就可以了,这种抽样方法叫做随机数表法,随机数表:
制作一个表(由数字0,1,2,.,9组成),表中各个位置上的数都是随机产生的(随机数)即每个数字在表中各个位置上出现的机会都是一样。
范例:
要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,用随机数表法抽取的过程如下,第一步,先将800袋牛奶编号,可以编为000,001,799,第二步,在随机数表中任选一个数,例如选出第8行第7列的数7.(为了便于说明,下面摘取了附表1的第6行至第10行),第三步,从选定的数7开始向右读(读数的方向也可以是向左、向上、向下等),得到一个三位数785,由于785799,说明号码785在总体内,将它取出;继续向右读,得到916,由于916799,将它去掉,按照这种方法继续向右读,又取出567,199,507,依次下去,直到样本的60个号码全部取出,这样我们就得到一个容量为60的样本.,随机数表法,随机数表:
表中各个位置上的数都是随机产生的(随机数)即每个数字在表中各个位置上出现的机会都是一样。
第一步、先将总体中的所有个体(共有N个)编号,第二步、然后在随机数表内任选一个数作为开始,第三步、再从选定的起始数,沿任意方向取数(不在号码范围内的数、重复出现的数必须去掉),第四步、最后根据所得号码抽取总体中相应的个体,得到总体的一个样本.,步骤:
编号、选数(起始数)、取数、抽取.,简单随机抽样,简单随机取样,1.实施方便,2.适合N小的情况、变异情况小的情况3.rand函数生成A与B之间的随机数字(A随机数B)=RAND()*(B-A)+A生成A与B之间的随机整数(A随机数B)=INT(RAND()*(B-A)+A)生成A与B之间的随机数字(A随机数B)=RAND()*(B-A+1)+A生成A与B之间的随机整数(A随机数B)=INT(RAND()*(B-A+1)+A),3.2.分层随机取样,总体单位按其属性特征分成若干类型或层次,然后在各类型或者层次中随机抽样。
分层抽样的方式一般有等比例抽样与非等比例抽样两种。
(1)等比例分层抽样。
等比例分层抽样是按各层(或各类型)中的个体数量占总体数量的比例分配各层的样本数量。
(2)非等比例分层抽样不是按各层中个体数占总体数的比例分配样本个体,而是根据其他因素(如各层平均数或成数均方差的大小,抽取样本的工作量和费用大小等),调整各层的样本个体数,即有的层可多抽些样本个体,有的可少抽些样本个体。
特点、步骤,1.适用于总体有明显差别的几部分组成的情况2.抽取的样本更好地反映了总体的情况3.是等可能抽样,每个个体被抽到的可能性都n/N,1.分层:
分为互不交错的层2.求比:
根据总体个数N和样本容量n计算抽样比k=n/N3.定数:
确定每一层抽取的个体数目,之和等于n4.抽样:
按照定数随机抽样,实例,某公司要估计某地家用电器的潜在用户。
这种商品的消费同居民收入水平相关,因而以家庭年收入为分层基础。
假定某地居民为1000000户,已确定样本数为1,000户,家庭年收入分10000元以下,1000030000元;30,00060,000元,60,000元以上四层,其中收入在10,000元以下家庭户为180,000户,收入在10,00030,000元家庭户为350,000户,收入在30,00060,000元家庭户为3000,000户,收入在60,000元以下家庭户为170,000户,应进行如下抽样,分层比例抽样示意图,某校有在校高中生1350人,高一,高二、高三学生人数和男、女生分布情况如下表:
问:
如果想通过抽查学校中10%学生来调查,学生身高,以了解青少年生长发育情况,应采用怎样的抽样方法?
如何抽样?
运用,例:
某地共有居民20000户,按收人高低进行分类,其中,高收入居民为4000户,占总体的20%;中等收人为12000户,占总体的60%;低收入为4000户,占总体的20%。
从中抽选200户进行购买力调查,则各类型应抽取的样本个体数?
等比例分层抽样收入高的样本数目为20020%40(户)收入中的样本数目为20060%120(户)收入低的样本数目为20020%=40(户),3.3.聚类随机抽样,整群抽样:
把组成总体的所有部分分为若干群体,从随机选择某一群体或几个群体中抽取个体组成样本。
应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
优点:
实施方便、节省经费;缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。
3.4.系统随机取样,等距取样:
按照某一特征,把总体中的个体进行排序,然后按随机原则确定七点,每隔一定的间隔抽取一个单位的一种抽样方法。
例:
要从600件产品中抽取60件进行质量检查,应如何操作?
第一步,将这600件产品编号为1,2,3,600.,第二步,将总体平均分成60部分,每一部分含10个个体.,第三步,在第1部分中用简单随机抽样抽取一个号码(如8号).,第四步,从该号码起,每隔10个号码取一个号码,就得到一个容量为60的样本.(8,18,28,598),思考1:
用系统抽样从总体中抽取样本时,首先要做的工作是什么?
(将总体中的所有个体编号.)思考2:
用系统抽样从含有N个个体的总体中抽取一个容量为n的样本,要平均分成多少段,每段各有多少个号码?
例如:
如果用系统抽样从605件产品中抽取60件进行质量检查,由于605件产品不能均衡分成60部分,对此应如何处理?
先从总体中随机剔除5个个体,再均衡分成60部分.),因此,在分段时,如果N不能被n整除,从总体中随机剔除N除以n的余数个个体后再分段.,思考3:
将含有N个个体的总体平均分成n段,每段的号码个数称为分段间隔,那么分段间隔k的值如何确定?
总体中的个体数N除以样本容量n所得的商.,用简单随机抽样抽取第1段的个体编号.在抽取第1段的号码之前,自定义规则确定以后各段的个体编号,通常是将第1段抽取的号码依次累加间隔k.,思考4:
用系统抽样抽取样本时,每段各取一个号码,其中第1段的个体编号怎样抽取?
以后各段的个体编号怎样抽取?
步骤,一般地,用系统抽样从含有N个个体的总体中抽取一个容量为n的样本,其操作步骤:
第一步,将总体的N个个体编号.第二步,确定分段间隔k,对编号进行分段.第三步,在第1段用简单随机抽样确定起始个体编号l.第四步,按照一定的规则抽取样本.,注意,在使用系统抽样时,容易忽视的两点:
1.分割间断(样本距离)K的确定:
要注意K=总体单位数N/样本单位数n,K为整数,如果N/n不为整数时,应剔除部分各个,获得整数K2.每段抽取时并不是任取的,它是由第一段所抽出的编号加上间隔数决定的,故利用系统抽样方法时,一定要准确掌握其遵循的特征,否则会失误,例:
某中学有高一学生322名,为了了解学生的身体状况,要抽取一个容量为40的样本,用系统抽样法如何抽样?
.,第一步,随机剔除2名学生,把余下的320名学生编号为1,2,3,320.第二步,把总体分成40个部分,每个部分有8个个体第三步,在第1部分用抽签法确定起始编号.第四步,从该号码起,每间隔8个号码抽取1个号码,就可得到一个容量为40的样本.,概率取样课堂总结:
课堂例题,某大学为了支持亚运会,从报名的24名大三的学生中选6人组成志愿小组,适合用哪种方法?
总体个数较少,适合简单随机抽样:
抽签或随机样表法【解】抽签法第一步:
将24名志愿者编号,编号为1,2,3,24;第二步:
将24个号码分别写在24张外形完全相同的纸条上,并揉成团,制成号签;第三步:
将24个号签放入一个不透明的盒子中,充分搅匀;第四步:
从盒子中逐个抽取6个号签,并记录上面的编号;第五步:
所得号码对应的志愿者,就是志愿小组的成员,随机数表法第一步:
将24名学生编号,编号为01,02,03,24;第二步:
在随机数表中任选一数开始,按某一确定方向读数;第三步:
凡不在0124中的数或已读过的数,都跳过去不作记录,依次记录下得数;第四步:
找出号码与记录的数相同的学生组成志愿小组,在例1中,若把“24名学生”改为“1800名学生”,仍选取6人,应该如何进行抽样?
总体数较大,故应选用随机数表法第一步:
先将1800名学生编号,可以编为0001,0002,0003,1800.第二步:
在随机数表中任选一个数,例如选出第2行第5列的数2.第三步:
从选定的数开始向右读,依次可得0736,0751,0732,1355,1410,1256为样本的6个号码,这样我们就得到一个容量为6的样本,要从1002个学生中选取一个容量为20的样本试用系统抽样的方法给出抽样过程,100220502,为了保证“等距”分段,应先剔除2人第一步,将1002名学生用随机方式编号第二步,从总体中剔除2人(剔除方法可用随机数表法),将剩下的1000名学生重新编号(编号分别为000,001,002,999),并分成20段、第三步,在第一段000,001,002,049这50个编号中用简单随机抽样抽出一个号(如003)作为起始号码第四步,将编号为003,053,103,953的个体抽出,组成样本,某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,副处、一般干部和工人各抽取多少人?
(二)、非概率取样,1、相对于概率抽样而言2、抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查3、有随意抽样、判断抽样、志愿参加者抽样、滚雪球抽样、配额抽样、修正的概率抽样等方式,4.应用形成一种想法;作为设计开发概率抽样调查的初始步骤;在后续步骤中帮助理解概率抽样调查结果5、优点|快速简便;费用低廉;不需要规范的抽样框对探索性研究和调查的设计开发有用6、缺点1、主观性,使结果有偏差;2、无抽样框,不可能计算各个元素的入样概率,无法得到可靠的估计值及抽样误差估计值,不能推断总体。
4.1简便取样,任意抽样又称便利抽样,是根据调研者的方便与否来抽取样本的一种抽样方法。
“街头拦人法”和“空间抽样法”是方便抽样的两种最常见的方法。
“街头拦人法”是在街上或路口任意找某个行人,将其作为被调研者,进行调研。
例如在街头向行人询问其对市场物价的看法,请行人填写某种问卷等。
“空间抽样法”是对某一聚集的人群,从空间的不同方向和方位对他们进行抽样调研,如在商场内向顾客询问对商场服务质量的意见;在劳务市场调研外来劳工打工情况等。
任意抽样简便易行,能及时取得所需的信息资料,省时、省力、节约经费,但抽样偏差较大,一般用于非正式的探测性调研,只有在调研总体各单位之间的差异不大时,抽取的样本才具有较高的代表性。
适合刚刚发生的大事或者敏感问题不能代表总体。
简便取样案例:
央视:
你幸福吗?
视频今天作业:
简便取样:
调查问题1.马航飞机2.今年毕业生就业3.你考研吗?
要求:
视频3-5分钟,4.2判断取样,判断抽样是便利抽样的一种形式,根据研究人员的判断选出总体中的个体进行判断的研究人员或专家选出要被包括进样本的个体是主观的判断,其价值完全取决于研究人员的判断、专业知识以及创造力需要判断或推测谁能代表总体。
具有大量有关总体知识的调研者或某些有助于调研者的个体,将选择他或她觉得该选取的那些个体组成样本。
焦点小组座谈会通常利用判断抽样。
缺点是不支持特定总体的直接推断优点是成本低、便利且快速,案例,最近一个小组座谈会调查人们关注对低卡路里、低脂肪微波炉烹饪技术的要求并选择12名妇女作为目前和未来市场的代表。
这些妇女中有6名已经拥有微波炉在3年或3年以上。
另有3名妇女拥有微波炉至少3年,还有3名妇女在市场上寻找微波炉。
4.3配额抽样,首先将总体中的所有单位按一定的标志分为若干类(组),然后在每一类(组)中用便利抽样或判断抽样方法选取样本单位。
所不同的是,配额抽样不遵循随机原则,而是主观的确定对象分配比例。
配额抽样按照控制特征的独立性,可以分为独立控制配额抽样和非独立控制配额抽样。
独立控制配额抽样,各自按照自己的控制特征抽取样本,各个控制特征之间不相互牵制,也不规定各个控制特征之间的关系。
例如,抽取180个样本,控制特征为3个:
年龄、收入、性别,样本分配数额如下:
在分配样本数额时同时对具有两种或者两种以上的控制特征的每一样本数目都做出具体规定。
非独立控制配额抽样一般步骤:
(1)确定控制特征,如例中控制特征为3个:
年龄、性别、收入;
(2)根据控制特征对总体进行分层,计算各层占总体的比例,确定各层次之间的比例关系。
例如:
以收入为控制特征,制定非独立控制配额抽样比例表(其它控制特征也可以按照同样的方法):
(3)确定每层样本数。
先确定样本总数,再根据每层样本各自比例,确定每层应抽取的数目。
(4)配额分配,确定调研单位。
五、样本容量的确定,1.研究类型、范围2.研究分析的精确程度3.允许误差的大小4.总体的同质性5.研究的成本6.分析的类别,样本量=置信水平*总体标准差,允许误差,2,估计总体均值时样本容量的确定(例题分析),【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取多大的样本容量?
置信区间为95%,公式用标准值为1.96,总体标准差为2000,允许误差为400,代入公式约等于97人,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 管理 第四 抽样 设计