第四讲抽样调查.pptx
- 文档编号:30840972
- 上传时间:2024-01-31
- 格式:PPTX
- 页数:85
- 大小:675.16KB
第四讲抽样调查.pptx
《第四讲抽样调查.pptx》由会员分享,可在线阅读,更多相关《第四讲抽样调查.pptx(85页珍藏版)》请在冰豆网上搜索。
第四章抽样调查,抽样相关概念;随机与非随机抽样调查技术;抽样误差的计算以及样本量的确定方法。
房地产市场调查中的抽样问题:
内容提要,一、定义总体二、确定抽样框架三、选择抽样技术四、确定样本容量五、计算抽样误差,抽样设计过程,一、定义总体,目标总体:
是指拥有研究人员所要寻找的信息的个体或物体的集合。
目标总体必须被精确的定义,不精确的定义总体将会导致研究无效,甚至误解;目标总体应该根据个体、抽样单位、范围和时间来定义;个体是这样一个物体,关于它的信息或者来自它的信息是我们想要的;抽样单位是指在抽样过程中的某一阶段可供选择的个体,或者包括这个个体的单位;范围指的是地理边界;时间因素是指的调研的时间周期。
抽样调查的相关概念,总体与总体单位,标志与指标,样本与抽样,抽样调查,总体是统计学的一个名词,是指统计所要研究对象的全体。
总体单位是指组成总体的个别事物。
标志是用于说明总体单位特征的概念。
数量标志:
建筑面积、平均售价品质标志:
楼型、付款方式。
样本是抽样总体的简称,是指从总体中抽取来作为直接观察对象的全部单位。
样本单位数达到或超过30个称为大样本,30个以下称为小样本。
抽样即指对样本的抽选过程。
抽样调查也称为抽查,是指从调研总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。
推断过程,总体,样本,样本统计量(X),总体参数估计,二、确定抽样框架,抽样框架指的是目标总体中的个体的表示法,它由一份或一组用于识别目标总体的指示说明组成电话本、公司名的协会目录、邮寄名单、姓名地址录或者地图可能造成抽样框架误差。
有三种办法处理抽样框架误差:
根据抽样框架重新定义总体;通过数据收集阶段的筛选被访者来考虑抽样框架误差;通过加权的方案来调整所收集的数据,弥补抽样框架误差。
抽样调查的程序,
(1)确定总体,
(2)个体编号,(3)选择样本,(4)实施调查,(5)测算结果,
(1)不同的营销调研目标,
(2)生成调研设计,(3)选择调研方法,(4)选择抽样程序,(5)收集数据,(6)分析数据,(7)撰写并提交报告,(8)跟踪,抽样设计的过程,抽样设计
(1),问题/机会的识别与界定:
为什么要寻求这些信息?
这些信息已经存在?
问题可回答?
销售分析,市场份额分析,分销情况分析,成本利润分析,人员分析等。
确定调查目标:
具体和切实可行,为何要调查?
想要知道什么?
知道了有何用?
谁想知道?
向谁说明?
用何种方式说明较好?
1)确定曾经在驾车外出旅游中至少迷路一次的家庭百分比;2)确定小型面包车车主对卫星可视地图系统在不同价格水平下的接受程度;3)确定对在小型面包车中安装冰箱的需求;4)确定对在小型面包车中安装放像机的需求;,通用汽车1997年对“后排顾客”购车的调查,调查目标:
抽样设计
(2),案例:
某公司新生产的饮料颇受欢迎,有供不应求的趋势,公司考虑建新厂增加供应能力。
因内部资料欠缺需收集更多信息,该公司应如何确立调查目的?
收集哪些信息?
解析问题所在及问题焦点,调查问题明确化,确立调查目的,设定调查假定,确立调查目的,抽样设计(3),制定实施总体方案的办法和步骤,经费与日程等。
确定抽取样本单位的方法,确定必要的样本容量,对主要抽样指标的精度提出要求,确定总体目标量的估算方法,确定调查对象(总体)和样本单位,三、选择一种抽样技术,抽样技术可以被宽泛地分为非概率抽样和概率抽样非概率抽样依赖于研究人员的个人判断而非随机选择样本个体;可以对总体的特征很好的估计;无法对样本结果的精确度作出客观的评价。
概率抽样随机选择样本单位,选择每个样本的概率相等每个样本不一定有相同的选择概率,但可以指定选择任一给定大小的特定样本的概率;可以确定样本估计值的精确度;可以根据个体抽样对整群抽样、相等单位概率对不等概率、非分层抽样对分层抽样、随机选择对系统选择、单阶段技术对多阶段技术,这5个方面所有的可能组和分成32种不同的抽样技术。
抽样调查可以分类,随机抽样,又称概率抽样概率抽样是按照随机原则进行抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。
非随机抽样,又称非概率抽样。
非概率抽样是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。
抽样技术的分类,抽样技术,概率性,非概率性,简单随机抽样类型抽样等距抽样整群抽样,任意抽样判断抽样配额抽样滚雪球抽样,定期做,经常做,可计算误差费钱费时不方便,不能判断误差省钱省时方便,概率抽样技术,概率抽样是指总体的全部基本单位都有同等被抽中的机会,也称随机抽样。
单纯随机抽样法、系统抽样法、分层随机抽样法、分群随机抽样法。
要求市场调研人员掌握总体的某些基本信息;具有比较熟练的技术水平与丰富的工作经验;调查所花费的时间较长;支出较大。
简单随机抽样法,在简单随机抽样中,总体中每一个个体都有一个已知且相等的抽中概率首先确定一个抽样框架,其中的每一个个体被分配了一个唯一的号码;然后产生出随机的数字来确定那些个体被包括进样本中;盲选BlindDraw随机数表thetableofrandomnumber优点是易于理解,样本结果可以推断总体,大多数统计推论方法都假定数据是由简单随机抽样法法获得的局限性:
抽样框难以构建;数据收集时间和成本高;比其他概率抽样精确度低,标准差较大。
以下调查应该采用什么样的抽样调查方法?
我班学生身高分布调查?
034743738636964736614699698162977424676242811457204253323732167602276656502671073290797853125685992696966827310503729315555956356438548246223162430990162277943949544354821737932378844217533157245506887704744767630163785916955567199810507175332112342978645607825242074428576086324409472796544917460962181807924644171658097983861962266238977584160744998311463224234240547482977777810745321408623628199550922611970056763138378594351283395008304234079688702917121340332038261389510374566218373596835087759712259347994957227788429545721664361600160815047233271434094559346849311693324350278987192015370049,简单随机抽样,自有限总体的抽样,自无限总体的抽样,1、每个个体来自同一总体,2、各个个体的选择是独立的,某些情况下,总体数目无限或太大以致在实际应用中必须视为无限的对待。
如果从容量为N的总体中抽取一个样本容量为n的样本,使得样本中每个样本点以相等的概率被抽出,这就是简单随机抽样。
放回抽样(重复抽样),无放回抽样,系统抽样法,依据构成总体中个体的出现顺序,排列起来,每隔K个单位抽一个单位作为样本,如逢十抽一,逢七抽一。
每隔多少个样本抽中一个:
K=N/n,分层随机抽样法,分层抽样是一个两阶段过程,总体被分割为子总体,或称为“层”后,再用随机方法,从每一层中选出个体。
各层间应相互独立,并且全体上没有遗漏;分层随机抽样在分层时,要将同一性质的基本单位分成一层,但层与层之间基本单位特性的差异较大。
与配额抽样法法的不同是自总体的样本选取是随机的;分成抽样可以确保子总体在样本中都得以体现。
例如:
对鄂州市的商店进行资金周转情况的调查,必须首先把各种各样的商店进行分类,然后再进行样本的抽取。
A层,B层,C层,请对鄂大的师生做一个关于手机的市场调查:
鄂大现有各类人员总数为1.3万人,学生1.2万人,行政管理人员300人,教师700人,现要抽取1200个样本进行市场调查,你如何抽取?
以下调查应该采用什么样的抽样调查方法?
如果采用分层调查方法,其分层控制指标如何选择?
我国女装品牌的消费偏好调查?
我国大学生对于手机消费偏好调查?
分层比例抽样法,各层抽样数按各层基本单位数占总体的比例确定。
Si第i层应该抽取的样本个数Vi第i层个体总数,例如:
关于鄂州市私人购房情况的调查,我市现有常住人口10万户,抽1%作为样本,调查每月用于购房的款项。
房地产的档次差别非常大,总体中各元素的差异大,适用于分层比例抽样。
家庭收入按高、中、低分层,其中高收入家庭约占总住户的10%,中等收入家庭约占总住户的70%,低收入家庭占总住户的20%。
分层最佳抽样法:
不按比例,根据各层基本单位标准差的大小,决定各层样本数目的抽样方法。
适用:
各层差异过分悬殊;某些层的重要性大于其他层。
例如:
接着前面的例题,高收入层的样本标准差为300中收入层的样本标准差为200低收入层的样本标准差为50,确定样本数量的数据表,分层最低成本法,指根据抽样费用确定各层应该抽取的样本数量。
分群抽样方法,是将市场调查总体分为若干群体,然后以单纯随机抽样方法选取若干群体作为调查样本,对群体内各子体进行普遍调查。
分群随机抽样与分层随机抽样,高收入层,高、高、高,中收入层,中、中、中,低收入层,低、低、低,A群体,高、中、低,B群体,高、中、低,C群体,高、中、低,例如:
调查武汉市大学生消费支出情况,拟抽出10000个样本,假定全市共有50所大专院校,每校的在校学生平均为5000名。
如何抽取样本。
多阶段随机抽样,多阶段随机抽样,是指把从调查总体中抽取样本的过程分成两个或两个以上阶段进行抽样的方法。
具体步骤是先将调查总体各单位按照一定标准分成若干群体作为抽样的一般群体,然后将一般群体又分成若干小的群体,依此类推,可以分三段、四段甚至更多。
再按随机原则,先在一段群体中抽选出若干一段群体作为一段样本单位,然后再在一段样本单位中抽选出二段样本单位。
如此类推,还可以抽选出三段样本单位、四段样本单位等。
把工作落实到二段样本单位,叫二段随机抽样;落实到三段样本单位、四段样本单位,则分别称之为三段随机抽样、四段随机抽样。
例如,鄂州市调查全区居民家庭在购房方面的支出,考虑到每个街道办事处居民用户较多,拟用二段随机抽样抽选调查单位。
其具体做法是:
第一步,从全市的所有街道办事处中抽取若干街道办事处,第二步,在每个选中的街道办事处中分别按照随机原则抽选若干户居民进行调查。
收集相关信息。
等距随机抽样,等距随机抽样,又称系统随机抽样,是指将调查总体单位按照一定标准有序排列,编上序号,根据抽样距离从总体单位中抽取样本。
排列顺序可用与调查项目有关的标志为依据,如在购买力调查中,按收入多少由低至高排列,也可用与调查项目无关的标志为依据,如按户口册、姓名笔画排列。
抽样距离是由总体单位数除以样本量求得的,用公式表示为R=Nn。
当遇上总体单位数不能被样本量整除时,要用四舍五人的方法化为整数,并且为了避免出现抽不足样本数量的情况,通常将总体单位排列成一个封闭圈。
等距随机抽样的步骤为:
按一定标准把总体单位有序排队。
计算抽样距离。
采用简单随机抽样在第一距离段内抽选一单位。
以此单位编号为准,在后续距离段内抽取相应编号的单位。
这里所谓的相应,是指后续抽选到的单位编号与此单位编号相差R的整数倍。
例如,我班学生43人,拟定样本量8个,用等距随机抽样的具体做法是按照学号(也可以是其他等)进行排队。
计算抽样距离R=438=5.45。
采用简单随机抽样在143号内抽选一个单位作样本的第一个样本单位,假设随机抽选到的序号是14。
以序号14为起点,依照抽样距离R=5,确定以下的样本单位的编号是19,24,29,34,39,01,06,11直到抽足8个样本单位为止。
非概率抽样,非概率抽样,是指概率抽样法范围之外的抽样法。
在实践中,使每个样本被抽取的机会相等的方法,并非对所有调查都具有可行性。
为什么呢?
非概率抽样技术的分类,便利抽样法,概念:
是一种随意选取样本的方法。
以研究者或访问者方便来选择被访者,通常被访者由于碰巧在恰当的时间正处在恰当的地点而被选中使用学生以及社会组织成员;商场拦截购物者;使用费用帐目清单确定的百货商店;“街上的行人”访谈。
便利抽样在所有抽样技术中成本最低、耗时最少,抽样单位易于接近;不能代表总体。
适用于:
市场初步调查、对市场情况不甚了解时,正式市场调查中较少使用。
判断抽样法,概念:
是由市场调查人员根据经验判断选定样本的一种非概率抽样法。
进行判断的研究人员或专家选出要被包括进样本的个体是主观的判断,其价值完全取决于研究人员的判断、专业知识以及创造力优点:
问卷回收率高、简便、易行。
缺点:
易于发生主观判断偏差所造成的抽样误差增大的情况,所以调查人员必须对总体的基本特征相当清楚的情况下才能用,这样所选择的样本才具有代表性、典型性,从而透过对所选样本的调查研究,了解、掌握整个总体的情况。
市场调查中,常用的典型调查、重点调查均属于此类抽样调查。
配额抽样法:
是指市场调查总体按某些属性特征进行分层,对分层后的副次总体样本按规定样本配额,配额内的样本则由调查人员主观判断选定。
分层抽样法是采用随观方法抽取样本。
配额抽样是非概率抽样法抽取样本。
不能象概率抽样法那样可以估计抽样误差,并且能够对调查人员访问调查对象的方法加以规定和控制。
实行配额抽样法的主要理论依据:
认为特征相同的调查对象,如同一类别年龄、性别、收入的居民,其要求、反应大致相似,误差不大,因而不必再按随机抽样法抽取样本。
独立控制的配额抽样,独立控制的配额抽样:
这种方法只对具有某种特征的样本数规定配额,而对具有两种或两种以上特性的样本数则不作规定。
第一阶段,由确定总体中的个体的控制类别或者配额组成,配额确保了样本的组成与总体的组成在特定特征方面相同;第二阶段,样本个体在便利或者判断的基础上被选择出来缺点是缺乏对总体的代表性,无法计算抽样误差优点是低成本,并且为每个配额选择个体对访谈人员而言较为容易例1:
控制特性为年龄、性别、收入三种,已经确定样本总数为200,按独立控制的配额抽样,则可列成如下三表:
(A),(B),(C),相互控制配额抽样:
同独立控制配额抽样不同,它对各特征的每一个样本数目都有规定,即按各类控制特性分配样本数额,要考虑各类型之间的交叉关系,采用交叉控制表安排样本的分配数额。
实行配额抽样法的四个步骤:
确定控制特性;按控制特性划分副次总体层,确定各分层之间的比例关系。
决定各分层总体(副次总体层)的样本数。
配额指派。
滚雪球抽样,通常是先选出一组最初的调查对象,通常是随机选出的,在访谈之后,要求这些被访者推荐一些属于目标总体的其他人,根据这些推选出后面的被访者。
与随机的方式相比,被推举的人将具备与推荐人更为翔实的人口及心理特征。
主要目的是估计总体中非常稀少的某些特征。
缺点是这种方式非常耗时。
在概率抽样与非概率抽样间作抉择,四、抽样误差与样本量,抽样分布与误差确定样本量的统计学方法,调查误差,工作误差代表性误差-事实:
若调查再重做一遍,结果未必一样系统性误差非系统性误差未响应误差-响应率高与低的不同考虑响应误差样本容量调查费用与精度,几个相关概念,总体参数:
描述总体分布状况的数。
或总体中可以量化的指标。
总体的单位个数、总体各单位参数的平均值、总体标准差、总体方差。
统计量:
样本构造出来的数。
总体标准差:
参数与平均值之间的差别。
用表示,S:
样本标准差,总体方差:
总体标准差的平方。
几个相关概念,总体成数:
具有某一标志的单位数占总体的比例。
具有某一标志的单位数占总体的比例为P,不具有某一标志的单位数占总体的比例用Q表示。
则Q=1-P,总体成数的平均数,总体成数的方差,数据的质量标准,精度:
即最低的抽样误差或随机误差;准确性:
即最小的非抽样误差或偏差;关联性:
即满足用户管理、决策和研究的需求;及时性:
即在最短的时间里取得并公布数据,信息当得到时或许己经无用;一致性:
即保持时间数列的可比性;最低成本:
即满足以上标准前提下,以最经济的方式取得数据。
考虑到收集好数据的困难:
坏数据与更坏数据,抽样误差的计算,不同的抽样方法,抽样误差的计算也不一样。
但各种不现的抽样方法都是以单纯随机抽样为基础的。
可以把单纯随机抽样误差的计算作为其它各种抽样误差计算的基础。
我们就以单纯随机抽样为例来说明。
抽样平均误差的计算
(1)抽样平均误差的涵义抽样误差有抽样实际误差和抽样平均误差两种。
抽样实际误差是指某一次抽样结果所得到的样本指标与总体指标数值之差。
抽样实际误差不能用来概括一系列抽样结果可能产生的所有误差,因此为了用样本指标去推算总体指标,需要计算这些误差的平均数,即抽样平均误差,用它来反映抽样误差的平均水平。
抽样平均误差是指所有可能出现的样本指数的标准差。
我们把抽样平均误差简称为抽样误差,并用希腊字母来表示。
抽样误差的计算,
(2)抽样平均误差的计算抽样推断的两个主要目的:
以样本平均数推断总体平均数,以样本成数推断总体成数。
同时,在简单随机抽样时又有重复抽样和不重复抽样的两种取样方法。
这样,抽样平均误差也因此有如下度量的公式:
抽样误差的计算,抽样误差的计算,抽样误差的计算,抽样误差的计算,(3)样本平均数的极限误差的计算重复抽样的计算公式,抽样误差的计算,不重复抽样的计算公式,(4)样本成数的极限误差的计算重复抽样的计算公式,不重复抽样的计算公式,抽样误差的计算,样本容量的确定,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,确定样本容量的意义,找出在限定费用范围内的最大样本容量,样本容量的确定,在确定具体的样本容量之前要确定的几个因素:
允许误差:
指根据抽样资料估计总体参数所允许的误差范围。
置信度:
允许误差常用一定的概率以保证抽样误差不超过某一允许的范围。
这用于保证抽样误差不超过允许范围的一定概率,即置信度,又称为概率保证度,它表明抽样误差落在允许误差范围内的可能性程度。
概率度:
在实际调查过程中,可以根据专门的标准正态分布表,由给定的置信度查出相应的概率度。
影响样本容量的因素,调查估计值所希望达到的精度调查估计值所能允许的误差。
估计量的抽样方差较小,估计值是精确的估计值的精度越高,所需的样本容量就越大影响精度的因素也同样影响着样本容量的大小所研究指标在总体中的变异程度总体的大小样本设计和所使用的估计量无回答率,确定样本容量的方法,样本容量的确定通常是介于理论上的完善方案与实际的可行方案之间的一个折中方案。
教条式方法成本基本法统计分析法置信区间法,教条主义方法,任意方法也许基于经验,如5%规则具有主观性优点:
容易确定,简单易行缺点:
无效率、不经济,显示了不同规模的总体在P=0.5时,使用简单随机抽样,且以误差界限为0.05、置信度为95%的标准估计P所需的样本容量,成本基础法,将成本作为确定样本容量的基础对于成本基础法的区别很大;通常会忽视调查结果对管理决策的价值;确定样本容量一个好的办法是考虑成本与调研对于经历的价值之间的关系;,统计分析法,一些统计分析方法对最小样本容量有要求如果要讨论分类变量的影响,那么每一分类变量的样本数应符合统计分析数的需要要将每一类样本或子集看成一个总体,置信区间法,运用差异性置信区间、样本分布以及平均数标准误差或百分比标准误差等概念来创建一个由小样本差异性是指受访者对某一特定问题的答案在相异性(或相似性)方面的总括。
如果多数回答都接近同一个数字,而且大多数的回答都集中在某一小范围内,则差异性小;反之,则差异性大。
数据的差异性可以用标准差来度量,即差异的平均程度。
置信区间法,置信区间的概念,对于具有正态分布的估计量来说,95%的置信区间意味着在同样的条件下,反复抽样100次所得的100个样本中,有95个样本的估计值所确定的区间包含总体真值,这个区间以样本的估计值为中心,半径为1.96倍的标准误差。
95%置信区间=平均值-1.96标准差,平均值+1.96标准差标准差越大置信区间就越大,抽样分布,大样本情况下,(n30)通常不使用t统计量,而是使用U统计量。
0,标准正态分布,自由度为20的t分布,自由度为10的t分布,置信区间法,平均数标准误或百分比标准误差的概念标准误差表示实际总体值与所预期的典型样本结果的差距。
平均数标准误差公式,百分比标准误差公式,样本容量越大,则标准差越小;反之亦然。
用置信区间的方法计算样本容量,在计算样本容量时,我们要考虑三个因素:
可确信的总体差异性大小期望精确度估计总体值所需要的置信度用百分率确定样本容量,最大的差异性是50%,e为可接受的精确度,精确度高则百分率小,如2%。
用置信区间的方法计算样本容量,用平均数确定样本容量,例:
某地大学生毕业第一年年薪的标准差大约为2000元人民币。
如果以95%的置信度估计其平均年薪,并且希望抽样极限误差分别不超过500元和100元,样本容量应为多少?
估计均值时的样本容量,估计比率时的样本容量,某网站一个由400名使用者组成的样本表明,该网站的使用者中26的使用者为女性。
在95的置信度下,若希望将抽样极限误差控制在3,则样本容量应当为:
例:
某企业调查职工每月消费支出情况。
已知职工平均每人月消费支出的标准为30元。
(1)如果抽取160人进行调查,计算抽样误差;
(2)如果要求把握程度即置信度为95%(查正态分布表t=2),允许误差为2元,计算调查的样本容量。
抽样调查的缺点,易于产生误差。
由于抽样调查所取得的结果是根据调查总体中的一部分样本推算出来的,因而从一定意义上讲,出现或多或少的抽样误差也是难免的,是允许的。
但为了发挥市场调查的积极作用,必须最大限度地减少误差。
课后作业,请对目前鄂州市房地产市场价格水平进行抽样调查,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 抽样调查