市场营销调研数据.docx
- 文档编号:28986434
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:19
- 大小:36.34KB
市场营销调研数据.docx
《市场营销调研数据.docx》由会员分享,可在线阅读,更多相关《市场营销调研数据.docx(19页珍藏版)》请在冰豆网上搜索。
市场营销调研数据
第四编市场调查中的数据分析
本编重点
变量类型频数(百分比)众数、中位数均值、标准差卡方分析
单因素方差分析简单相关系数因子分析
调查报告的结构
第十五章市场调查数据的录入与整
理第一节调查问卷的回收与编辑
数据资料的处理过程是从回收第一份问卷开始的。
按照事先调查方案的计划,尽量确保每份问卷都是有效问卷(所谓有效”问卷,指的是在调查过程中按照正确的方式执行完成的问卷)。
问卷回收以后,督导员必须按照调查的要求,仔细的检查问卷。
检查问卷的目的在于将有错误填写,或者是挑出不完整或不规范的问卷,保证数据的准确性。
所谓错误填写即出现了那些不合逻辑或根本不可能的结果,通过对调查员的复核,可以检查出哪些调查员没有按照调查的要求去访问,那么,该调查员完成的问卷可能存在很多问题。
还有可能出现漏答了某些必须回答的问题,比如被访者的人口特征等基本情况,造成问卷回答不完整。
鉴于这些情况,不管是由于调查员造成的还是被访者的原因,通常有两种方式进行补救:
对于出现漏答的问卷,通常要求调查员对受访者进行重访,以补充未答的问题;如果不便于重访或重访后的问卷还有问题,数目不是很多,可以当作缺失值计。
如果数量非常大,这份问卷就只能当作废卷处理,并且按照被访对象的抽样条件,补作相关的样本。
问卷检查
问卷的检查一般是指对回收问卷的完整性和访问质量的检查,目的是要确定哪些问卷可以接受,哪些问卷要作废。
检查的要点包括:
(1)规定详细的检查规则,一份问卷哪些问题是必须填写完整的,哪些问题出现缺失时可以容忍等,使督导员明确检查问卷的每一项流程。
(2)对于每份调查员交回来的问卷必须彻底地检查,以确认调查员或者被访者是否按照相关的要求完成了访问,并且完整的记录在问卷恰当的位置。
(3)应该将问卷分成三种类型,一种是完成的问卷,一种是作废的问卷,第三种是有问题的问卷,但是通过追访还可以利用的问卷。
(4)如果抽样中有配额的要求,那么应将完成的问卷中的配额指标进行统计分析,确定问卷是否完成配额的要求,以便及时的补充不足的样本。
(5)通常有下面的情况的问卷是不能接受的:
所回收的问卷明显不完整,缺了一页或者多页;问卷中有很多内容没有填答;问卷的模式说明调查员(被访者)没有理解或者遵循访问指南回答等;问卷的答案几乎没有什么变化,如在态度的选项上全部选择第X项的情况;问卷的被访者不符合抽样要求;问卷的回收日期超过了的访问的时限等。
问卷的校订
为了加强问卷的准确性,对那些初步接受的问卷还要进行进一步的检查和校订,在校订的过程中,通常会发现问卷中存在有字迹模糊、问题漏选的、前后回答不一致的、答案模棱两可的和跳答错误的问题。
问卷的某些问题答案可能出现字迹模糊的情况,特别是碰上无结构的开放式的问题时,因为调查员记录的不好,答案不容易识别。
女口果发现这样的问题,必须对受访者进行追访,将积极不清楚的地方填写清楚。
对于漏选的问题处理方法也是一样,出现漏选的题目因为各种原因,无法进行补充访问事后,普通的问题,而且数目不大的情况,通常作为缺失值处理;如果涉及到是受访对象的个人特征的问题,通常只能作为废卷处理。
问卷中有些问题的答案会出现不容易理解的模棱两可的情况,或
者是使用了不是通用的缩写方式或词语,或者在该单选一项的问题中,圈选了两项等,都必须通过追访进行补救。
另外就是回答时可能出现跳答错误的情况,这可能是因为被访对象没有很好的理解问题。
如果出现这种情况,首先要核实被访对象是否符合抽样调查的条件
(跳答题目往往是筛选条件),如果符合,进行追问补充,如果不符合条件,问卷只能作废,重新补充样本。
问卷的回收、检查与校订可能是非常繁琐、且工作时间很长的工作,但是却是保证数据处理过程中较少误差的重要的步骤。
问卷的编码
编码是指对一个问题的不同答案进行分组和确定数字代码的过程。
大多数问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组问题的不同答案的数字编码已经确定。
而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后编码。
开放题的事后编码的工作量很大,无法预知会出现多少个新的代码和答案,而且有些答案是非常类似的,必须决定是否合并成一类呢,还是分成不同的代码。
具体地说明编码需要以下几个步骤:
(1)每个需要编码的项目都必须有一份编码表,将问题和项目的代码详细的标注在编码表的顶端位置,由于事先不知道会有多少新的代码或答案出现,所以一定要预备足够的空间。
(2)如果编码的工作由一个编码员完成,出现错误的可能性相对较小。
但实际上,因为需要编码的问题可能很多,一个认识没有办法按时完成的,这就需要多个编码员。
在这样的情况下,一定要注意多个编码员工作的协调。
应该安排编码员在不同的时间,或者相同的时间相同的地点,使用同一个编码表。
这样可以避免编码重复的情况。
(3)研究人员应详细制定编码的守则,指导编码员如何识别答案,并且将其归类,以及如何分配编码等等,并同时对编码的过程进行监督和检查。
编码员在编码的过程中可能有两种倾向:
一种是事无巨细将出现的每一种答案够给与新的代码,结果代码的数量比预料的要多出很多;另一种情况是对答案的归类过于粗糙,可能丢弃了数据
中有意义的差异。
对于这两种情况都必须通过守则的规定,尽量避免。
碰到无法确认的分类的时候,通常的做法是付与一个新的代码,如果需要合并,可以在将来的数据处理过程中完成。
(4)可以对不知道”无所谓”不清楚”缺失”事先规定,
但是一定要注意规定的编码与实现对该问题的最大编码的预计的数
量一致。
(5)编码的字迹必须清楚,如果可能的话,及时的进行计算机的录入管理。
见图15-1问卷的编码
S15-1间卷的编码(4个城市,每个城市针对16-60^^500个样本童进行间卷调查)
变量名称及说明
变量位数
編码说明
11
[问卷編号(被访者編号)
3
001-500
2
f城市编码
r11
1-北京、2-上嫁3-fJl4■成都1
3
访员編号
3
首位是城市編码,后两位是访员編码・01-50
4:
;Q1被访者性访员记录)
[1
1黒2■女
5
Q2被访者年龄:
()岁
2
按唱访问对象的实际年龄埴环16-60
6
Q?
被访者的学历:
小学及训下、初中*高中或中专“大学专科s大学本科、硏究生或以上
1
1•小学及以下、2初中、3-高申或中執
4大学昔科*5才:
学本科*僅硏究生或以上
■
V
■■■
15
Q12J谖问悠在购买时考虑的因素有(限选3项):
商品的功能*商品的品质、商品的外观、商品的价格》商品的品牌、商品的售后服务5朋友狀荐、苴他
1
1-商品的功能、2■商品的品质、3-商外观、4商品的■格,5-商品腺6-商品的售后胎务、工朋友的歸’8-苴他
16
Q1Z2请问您在购买时考虑的因素有(限选3项):
商品的功能、商品的品质F商品的外观*商品的价格*商品的品牌*商品的售肓服务.册友的睢荐、Ktt
1
1■商品的功能、2商品的品屬、Z商的外观、
4商品的价格s工商品牌16-商品的售后服务「■朋友的齢、&苴他
17
Q12-3iff4您在购买吋考虑的因素有(限选3顶):
商品的功能、商品的品质r商品的外观、商品的价格、商品的品牌*商品的售后服务「朋友的推荐、Xto
1
1-商品的功能*2■商品的品质*3谪£65外观*丄商品的价格<5-商口胡)品牌6-商品的售后服
%7•朋友的擋农WCtt
18
Q13M正的好产品不讓广告:
非常同意.同意s无所谓、不同意*非常不同意
1
5WE常同意*4同意*久无所谓“2•不同意*
1■非常不同意
19
Q14买东西时我经寓货比三家:
非寓同意.同意s无所谓、不同意*非常不同意
1
5TE常同意、4同意、M无所谓“工不同意*
1■非常不同意
■
■
■
■■■
第二节调查资料的录入和整理
数据录入数据录入是指将问卷或编码表中的每一个项目对应的代码转化
成计算机能够识别的形式的过程。
这个过程需要数据录入装置(计算机)和一个存储介质(数据库软件、磁盘)。
市场调查发达的国家在数据的采集中使用CATI、CAPI的方式很普遍,因此键盘录入的过程已在访问的时候就已经完成了。
而且对于简单的问卷调查,使用调查卡进行光学扫描录入也能从时间上节约不少成本。
但是国内目前主要还是纸面问卷调查的形式居多,所以在问卷完成后,还需要对问卷进行录入的操作。
大多数问卷信息通过智能录入系统进行,即使用相关的数据库软件包。
数据库软件不仅可以存储数据,而且在录入过程中,通过事先的数据库结构的编辑,可以对录入员录入的过程进行逻辑检查,避免数据录入过程中出现某种类型的错误,如录入无效的编码或者是太广的编码,同时对于跳答问题的录入也能进行很好的控制,减少错误的条约模式。
数据库软件的录入检查的范围,限制在最常见的逻辑错误上,对于在选项范围内,因为录入员的疏忽而出错的信息,往往是不能察觉,而录入员在问卷的输入过程中,因为速度非常快,即使是非常老练的录入员,也会出现录入错误的情况。
为了保证数据录入的准确性,有必要对录入的结果进行核查,核查的方式主要有双机录入或三机录入。
所谓双机录入的方式,是将同一份问卷分别由两个录入员进行两次录入,将两次的结果进行逐个比较,相同的部分是被认为没有错误的,如果出现不同的部分,检查问
卷,及时修正。
所谓三机录入,即将同一份问卷由不同的录入员录入
3次,将3次的结果通过计算机进行比较,采用“2排1”的选择,如果
2个结果是相同的,排除那个不同的答案。
三机录入的方式可以减少
翻阅问卷的人工
无论是双机录入还是三机录入,都会增加调查的时间和费用成本,而且是成倍地增加。
但是为求得数据的收集录入各个环节的准确性,越来越多的企业和市场调查公司要求数据的正确录入的操作。
如将在图15-1问卷的编码中出现的问题进行录入,问卷编号,城市编码,调查员编号,Q1、Q2、Q3LLQ12-1、Q12-2、Q12-3、Q13、Q14,对应的数据库结构见图15-2。
这样,输入时每份问卷按数据库中指定的位置输入相应变量的取值,一行数字就是一份问卷。
结果所有问卷次依输入完毕就形成一个数据库。
(1)问卷编码是001号,城市是北京市,12号调查员完成的问卷,圈选的结果是:
Q1男性;Q230岁;Q3大学专科;LLQ12圈选的235;Q13非常同意;Q14不同意;
5115-2数据录入结构
(2)问卷编码是005号,城市是上海市,2号调查员完成的问
卷,圈选的结果是:
Q1女性;Q2岁;Q3大学本科;LLQ12
圈选的13;Q13不同意;Q14非常同意;
对应的数据库1)0011121304••…23552;2)
数据的整理
如果在录入过程中,没有实行双机录入(三机录入)的措施,在录入完成之后,有必要对数据进行全面的整理检查。
数据整理主要是尽可能的处理错误或不合理的信息以及进行一致性的检查。
虽然经过
回收问卷、编码过程以及录入的重重检查,但是数据的整理过程是使用计算机进行的,对数据的矫正将更为彻底。
数据整理可使用SPSS或SAS统计软件进行,可以很方便的寻找出超出选项范围、极端值或逻辑上不一样的数据。
通常的做法是首先对所有变量进行频数的计算,对连续性的变量进行均值、标准差、最小值、最大值等统计分析,超出范围的数据和极端的数值很容易检查出来。
例如,图15-1问卷的编码的调查中,关于年龄的填写,假定缺失值为“0;如果出现小于16,或者大于60的数值就是超出范围的。
根据对应的问卷编号,变量编码找出问卷,进行核实。
数据整理是对数据进行的最后一道检查程序,这一步完成后,数据应该是整齐、干净的”,然后进入下一步,对数据进行统计处理分析。
本章小结
1.回收问卷:
数据资料的处理过程是从回收第一份问卷开始的,按
照事先调查方案的计划,尽量确保每份问卷都是有效问卷(所谓有
效”问卷,指的是在调查过程中按照正确的方式执行完成的问卷)。
问卷回收以后,督导员必须按照调查的要求,仔细的检查问卷。
检查问卷的目的在于将有错误填写,或者是挑出不完整或不规范的问卷,保证数据的准确性。
2.问卷编码:
编码是指对一个问题的不同答案进行分组和确定数字代码的过程。
大多数问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组问题的不同答案的数字编码已经确定。
而开放式问题,因为不知道会得到什么答案,或者是希望得到比
列出的封闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后编码。
开放题的事后编码的工作量很大,无法预知会出现多少个新的代码和答案,而且有些答案是非常类似的,必须决定是否合并成一类呢,还是分成不同的代码。
3.数据录入:
数据录入是指将问卷或编码表中的每一个项目对应的
代码转化成计算机能够识别的形式的过程。
这个过程需要数据录入装置(计算机)和一个存储介质(数据库软件、磁盘)。
为了保证数据录入的准确性,有必要对录入的结果进行核查,核查的方式主要有双机录入或三机录入。
第十六章数据分析
第一节常用的统计方法
变量类型
在编码时我们已经提到过,问卷的每一个题目都可以看做是一个变量,由于所提问题的性质不同,对应的变量类别就不一样,变量的类别由低到高依次为:
定类变量、定序变量、定距变量(定比变量)。
(1)定类变量:
变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。
问卷的人口特征中最常使用的问题,而调查被访对象的性别”就是定类变量。
对于定类变量,加减乘除等运算是没有实际意义的。
(2)定序变量:
变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。
问卷的人口特征中最常使用的问题教育程度”以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。
(3)定距变量:
变量的值之间可以比较大小,两个值的差有实
际意义,这样的变量叫定距变量。
有时问卷在调查被访者的年龄”
和每月平均收入”都是定距变量。
定比变量与定距变量在市场调查中一般不加以区分,它们的差别
在于,定距变量取值为“0时,不表示没有”仅仅是取值为0。
定比变量取值为“0时,则表示没有”上面举的年龄”每月平均收入”也是定比变量,因为它们的“0值都表示没有”而像温度”这样的变量中的“0值并不表示没有”而是表示“0”这一特定温度,这样的变量是定距变量,但不是定比变量。
在统计分析时,对不同类型的变量要选用不同的方法。
一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量,反之则不行。
比如适用于定类变量的分析方法,同时也可用于其他类别的变
量,反过来适于定距变量的分析方法,一般不能用于其他类别的变量。
由于市场调查中的定类、定序变量较多,为了能够使用更多的统计方法,常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量,这样只适用于定距变量的统计方法,就可以用于这些定类和定序变量了。
对于缺失值的处理
在数据整理中,经常会碰到缺失值的问题,缺失值的数量过多的话,说明数据收集过程中存在着严重的问题。
可以接受的标准是,缺失值的数量在10%以下。
处理缺失值的方法有下面4种:
(1)用一个样本统计量的值代替缺失值缺失值可以使用一个样本的统计量去代替,最典型的做法就是使用该变量的样本平均值。
由于该变量的平均值保持不变,其他的统计量如标准差、相关系数等都不会受到影响。
如在收入或者年龄问题中出现缺失值,可以使用收入、年龄的平均值代替缺失值。
(2)用从一个统计模型计算出来的值去代替缺失值另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替,常使用的模型有回归模型、判别模型等等。
如“个人收入”、“年龄”与“品牌的选择”可能存在关系,利用这三个问题的被访者问答数据,可能构造出一个回归方程。
根据这个回归方程,对于没有回答“品牌选择”的被访者,可以根据“个人收入”和“年龄”的选项,利用回归方程式,计算出品牌选择的值。
(3)将有缺失值的个案删除
将有缺失值的个鞍删除的方法,结果可能会导致样本量的减少,如果调查在收集过程中控制得不是很好,被访对象多多少少都会出现一些问题没有回答的情况,删除个案的方法,会导致大量的样本减少。
(4)将有缺失值的个案保留,仅在相应的分析中做必要的删除
将有缺失值的个案保留,仅在相应的分析中做必要的排除的方法,会使分析中不同计算的样本量不同,也有可能导致不适宜的结果。
调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度的相关的情况下,市场研究者经常采用这种方式处理缺失值。
统计方法
根据研究的目的与要求,要选择不同的统计方法。
如果是对一个变量取值的归纳整理及对其分布形态的研究,用频数分析(计算百分
比等)、众数、中位数、均值和标准差等方法或统计量来描述;对两个变量的相关性分析,可以用卡方分析、单因素方差分析、简单相关系数、一元线性回归分析等方法;对多个变量间的相关性分析,可以用多元线性回归、判别分析、聚类分析、因子分析等方法。
在学习掌握这些统计方法的同时,还应该会熟练使用相关的统计软件,因为很多统计方法靠手工计算是难以完成的。
现在普遍使用的统计软件是SPSSSAS。
F面我们分单变量的分析、两个变量的相关分析、多个变量的相关分析三部分,介绍一些常用的统计方法,主要介绍如何应用这些方法,并列举模拟的例子,给出相应的用SPSS统计软件分析的结果,使读者能够较快地学会使用这些方法。
第二节单变量分析
频数和百分比
所谓频数(Frequencies,时变量某一个去值的个案数;所谓百分比(Percentage,是表示该取值的个案数占总样本的比例,即频数/样本量X100%。
将变量所有取值的频数和百分比列在一个表中,这种表叫频数表,从中可以看出变量各个取值的分布情况。
频数表分析方式一般适用于定序变量和定类变量,对定距变量,必须先将变量的取值进行分组,每一个分组作为一个新的选项,然后对这些新的选项进行频数表的计算。
(例1)
表1&1频数数据i十算结果
Valid
Cum
ValueLaible
Value
Frequency
PPercent
Percent
Percent
1
1
1-3
~.2~
.2
2
io
|2.0
2?
2'5
193
385
44J
46.5
4
216
43J
49J
96.3
5
16
~3.2
100.0
■i
65
n13.0
B■'
missing
1
11
Total
501
100.0
100.0
Valid
436
Missingcase
65
表中第一列是变量标签”是对变量取值的说明(现在使用的SPSS软件虽然是英文版,但是已经可以兼容中文,变量标签可以使用中文表示)。
第二列是变量取值”即:
“侄“5分别代表了非常不好”到非常好”其中“•代表缺失值,即有些人没有回答此题;
第三列是频数”对应的数值表示各个取值的个案数,这里认为非常好”有16样本、认为好”的有216个样本、认为一般”的有193人、认为不好”的有10个样本、认为非常不好”的有1个人,而没回答此题约有65人。
第四列是百分比”是频数对样本量(501人)的比率。
第五列是有效百分比”是频数对有效个案数(所谓有效个案数,
即样本量减去缺失个案数)的比例,这里有效个案数是436人。
第六列是累计百分比”是对有效百分比的逐行累加的结果。
从对该题的频数分析的结果来看,对A品牌广告的评价总的来说还是倾向于比较好的,所有的样本中,认为不好”或者非常不好”的比例合计只有2.5%,即占样本2.5%的人不喜欢A品牌的广告。
频数和百分比计算中,百分比大小比较是一个相对的概念,频数大小则是绝对的数值,在市场分析报告中,经常利用百分比来说明结果,但是有时也需要频数进一步的说明之间的差异。
在比较两个公司的营业额的增长幅度时,A公司和B公司的经营规模差异巨大的情况下,虽然A公司的增长幅度没有B公司快,这是因为A公司的实际规模可能是B公司的几十倍,在这种情况下,也需要比较增长的实际数额,才能全面的说明问题。
指数
指数(Index)的计算方法很多,最常用的一种方法是,将一些待比较的数字中的一个特定的数字定为基数100,计算其他数字相对于基数的百分数。
用各种指数来描述和比较一些特定的市场的问题,既方便又直观。
定义适当的指数不但可以进行横向(不同空间)的比较,还可以进行纵向(不同时间)的比较。
为了说明20多年来广告的发展情况,可以1978广告营业额作为基数,计算以后每年广告经营额与基数的百分比,如果小于100的指数表明广告经营额的负增长,如果大于100的指数,代表增长,而且还能够计算出来增长的幅度。
指数的使用和计算方法多种多样,在使用时要注意几个问题:
首先,自定义指数时,应以简便的、合理的描述研究结果为原则;在自定义指数时,在考虑定义的合理性和科学性的基础上,还需要考虑其计算是否方便可行。
因此使用指数进行比较时,首先应该查阅和参考那些已经明确定义的、使用广泛的指数,避免重复制造。
其次,在应用这些指数的概念时,还必须详细了解其定义和计算
方法,以便正确的使用。
目前国内的《中国统计年鉴》和各个省市的
《统计年鉴》中,指数使用已经非常平常。
包括价格指数、消费指数、收入指数等,同时类似于房地产价格指数、股票价格指数等在相应的专业领域里使用的也是非常广泛。
最后,指数定义的基数一定要与研究目的紧密结合,根据调查的目的,确定是进行横向比较,还是进行纵向比较更为有效,从而确定基数的订立基准。
众数、中位数、均值和标准差
用于描述一组市场调查数据或资料的中心的常用的统计量有三
种:
众数、中位数和平均数。
所谓众数(Mode),是表示一组数据中出现次数最多或最常见的数值。
在市场调查的数据中,众数代表了典型的个案,或者是分布的高峰所对应的变量取值。
变量的所有取值中频数最大的取值,如在消费者的教育程度问题里,初中学历程度选项最多,所以初中相对应的变量编码,就是众数。
众数适于描述定序和定类变量,对于定距变量,可先将数据分组,分组后频数最大的那一组的组中值,被近似的认为是该变量的众数。
中位数(Median)表示一组数据按照大小的顺序排列时,中间位置的那个数值,即针对某个变量,有50%的个案的取值在中位数以下。
通俗的讲,样本的所有观测值中,有一半数比中位数大,有一半数比中位数小。
中位数的计算时会面临两种情况:
当样本数(n)
是奇数时,将样本的所有观测值按由小到大(或由大到小)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 市场营销 调研 数据