多变量分析Word格式.docx
- 文档编号:16404844
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:18
- 大小:36.51KB
多变量分析Word格式.docx
《多变量分析Word格式.docx》由会员分享,可在线阅读,更多相关《多变量分析Word格式.docx(18页珍藏版)》请在冰豆网上搜索。
从图中我们可以看出:
美国车都比较大,家庭型,主要购买者是已婚带孩子的;
日本和欧洲车主要是小型、运动的和已婚没有孩子的人购买;
特别注意:
单身和单身带孩子的往往是租赁汽车,收入单一来源,但这个地区没有车满足这个市场,或许是市场空白;
具体的解读大家可以根据自己的研究设计和假设去寻找答案!
主要统计指标可以看:
上图主要给我们了对应图维度的解释比率,最下面的图大家会看吗?
提示:
夹角是锐角意味着相关,所以:
定类变量的相关性是不是可以解释啦!
总结:
(同样适合简单对应分析)
对应分析的优点:
定性变量划分的类别越多,这种方法的优势越明显。
揭示行变量类别间与列变量类别间的联系。
将类别联系直观地表现在二维图形中(对应图)。
可以将名义变量或次序变量转变为间距变量。
对应分析的缺点:
不能用于相关关系的假设检验。
维度要由研究者决定。
有时候对应图解释比较困难。
对极端值比较敏感。
II.对应分析是一种多元统计分析技术,主要分析定性数据Category
Data方法,也是强有力的数据图示化技术,当然也是强有力的市场研究分析技术。
这里主要介绍大家了解对应分析的基本方法,如何帮助探索数据,分析列联表和卡方的独立性检验,如何解释对应图,当然大家也可以看到如何用SPSS操作对应分析和对数据格式的要求!
对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。
交互表的信息以图形的方式展示。
主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
适用于两个或多个定类变量。
主要应用领域:
概念发展(Concept
Development)新产品开发(New
ProductDevelopment)市场细分(Market
Segmentation)竞争分析(Competitive
Analysis)广告研究(Advertisement
Research)
主要回答以下问题:
谁是我的用户?
还有谁是我的用户?
谁是我竞争对手的用户?
相对于我的竞争对手的产品,我的产品的定位如何?
与竞争对手有何差异?
我还应该开发哪些新产品?
对于我的新产品,我应该将目标指向哪些消费者?
数据的格式要求
对应分析数据的典型格式是列联表或交叉频数表。
两个变量间——简单对应分析。
多个变量间——多元对应分析。
案例分析:
自杀数据分析
上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别和年龄数据!
POISON(毒药)GAS(煤气)HANG(上吊)DROWN(溺水)GUN(开枪)JUMP(跳楼)(我们就不翻译成中文了,读者可以把六个方式想象成品牌或别的什么)
当然,我们拿到的最初原始数据可能是SPSS数据格式记录表,
其中,性别取值1-male
2-female,年龄取值1-5,分别表示不同年龄段。
要回答的问题是:
1-不同性别的人在选择自杀方式上有什么差别?
2-不同年龄的人在选择自杀方式上有什么差别?
3-不同性别年龄的人在选择自杀方式上有什么差别?
我们首先,把性别字段乘上10加上年龄字段生成新字段sexage,取值是11-15,21-25,然后分别用M/F和年龄组中值代表Sexage字段的变量值标,这样我们就可以进行简单对应分析了!
现在问大家,如果你看到上面的6×
10的矩阵-列联表,你能看出什么差异?
现在我们采用SPSS软件进行对应分析!
(我现在用的是SPSS17.0多语言版本,前两天听博易智讯的人说,现在SPSS已经有18.0版本了,不过从对应分析方法角度我还是希望用11.5版本,因为可以自己拆分重新组合修改图形,现在的版本是图片了,不能随心所欲的修改,不爽!
)
分别定义好行列变量以及它们的取值范围!
对应分析中,6×
10的列联表(交互表)可以得到行列维度最小值减1的维度,我们看到第一维度Dim1解释了列联表的60.4%,第二维度Dim2解释了列联表的33.0%,说明在两个维度上已经能够说明数据的93.4%,这是比较理想的,当然我们也可以看卡方检验等!
下面我们主要解释如何解读对应图(小蚊子的博客中也有非常相似的解释,我非常欣赏他的博客)
首先对SPSS分析得到的对应图进行修饰和编辑,在零点增加两条中线!
解读方法:
1-总体观察:
我们从图上左右可以看出,左边全部是M*,男性,右边F*全部是女性,说明男女有显著差异;
同时看横轴中线上方都是年龄大的,下面都是年龄小的,说明年龄有差异;
这样就一目了然看出和回答了前两个问题;
2-观察邻近区域
我们从图上可以看出,老的男性比较喜欢HANG,GAS和GUN是年轻男性的偏好;
老的女性比较喜欢DAWN,年轻的女性比较偏好POISON;
3-向量分析——偏好排序
我们可以从中心向任意点连线-向量,例如从中心向GUN做向量,然后让所有的人往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种方法。
记住:
是垂点到GUN正向排名,从图中我们可以看出,希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等;
依次类推,我们还可以从中心向任意一种方法作垂线,都可以排出每种方法选择人群的偏好次序;
当然,你也可以从中心往所有的人作向量,得到每一类人在选择六种方法上的偏好排名!
你是否可以看出,F15年轻的女性对六个“品牌”的偏好吗?
4-向量的夹角——余弦定理
接着,我们可以从向量夹角的角度看不同方法或不同人之间的相似情况,从余弦定理的角度看相似性!
从图上我们可以看出,当我们从中心向任意两个点(相同类别)做向量的时候,夹角是锐角的话表示两个方法具有相似性,锐角越小越相似;
也就是说,GUN和GAS是相似品牌,当如也是竞争品牌,也具有替代性,如果这次开枪没有自杀成功,下次他一定选择毒气啦;
我们也看出F15和F30的人比较相似,但F15与M80就有非常大的差异了,因为如果作向量他们是钝角,几乎是平角了!
5-从距离中的位置看:
越靠近中心,越没有特征,越远离中心,说明特征越明显
从这张对应图中我们看到,有些点远离中心,有些点靠近中心,这说明什么呢?
从几何空间的角度,如果我对每一人都一样的好,在规范图上我就应该站在大家的重心,也就是中心;
这说明越靠近中心的点,越没有差异,(记住:
没有差异并不代表不重要,只是没有差异,因为统计的技术是研究差异的技术,差异越大往往重要性就大!
),越远离中心特征越明显,也就是说,如果听到一个M80的人自杀了,估计你就会想到是不是HANG啦!
从品牌角度思考,说明越远离中的的品牌,消费者很容易识别,说明品牌特征(特色、特点)明显,越靠近中心的品牌,消费者不易识别,也说明你的品牌定位没有显著可识别的特征,没有差异认知!
6-坐标轴定义和象限分析
我们还没有定义坐标轴呢?
从第一点的分析,其实我们很快就可以定义坐标轴的含义了!
(当然有时候对应图的座位是非常难定义的)
因此,落在第四象限的是年轻的女性所喜欢的品牌!
7-产品定位:
理想点与反理想点模型
我们可以在图上以POISON为定位点,以POISON为圆心,以它的利益为半径画圆,那么我们可以得出这样的结论:
越先圈进来的人就是最喜欢这个品牌的消费群,越先圈进来的品牌越可能是竞争品牌;
当然,你也可以以某类人作为圆心,同意解读;
如果POISON是市场不存在的,在调查中可以设定为理想点,这样我们就可以得到理想点模型,同理也可以得到反理想点模型分析!
8-市场细分和定位
最后,研究人员可以根据前面的分析和自身市场状况,进行市场细分,找到目标消费群,然后定位进行分析!
最终选择不同的目标市场制定有针对性的营销策略和市场投放!
我们也可以尝试采用多元对应分析,但不如简单对应分析有意义!
简单对应分析的优点:
定性变量划分的类别越多,这种方法的优势越明显,揭示行变量类别间与列变量类别间的联系,将类别联系直观地表现在二维图形中(对应图),可以将名义变量或次序变量转变为间距变量。
简单对应分析的缺点:
不能用于相关关系的假设检验,维度要由研究者决定,有时候对应图解释比较困难,对极端值比较敏感。
结合分析(ConjointAnalysis)是一种应用广泛,非常流行和有效的市场研究技术。
近些年来,结合分析广泛地应用在消费品、工业产品和商业服务等相关领域的市场研究中,在我国越来越受到市场研究公司和企业的重视,尤其是在汽车行业的市场研究领域,结合分析在汽车的新产品开发、市场占有率分析、竞争分析、市场细分和价格策略等方面都发挥了积极而有效的作用。
结合分析也叫联合分析技术!
结合分析适用于测量消费者的心理判断,如理解(Perceptions)和偏好(Preferences)。
在结合分析中,产品/服务被描述为“轮廓”(Profiles),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平的组合构成的。
结合分析的一个重要的基本假定是:
消费者是根据构成产品/服务的多个属性来进行理解和作偏好判断;
也就是说,消费者对产品/服务的偏好每次并不是基于一个因素而是基于几个因素的结合来判断的,消费者对某一轮廓的偏好可以分解成构成该轮廓的多个属性的偏好得分(Preference
Scores)。
在结合分析中用效用值(utilities)来描述。
结合分析是一种多元统计分析方法。
其因变量是消费者对某一轮廓的整体偏好评价。
某一轮廓的整体也称为全轮廓(fullprofiles),是由全部属性的各个水平组合构成的。
自变量是组成各轮廓的不同属性(因子)水平。
因此,结合分析是在已知消费者对全轮廓的评价结果(overall
evaluations)的基础上,经过分解的方法(decompositionalapproach)去估计其偏好结构的一种分析法。
在结合分析中,轮廓是由研究人员事先按照某种因子结构(factorialstructure)采用部分因子正交实验加以设计的。
结合分析有三个主要目的:
(1)确定消费者赋予某个预测变量(水平)的贡献和效用(utilities)以及属性的相对重要性
(2)寻找消费者可接受的某种产品的最佳市场组合,这种组合最初可能并没有被消费者所评价(3)模拟市场,估计市场占有率和市场占有率变化。
为了达到这些研究目的,首先要估计不同属性水平的效用,进一步计算出属性的相对重要性(Attributes
relativeimportance)和轮廓效用(profileutilities),以便定量化地测量消费者的偏好,然后基于消费者的偏好采用最大效用模型或者Bradley-Terry-Luce(BTL)模型和logit模型估计市场占有率。
全轮廓方法:
每一个属性同时展现给消费者
样本量:
一般消费者研究100到400之间调查方法:
派调查员面访 face-to-face因子设计:
属性和水平数目不太多(&
lt;
20个最多不超过30个)部分因子设计:
正交排列法orthoplan估计主效应(maineffect)产品/服务的概念(轮廓)事先设计和确定。
调查可以采用纸张或计算机辅助访问。
最小轮廓数选择:
NC=NL-NA+1,
其中:
NC:
最小组合轮廓数
NL:
所有属性水平数的和
NA:
所有属性数的和
例如:
六个属性,每个属性有4个水平,可能组合数=4×
4×
4=4096(种),
最小组合数=(4+4+4+4+4+4)-6+1=19(种)
推荐组合轮廓数:
最小轮廓数的1.5到2倍
下面我们通过一个案例:
赛欧轿车上市前的市场分析,阐述了结合分析在汽车市场的应用,以及采用一般最小二乘法(OLS)回归估计主效应的全轮廓结合分析法的基本概念、原理、步骤和方法。
(备注:
研究的时候产品配置已知,但还没有下线投放市场)
根据研究目的和前期的定性研究,最终确定了产品的属性和水平:
在确认了属性水平后,我们通过SPSS来进行正交实验设计。
我们可以依次定义每一个属性和水平,SPSS软件最多提供每个属性有9个水平的可能性,所以如果水平数太多就要考虑其它方法,或者进行相应的变换,当然,如果属性的水平数越多代表了你越重视它,将来的分析相当重要性就会高!
正交实验设计方法,在SPSS是比较简单的,人为的控制不多,我们只能寄希望SPSS的正交实验设计给我们一个号的结果,但没有评估设计效应的指标。
如果你希望下次得到同样的正交设计集,必须设定一样的随机种子!
在这点上说,如果对于复杂的正交实验设计,我还是比较偏向用SAS软件来进行,不仅得到的结果比较好,还有设计效应等各种指标评估,所以,实际市场研究中,大部分情况都是SAS来完成的!
其实我用SAS,有时候更简单的,就几个命令:
%mktrun和%mktex等;
设计好后,大家记住,先不用运行,先要“粘贴”下来,也就是把语法粘贴下来,因为ConjointAnalysis分析方法在SPSS中没有窗体命令,必须用语法执行!
当然,在细节上还有“Holdout”卡片的问题,(检验问题,但是对于商业研究我基本上都不用了,为了保证更好的建模卡片,为了减轻被访者负担,反正做都做了!
——这里我没有学术思想啦)
正交实验设计生成了16张卡片,同时也是随机卡片集,并产生两个系统变量,不要改变变量名称,其中:
STATUS_值标
1-Design2-Holdout3-Simulation
我们并不关心这16张卡片如何,我们只是关系这16张卡片的对432种组合产品的代表性,原则上即使有不理想或不现实的卡片出现,也不要没理由的删除!
在SPSS系统分析中,最好考察属性水平设定的问题,而不要随意改变!
下面我们就要考虑收集被访者评价信息了,当然也包括卡片的展示方式!
收集到被访者信息后,我们就可以分析了!
我这里采用了最一般的离散变量方法,实际上属性变量可以有多种模型(离散、线性、理想点、反理想点等)
结合分析既可以分析群体、总体也可以分析每个人的偏好选择!
大家可以根据公式自己计算个体和群体的效用值、属性相对重要性等,但是记住:
所以群体的效用值、相对重要性来自于个体的平均!
从分析的角度,有时候模拟市场,模拟市场份额是最重要的分析,但是如果研究者不是最终决策者,就必须设计市场组合份额的模拟器,我一般采用Excel来设计,这需要大家懂得结合分析原理,并能够设计Excel应用!
在文章的最上面,我是采用Excel设计的电脑配置的市场研究模拟器,希望对你有所启发!
近年来,结合分析成为市场研究的重要利器,但是它也有着局限性,所以开发了不同的改进方法和软件工具,代表性的就是Sawtooth公司的产品,另外也可以考虑更复杂的CBC技术,离散选择模型!
(下次再专题讲)
最后,要说明的是结合分析只是得到了消费者的偏好,喜欢一个人,并不一定会跟她结婚的!
多元回归分析(MultipleRegressionAnalysis)是多变量分析的基础,也是理解监督类分析方法的入口!
实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或是如何将回归应用于实践,可能还要真正领会回归分析的基本思想和一些实际应用手法!
下面我们就来谈谈多元回归分析,这张图是利用多元线性回归制作的策略分析图,你可以理解X轴是重要性,Y轴是表现;
首先,多元回归分析应该强调是多元线性回归分析!
强调线性是因为大部分人用回归都是线性回归,线性的就是直线的,直线的就是简单的,简单的就是因果成比例的;
理论上讲,非线性的关系我们都可以通过函数变化线性化,就比如:
Y=a+bLnX,我们可以令t=LnX,方程就变成了Y=a+bt,也就线性化了。
一般我们采用的变化要根据数据分布特征来进行,下表是常用的变化方法:
当然,变化的主要目的是线性化,同时期望数据分布是近似正态分布!
第二,线性回归思想包含在其它多变量分析中,例如:
判别分析的自变量实际上是回归,尤其是Fisher线性回归方程;
Logistics回归的自变量也是回归,只不过是计算线性回归方程的得分进行了概率转换;
甚至因子分析和主成分分析最终的因子得分或主成分得分也是回归算出来的;
当然,还有很多分析最终也是回归思想!
第三:
什么是“回归”,回归就是向平均靠拢。
第四:
如果你用线性回归方式去解释过去,你只能朝着一个趋势继续,但未来对过去的偏离有无数种可能性;
第五:
线性回归方程纳入的自变量越多,越应该能够反应现实,但解释起来就越困难;
第六:
统计学家往往追求的是简约的模型和更高的解释度,往往关注模型R平方,共线性和回归诊断问题;
第七:
市场研究人员往往注重模型的解释合理性,是否与预设的直觉一直,是否支持了我的市场假设等;
下面我们从市场研究人员的角度看看如何利用多元线性回归:
多元线性回归分析的主要目的是:
解释和预测
假设我们收集了100个企业客户经理对我产品的总体满意度和分项指标的满意度评价,我期望知道,什么分项指标对我总体满意度有重要影响,它的改进更能够提升总体满意度;
如果建立预测模型,我期望知道了分项指标的评价就能够预测总体满意度数值;
在SPSS中选择回归分析后,把X10作为因变量,X1到X7作为自变量一般选择自变量进入方程的方法,可以先采用逐步回归,让计算机程序帮助确定变量的重要性,这在统计层面非常好,但是如果针对我现在的研究我需要采用Enter全部进入,如果某个指标不显著,就不在方程中了我如何与客户说呢?
(假设他不懂统计,并且我需要完成上面的策略图);
选择相应的统计参数和输出结果,注意:
多变量分析都需要考虑缺省值问题,逐步回归中我们可以得到R平方的变化对我们理解方程有帮助!
(Enter方法不需要)R平方是我们最需要关注的,该值说明了方程的拟合好坏,R平方=0.80非常不错了,说明:
1)总体满意度的80%的变差都可以由7个分项指标解释,或者说,7个分项指标可以解释总体满意度80%的变差!
2)R平方如果太大,大家不要高兴太早,社会科学很少有那么完美的预测或解释,一定存在了共线性!
方程分析表的显著性表明了回归具有解释力!
线性回归方程给出可预测的计算系数,但是,社会科学很少进行预测,重要的是解释;
这里要注意的是如果自变量的测量尺度是统一的话,我们可以直接比较系数的大小,但是如果自变量的测量尺度不统一的话,我们必须看标准化回归系数,标准化回归系数去掉的量纲,且反应了重要性!
我们就是需要重要性测量!
当然,这个时候,研究人员应该关注每个指标的回归系数是否真的等于零,要进行假设检验!
我这里就直接应用了,我们可以把7个自变量指标的均值作为表现,7个自变量的标准化相关系数作为重要性,完成散点图!
重要的指标,表现差当然是我们急需改进的了,这就是前面策略图了。
我这是典型的市场研究思维方式,不太关注统计意义,而且我将所有的坐标轴和坐标数值都让你看不到,我只是表现了测量,或许对市场洞察足够了;
但记住统计学家不能这样!
如果你是关注统计思想的人,应该要理解下面这张回归解释图!
线性回归:
提及因果关系,必须非常谨慎!
物以类聚,人以群分,聚类分析是一种重要的多变量统计方法,但记住其实它是一种数据分析方法,不能进行统计推断的。
当然,聚类分析主要应用在市场细分等领域,我们也经常采用聚类分析技术来实现对抽样框的分层,我就不多罗嗦了。
聚类分析:
顾名思义是一种分类的多元统计分析方法。
按照个体或样品(individuals,objectsorsubjects)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。
我们也可以对变量进行聚类—分类,但是更常见的还是对个体分类(样本聚类——细分)。
为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。
常用的指标为“距离”和“相似系数”,假定研究对象均用所谓的“点”来表示。
在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类!
(一般的相似系数就是相关系数了)
基本概念:
需要一组表示个体性质或特征的变量,称之为聚类变量。
根据个体或样本之间联系的紧密程度进行分类。
一般来说分类变量的组合都是由研究者规定的,不是像其它多元分析方法那样估计推导出来的。
聚类分析前所有个体或样本所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。
所以:
严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。
聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。
聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。
聚类方法:
聚类分析简单、直观。
聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;
不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;
聚类分析的解完全依赖于研究者所选择
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多变 分析