第六章方差分析案例Word格式.docx
- 文档编号:20187151
- 上传时间:2023-01-17
- 格式:DOCX
- 页数:15
- 大小:89.24KB
第六章方差分析案例Word格式.docx
《第六章方差分析案例Word格式.docx》由会员分享,可在线阅读,更多相关《第六章方差分析案例Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
抑郁症有两种含义,广义的抑郁症包括情感性精神病、抑郁性神经症、反应性抑郁症、更年期抑郁症等;
狭义的则仅指情感性精神病抑郁症。
抑郁症在国外是一种十分常见的精神疾病,据报告,其患病率最高竟占人群的10%左右,而且社会经济情况较好的阶层,患病率越高。
世界卫生组织预测,抑郁症将成为21世纪人类的主要杀手。
全世界患有抑郁症的人数在不断增长,而抑郁症患者中有10—15%面临自杀的危险……引起抑郁症的原因有很多,为了了解地理位置对抑郁症是否有影响,我们做如下的案例分析:
三、地理位置与患抑郁症之间是否有关系
作为对65岁以上的人长期研究的一部分,在纽约洲北部地区的Wentworth医疗中心的社会学专家和内科医生进行了一项研究,以调查地理位置与患抑郁症之间的关系。
选择了60个相当健康的人组成一个样本,其中20人居住在佛罗里达,20人居住在纽约,20人居住在北卡罗米纳。
对中选的人给出了测量抑郁症的一个标准化实验,搜集到表1中的资料,较高的分表示较高的抑郁症水平。
这种状况的人也选出60个组成样本,同样20人居住在佛罗里达,20人居住在纽约,20人居住在北卡罗米纳。
要求根据所给的样本数据,做出以下管理报告:
描述统计学方法概括说明两部分研究的资料,关于抑郁症的得分,你的初步观测结果是什么?
对两个数据集使用方差分析方法,陈述每种情况下被检验的假设,你的结论是什么?
用推断法说明单个处理均值的合理性
讨论这个研究的推广和你认为有用的其他分析
四、有关统计方法
本案例是通过单因素的方差分析,对各个地区的抑郁症得分均值进行假设检验。
分别检验地理位置对健康人群和慢性病患者是否有影响,以及影响程度,进而得出结论。
五、案例分析
首先:
数据资料中的数据,并不能直接看出地区与患抑郁症之间有联系与否。
我们可以根据所给的样本资料,得到以下信息:
(一)健康的被调查者中:
佛罗里达地区平均得分=5.55
纽约地区平均得分=8
北卡罗米纳地区平均得分=7.05
(二)患抑郁症的被调查者中:
佛罗里达地区平均得分=13.6
纽约地区平均得分=15.25
北卡罗米纳地区平均得分=13.95
(三)我们给出不同地区所有被调查者的平均得分情况
佛罗里达地区平均得分=9.575
纽约地区平均得分=11.625
北卡罗米纳地区平均得分=10.5
根据计算出的样本均值,给出相同地区不同健康状况下平均得分的比较图示以及不同地区所有被调查者的数据均值如图所示:
由以上图示,初步观测结论如下:
从同一地区来看,患慢性病的被调查者患抑郁症的水平明显高于健康者;
从地区差异来看,纽约地区患抑郁症的平均水平最高,北卡罗米纳次之,佛罗里达最低。
然后:
为了进一步探讨地理位置与患抑郁症之间是否有显著关系,我们进行假设检验。
该案例实质是检验不同水平下总体均值是否相等。
我们把其他因素固定,只保留“地理位置”这个因素,来检验在不同地理位置,患抑郁症水平是否显著不同。
方差分析表如下所示:
方差分析:
单因素方差分析
SUMMARY
组
计数
求和
平均
方差
40
383
9.575
26.55833
465
11.625
24.13782
北卡罗米纳
420
10.5
20.35897
方差分析
差异源
SS
Df
MS
F
P-value
Fcrit
组间
84.31667
42.15833
1.779956
0.173182
3.073765
组内
2771.15
117
23.68504
总计
2855.467
119
从分析结果看,由于P值0.173182大于给定的显著性水平0.05,因此有充分的理由接受原假设,即不同地理位置下患抑郁症的测试平均水平相同,所以地理位置与抑郁症之间无显著性关系。
由表1数据资料,进行单因素方差分析如下表:
111
5.55
4.576316
160
4.842105
141
7.05
8.05
df
61.03333
30.51667
5.240886
0.00814
3.158846
331.9
57
5.822807
392.9333
59
从分析结果看,由于P值0.00814小于给定的显著性水平0.05,因此有理由拒绝原假设,即不同地理位置中患抑郁症的测试平均水平不相同,所以地理位置与抑郁症有关系。
同上,由表2中数据资料,进行方差分析可得下表:
272
13.6
15.83158
305
15.25
17.03947
279
13.95
8.681579
30.23333
15.11667
1.091387
0.342663
789.5
13.85088
819.7333
从分析结果看,由于P值0.342663大于给定的显著性水平0.05,因此有充分的理由接受原假设,即不同地理位置下患抑郁症的测试平均水平相同,所以地理位置与抑郁症之间无显著性关系。
综上所述:
人们的健康状况对其抑郁症水平有影响;
不同的健康状况下,地理位置对抑郁症的影响也有不同,即地理位置对健康人群有显著性影响,而对慢性病患者没有显著性影响。
统计大家—Ronald.A.Fisher
改编自贾俊平《统计学》
Ronald.Aylmer.Fisher(1890-1962)出生于英国伦敦,在剑桥大学攻读数学和物理。
他早年居无定所——在一家投资公司任过职,在加拿大的一个农场工作过,在英国的公立学校教过书。
他对生物测定学产生了兴趣,而这一兴趣令他在1919年加入了位于Rothamstd的一个世界著名的农业试验场。
在那里,他负责对有关田间试验和天气记录的66年累积数据进行分类和再评估——在这个过程中他成为了20世纪的主导统计学家之一。
早期他出版了开创新纪元的《StatisticsMethodsforResearchWorkers》(1925),该书后来被翻译成各种语言并再版了14次,成为世界各地科研人员的“圣经”。
其后还有两本同样深具影响的著作《TheGeneticTheoryofNaturalSelection》(1930)和《TheDesignofExperiments》,前者是一本把达尔文进化论和孟德尔的遗传学融合到一起的大作。
这些书的出版确立了Fisher作为一名一流的统计学家的地位也确立了他作为一名一流的遗传学家的地位。
实际上,在他晚年迁往澳大利亚之前,Fisher先后在伦敦大学和剑桥大学长期担任优生学教授。
然而,上面所引用的作品仅仅是Fisher诸多作品的一个开端。
在近50年的时间里,他每两个月就发表一篇论文,而且绝大部分论文都开辟了新天地!
因此,我们很难确定他的诸多贡献中哪一个才是最值得称颂的,也绝对没有可能用少许的篇幅来展示这位多产的学者是如何彻彻底底地纵横在统计学这一领域的。
他是在实验中使用随机分组、拉丁方格、因子设计和混合设计的先驱者。
之后,他推进了估计理论(并引入无偏性、一致性、有效性等概论),使相关、回归和方差(和协方差)分析发展成现在的状态。
在Fisher和William.S.Gosset研究的基础上,人们才建立了小样本假设检验的综合理论。
不足为奇,Fisher的一生获得了无数荣誉和奖励,他甚至于1952年被封为爵士。
下面通过一个简单的例子说明Fisher解决统计问题的思路是如此的妙绝。
我们知道,方差分析中,当样本拒绝原假设时,只能认为各总体均值不全相等,但不能给出这种不相等到底出现在哪些总体之间。
这需要进一步的多重比较,多重比较法有多种,其中Fisher的最小显著差异方法,即LSD(leastsignificantdifference)法,是最为简单的方法。
使用该方法进行检验的具体步骤是:
第一步:
提出原假设:
;
第二步:
计算检验统计量:
第三步:
计算LSD,公式为:
,
式中的
为t分布的临界值,自由度为n-k,这里的k是因素水平的个数。
MSE为组内均方差。
和
为相应样本的容量。
第四步:
根据显著性水平作出决策:
如果
>
LSD,则拒绝H0,否则不拒绝之。
解决思路如此直接明了!
正交试验设计与方差分析在市场调查中的应用研究
朱建平
摘要:
本文主要通过正交试验设计分析,确定组成产品/服务各主要因素在消费者心目中的相对重要程度以及各因素的水平效应。
并在此基础上,对产品/服务的市场前景进行预测。
关键词:
正交试验设计极差分析方差分析水平效应
一、引言
我们知道,消费者在购买产品/服务时通常会考虑许多因素,如价格、品牌、款式以及产品的特有功能等。
那么在这些因素当中,每个因素对消费者的重要程度如何?
在同样的机会成本下,产品具有哪些因素水平最能贏得消费者的满意?
我们试用正交试验设计理论来分析解决这类问题。
正交试验设计(简称正交设计或正交试验)是利用“正交表”进行科学地安排与分析多因素试验方法。
它的优点是能在很多试验方案中挑选出代表性很强的少数试验方案,并通过对这少数方案的试验结果的分析,推断出影响试验结果的主要因素,同时还可作进一步的分析,得到比试验结果本身给出的还要多的有关各因素的信息。
二、实例分析
以下通过一个例子来说明正交试验设计理论在市场调查中的应用。
假设某电脑公司计划向市场推出一款中低档的电脑,定价在6000元左右,目前电脑市场上假设有两家竞争对手,一是联想,二是TCL。
联想具有品牌优势,而TCL是目前电脑市场上的新秀,具有价格上的优势。
那么这家电脑公司应采用什么样的产品配置才能贏得消费者的青睐?
我们利用正交试验设计来分析这个问题。
1.确定因素与水平
根据以往的经验,电脑的价格、品牌以及处理器类型是影响消费者选购电脑的最主要因素。
因此,我们决定选取价格、品牌、处理器类型为主要因素进行分析。
根据市场调查我们还了解到,目前市场上中低档电脑价格在5000—7000元之间。
因此,可以考虑的定价为5000、6000、7000;
处理器类型方面,目前较普遍的中低档电脑配置为赛扬333、赛扬400、PⅡ400。
因此,最终选择的因素水平为:
水平
品牌
处理器
价格
1
XX
TCL
联想
赛扬333
赛扬400
PⅡ400
5000
6000
7000
其中:
XX为该公司即将上市的新产品
2.正交设计
在本例中我们选用正交表L9(34)安排试验,结果如下:
方案
3.数据收集
数据的收集方式是问卷调查,我们在问卷调查中作出这样的要求:
请您认真比较上述9种方案并给出相应的购买可能性得分。
采用9分制,1表示完全不可能,9表示非常可能,打分区间[19]。
通过调查得到某一消费者对上述9种方案的评价如下:
表3
购买可能性得分
4.确定因素的相对重要程度(极差分析)
引进记号:
其中s为第j列上水平号i出现的次数
wj表示第j列所在因素在方案中的相对重要程度。
计算结果列在表4上。
一般来说,各列的极差是不相等的,这就说明各因素的水平改变时对试验结果的影响是不相同的。
极差越大,说明这个因素的水平改变对试验结果的影响也越大,极差最大的那一列的因素,就是因素水平改变对试验结果影响最大的因素,也就是最主要因素。
对于上例,我们可以认为该消费者在购买电脑时,在上述的三个因素中考虑最多的是处理器,其次分别是价格、品牌。
由wj的定义式,我们可以把wj理解为第j个因素在消费者心目中的相对重要程度。
也就是说,处理器在该消费者心目中的相对重要程度为44%,其次是价格32%、品牌24%。
表4
因素
品牌A
处理器B
价格C
误差e
Y1=8
Y2=2
Y3=7
Y4=8
Y5=2
Y6=7
Y7=6
Y8=6
Y9=8
K1j
K2j
K3j
22
T=54
5.333
3.667
7.667
6.333
7.333
5.667
Rj
wj(%)
44
32
因素主次
处理器、价格、品牌
5.统计检验(方差分析)
极差分析法的优点是方法简单、直观、计算量少。
但极差分析法不能估计试验过程中以及试验结果测定中必然存在的误差的大小,因而不能真正区分某因素各水平所对应的试验结果的差异究竞是由于水平的改变所引起的,还是由于试验误差所引起的。
为了弥补极差分析法的不足,现引入方差分析法。
利用正交表对试验结果进行方差分析的思想与步骤:
先将数据(试验结果)的总偏差平方和分解为各因素以及误差的偏差平方和,然后求出F值,再用F检验法。
若用正交表Ln(rt),总的试验次数为n,试验结果为y1,y2,……yn,则数据的总偏差平方和ST为:
其中
因素A所引起的偏差平方和为:
其中r为因素A的水平数,
为因素A的水平Ai所对应的试验结果的平均值。
计算SA的公式也可用来计算误差e的偏差平方和Se。
F检验:
检验因素A、B、C对试验结果有无显著影响。
设H0:
a1=a2=a3=0
b1=b2=b3=0
c1=c2=c3=0
其中
称为
(或因素A)的自由度,有:
=因素A的水平数–1
(或误差)的自由度,有
=(n–1)–各因素的自由度之和。
给定显著性水平a=0.05进行F检验,结果因素B、C均显著,即因素B、C取不同水平对试验结果有显著影响。
方差分析表如表5所示。
表5
方差来源
偏差平方和
自由度
F值
Fa
显著性
A
7.964
11.98
B
24.659
37.08
F0.05(2,2)=19
*
C
12.671
19.05
e
0.665
总和ST
46
6.计算因素的水平效应
正交试验设计理论在市场调查中的应用目的并不是为了找出消费者的最佳方案,而是要在调查消费者对少数方案评价的基础上,预测该消费者对所有方案的评价。
要解决这个问题,我们首先要明确各个因素水平对于该消费者的效用,也就是该消费者对各个因素水平的满足程度。
为此,我们先讨论“效应”的概念。
在一个因素的方差分析模型中,ui表示第i个水平所对应的总体均值,U为理论总均值,定义ai=ui–U,称为因素的第i个水平效应。
仿此来处理我们现在的问题,由于指定因素的第i个水平的总体均值ui及理论均值U并不知道,我们只能用样本估计,因而定义:
称为因素A的第i水平效应。
为正交表上所有试验指标的总平均。
终确定的各因素水平效应如下:
表6
因素
-0.667
1.333
-2.333
1.000
1.667
-1.000
7.预测
利用表6所提供的信息,我们就可以预测该消费者对各种方案的评价。
例如:
方案Ⅰ:
XXPⅡ4006000
方案Ⅱ:
联想赛扬3335000
方案Ⅲ:
TCL赛扬4007000
建立消费者效用函数U(方案)=构成该方案所有因素水平效应值之和。
U(Ⅰ)=–0.667+1.333–0.667=–0.001
U(Ⅱ)=1.333–2.333+1.667=0.667
U(Ⅲ)=–0.667+1.000–1.000=–0.667
U(Ⅱ)>
U(Ⅰ)>
U(Ⅲ),
理性的消费者总是追求效用最大化,因此我们可以认为该消费者对方案Ⅱ的评价优于方案Ⅰ、方案Ⅲ。
8.小结
在现实中,当面对众多选择的时候,消费者是在某种原则下进行购买决策的。
本文试图通过正交试验设计分析把该原则用数量化的方法反映出来,并利用此原则预测消费者对其它方案的评价。
通过这个简单的例子,可以很容易地推广到更多的因素、更多的因素水平。
而对于更多的受访者,在计算出消费者心目中各因素的相对重要程度后通过聚类分析,可以将消费者划分为不同的消费群体,然后将这些群体作为同质个体处理。
三、用前景展望
正交试验设计分析在市场调查中的应用是对消费者购买决策的一种现实模拟。
在实际的抉择过程中,由于价格等原因,消费者要对产品的多个因素进行综合考虑,往往要在满足一些要求的前提下牺牲部分其它因素,是一种对因素的权衡与折衷。
通过正交试验设计分析,我们可以模拟出消费者的抉择行为,可以预测不同类型的人群抉择的结果。
利用这些信息可进行更深层次的市场研究。
正交试验设计在市场研究中主要应用于以下几个领域:
1.新产品/服务开发和设计
2.市场细分:
将因素相对重要性或水平效应值相似的消费者聚类,以找出市场划分,估计
不同目标市场的占有率。
3.利润分析:
对产品/服务的利润进行分析,这个过程中可能会找出某一因素水平的组合,
虽然市场占有率较小,但可能是最有利可图的组合。
4.竞争分析:
可以用正交试验设计的模拟操作预测某种产品/服务在各种竞争情景下可能获取的市场占有率。
这种组合可能是市场上实际存在的,也有可能是虚拟的。
根据可能的竞争情景构造组合投入到正交试验设计模型中,估计所有被调查者的选择行为,预测各模拟组合的市场占有率。
四、几点注意
在市场调查中应用正交试验设计进行分析时应注意以下几个方面:
1.将所有最主要的因素列入分析范围,但由于技术上的原因,因素的个数不能太多,一般为5—7个。
因素的确定应尽可能精简。
2.各因素的水平应尽量符合实际情况,因为被调查者是在给定的因素水平的条件下做出评价的。
若不限于给定的水平,有可能会得到截然不同的分析结果。
另外,各因素水平应尽可能平衡。
3.消费者是根据构成产品/服务的多个因素水平来进行理解和作出理性评价的。
因此,数据的收集应该在确保受访者能够对各因素及因素水平完整理解的条件下进行。
4.在对水平效应进行分析时,应注意不同因素的水平效应的比较是没有意义的。
我们不能说该消费者对联想品牌的偏好程度大于对赛扬400的偏好。
但我们可以这样说,在其它因素水平相同的情况下,若选择TCL、赛扬400和联想、赛扬333,该消费者可能更偏爱前者。
因为前两个因素水平的效应值和为0.333(–0.667+1.000)大于后两个因素水平效应值的和–1.000(1.333–2.333)。
在正交试验设计分析中,消费者对方案的评价是一个相对的概念。
因此,水平效应值的解释也是相对的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六章 方差分析案例 第六 方差分析 案例