SAS软件之单因素方差分析在香水主观评价中的应用.docx
- 文档编号:8168986
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:12
- 大小:290.38KB
SAS软件之单因素方差分析在香水主观评价中的应用.docx
《SAS软件之单因素方差分析在香水主观评价中的应用.docx》由会员分享,可在线阅读,更多相关《SAS软件之单因素方差分析在香水主观评价中的应用.docx(12页珍藏版)》请在冰豆网上搜索。
SAS软件之单因素方差分析在香水主观评价中的应用
概率论与数理统计课程报告
院系名称:
信息科学与工程学院
专业班级:
学生姓名:
理金龙
学号:
2017年10月30日
单因素方差分析在香水主观评价中的应用
摘要:
通过调研用户真实的使用感受,对香水进行主观评价,是一种基于用户观点的评价方法。
运用SAS统计学软件,以不同品牌的香水使用的主观评价为例,阐述了单因素方差分析方法在香水主观评价中的应用。
单因素方差分析方法适用于所有涉及对香水的造型美学、色彩、香味、品质感知的评价,该方法既避免了只比较平均值的误区,又相对于Z检验和T检验提高了分析效率和可靠性。
关键词:
SAS;单因素方差分析;香水主观评价
ApplicationofUnivariateAnalysisofVarianceinSubjectiveEvaluationofPerfume
Abstract:
Itisanevaluationmethodbasedonuser'sviewbyinvestigatingtheuser'srealuseexperienceandsubjectiveevaluationofperfume.Theapplicationofsinglefactoranalysisofvariance(ANOVA)inthesubjectiveevaluationofperfumewasdescribedbyusingSASstatisticalsoftwareandsubjectiveevaluationofdifferentperfumesofperfume.Theone-wayvarianceanalysismethodisapplicabletoalltheevaluationoftheaesthetic,color,fragranceandqualityperceptionofperfume.Thismethodnotonlyavoidsthemisunderstandingoftheaveragevalue,butalsoimprovestheefficiencyandreliabilityoftheanalysiscomparedwiththeZtestandTtestSex.
Keywords:
SAS;singlefactoranalysisofvariance;perfumesubjectiveevaluation
1研究背景
国内香水市场竞争日趋激烈,每个细分市场都有多款香水参与竞争。
用户选择的余地很大,眼光也越来越挑剔。
在此背景下,用户的喜好成为香水生产企业设计新香水和改款香水的重要参考指标。
主观评价方法从用户实际使用的感受出发,由用户的打分来评价香水。
这种方法的优势在于关注用户的实际使用需求和感受。
评价的结果通常用平均值来表示,平均值较高的香水品质较好。
在实际应用中,常常出现两个误区:
一种是简单化的比较平均值,而不考虑平均值的置信区间;一种是对多个品牌的香水进行比较时,缺乏合适的方法,结论也很模糊。
单因素方差分析是一种比较来自多个总体的样本平均值的统计学方法。
该方法在主观评价中的应用可以显著提高评价结果分析的速度和准确性。
本文采用SAS软件,以多款中高级香水品质为例,阐述了单因素分析方法在香水品质主观评价中的应用。
2香水品质主观评价及数据
主观评价是一种以用户体验和评价为基础的方法,通过设定一定的评价环境和条件,模拟真实的用户在使用香水时对香水的造型美学、色彩、香味、品质等各方面的感受和评价。
这种方法在香水设计前期可以用来作为香水的设计参考指标,在香水量产阶段可以用于与对手的比较,确定香水的定位和市场宣传亮点。
此次主观评价选择1120个具有使用香水的丰富经历的人来模拟实际的用户,主观评价过程也被严格的控制,要求同一批人在同样的环境下,按照同样的评价指标,对不同的品牌的香水进行评价。
评价结果通常采用分数计量。
此次调查的规模很大,进行了上千个用户的调查,大量的数据会抵消奇异值的影响,数据也有较好的质量。
在对评价结果的分析中,通常的做法是直接将平均值进行比较,没有考虑置信区间。
平均值是根据样本数据对总体均值的估计,在不同香水的品质相差较大时简单有效。
但是平均值无法判断对总体进行估计的准确性,而且平均值会因为样本不同而有所差异,也就是说用平均值无法代表样本点的分布情况,比如无法反映分布类型和数据的离散情况。
另外还有一些调研考虑了平均值的置信区间,运用Z检验或者T检验进行不同香水之间的均值比较。
但是Z检验和T检验都只能进行两两比较,当同时进行三款或更多香水品牌的评价时,运用Z检验和T检验将十分繁琐。
本文选用了某第三方调研机构对中高级香水的用户调查,包含了ajayeb、ajmal、amreaj、aood、asgar_ali、bukhoor、burberrry、dehenalaod、junaid、kausar、rose、solidmusk、TeaTreeOil、raspberry、RoseMusk、strawberry、constrected2、carolina_herrera、oudh_ma’alattar、constrected共计20款香水。
每款香水调查了56位用户,调研项目涉及香水的造型美学、色彩、香味、持续时间等多个项目。
用户的评分采用百分制量表。
本文选择了香水品质综合评价这一个项目来阐述方法的应用,这种应用也可以推广到其他几个项目的分析中。
3单因素方差分析的使用条件和方法
方差分析是20世纪20年代发展起来的一种统计方法,广泛应用于社会学、工程技术、医药的试验分析领域。
单因素方差分析是方差分析的一种,通过对数据误差来源的分析来比较多个总体的均值是否相等,并且判断分类型自变量对数值型因变量的显著性影响。
与Z检验和T检验方法相比,该方法可以提高分析的效率,同时由于它是将所有的样本信息结合在一起,还增加了分析的可靠性。
方差分析一般要求满足3个基本假设:
各个总体应该服从正态分布;各个总体的方差应该相同;观测值之间是独立的。
其中,对正态分布的要求不是很严格,但是对方差齐性的要求很严格。
根据上述3个基本假设,方差分析对各个总体的显著性差异的推断就可以转化为对各个总体的均值是否相等的推断了。
假设从k个总体中分别抽取包括含有n1,n2,…nk个观测值的独立随机样本,将k组样本的均值记为,,…,,将总体均值记为,定义n=n1+n2+…+nk,并且定义下面的均方:
需要检验的原假设是:
H0:
μ1=μ2=…=μk
其备择假设为:
H1:
μ,μ2,…,μk不全相等
如果>,n-k,a,则拒绝原假设。
,n-k服从分子自由度为k-1,分母自由度为n-k的F分布。
4单因素方差分析在主观评价的应用
4.1数据展列
本次调研共涉及20种香水,共计1120名用户,属于大规模调研。
表1中列出了20款香水品质评价的均值、标准差、最值等信息如图4.1所示。
图4.1描述性统计
图4.2Evaluation的频数分布
4.2单因素试验设计的均值比较
procanovadata=li.perfume;
classperfume;
modelEvaluation=perfume;
meansperfume;
meansperfume/hovtest;
run;
程序说明:
因为数据仅仅是按照perfume值分类,所以在class语句中这是仅有的一个变量。
变量Evaluation是被分析的因变量,故Evaluation出现在model语句等号的左边。
在方差分析表中,除了总方差和误差外,方差的来源仅仅是由于各种不同perfume值的变异造成的,因此perfume出现在model语句等号的右边。
Means语句计算主效应perfume不同水平所对应的因变量均值,选项hovtest计算不同香水品牌组方差齐性的假设检验。
输出的结果见图4.3所示:
图4.3(a)分类变量信息
结果分析:
anova过程总是输出两个基本的方差分析表。
一个是总体模型的方差分析表,一个是包含模型中各个变量的方差分析。
首先输出class语句中规定的每个变量(perfume)、分类变量的取值数(20)、具体取值:
(A10A11A12A13A14A15A16A17A18A19A20A21A22A23A24A25A26A27A28A29)以及数据集中的观察个数(1120)。
图4.3(b)单因素设计的方差分析结果
接着anova过程对model语句中每个因变量输出方差分析表。
包括:
因变量的总平方和(82870.76608)、属于模型部分的平方和(82616.56012)、属于误差部分的平方和(254.20596)、自由度DF(19、1100、1119)、模型的均方MS(4348.24001=82616.56012/19)、误差的均方MSE(0.23110=254.20596/1100)、模型的F值(18815.7=4348.24001/0.23110)、分布大于18815.7的概率(<0.0001)、
(0.996933=82616.56012/82870.76608)、变异系数CV(0.707246=100×
)、因变量的标准差(0.480725=
)、因变量均值(67.97138)。
对模型中的每个效应,anova过程还输出方差分析表。
perfume自由度DF(19)、平方和(82616.56012)、均方MS(4348.24001=82616.56012/19)、F值(18815.7=4348.24001/0.23110)、分布大于7.40的概率(<0.0001)。
总体F检验是显著的(<0.0001<0.05),表明模型是有意义的。
品牌perfume的F检验也是显著的(<0.0001<0.05),表明不同品牌的均值不全相等。
这里两个F检验是完全相同的,这仅仅是因为在模型中只有一项perfume。
注意,我们可以用glm过程替代这个anova过程,能得到相同的方差分析结果。
最大区别是glm过程将计算每个效应的类型1和类型3平方和,而anova只计算类型1的平方和。
对于单因素和多因素平衡数据来说,anova过程的SS1、glm过程的SS1和SS3都相同。
图4.3(d)Levene的方差齐性检验结果
Levene的方差齐性检验结果表明:
可以拒绝(<0.0001<0.05)不同品牌组里观察值的方差是相等的原假设。
图4.3(e)每种品牌的观察数、均值和标准差结果
最后输出的是每种品牌的观察数、均值和标准差。
例如,A10品牌的观察数为56,均值为64.4671429,标准差为0.26236487。
4.3均值的多重比较和置信区间
由于品牌perfume的F检验是显著的(<0.0001<0.05),表明20种不同品牌的均值不全相等,但可能存在某2个或某3个或某更多个品牌的均值相同。
因此,常需要进一步的均值多重比较和置信区间分析。
程序如下:
procanovadata=li.perfume;
classperfume;
modelEvaluation=perfume;
meansperfume/duncan;
meansperfume/lsdclmcldiff;
run;
程序说明:
第一个means语句选用了ducan选项,要求计算输出组间均值比较的新多重极差检验,结果见图4.4。
第二个means语句选用了lsdclm选项,对所有组均值进行两两t检验,输出各组均值的置信区间,结果见图4.5。
第二个means语句还选用了lsdcldiff选项,将对各组间均值之差采用最小显著差检验,输出各组间均值之差的置信区间,结果见图4.6。
图4.4Duncan的新多重极差检验
图4.4中结果分析:
注意到各组均值按大到小排列(85.06000,82.42393,79.42857,73.98143...),在标题“DuncanGrouping”下是一系列字母A、B、C等字母,如果均值间差异不显著标上相同的字母,否则标上不同的字母。
对于Duncan多重极差检验来说,20个均值之间的比较,只要看最大的均值与最小的均值之差的是否大于临界值0.2226,因为85.06000-46.01821>0.2226,则为显著,所以品牌A24的均值不同与A21,应该标识不同的字母。
因为存在20个均值之间最大差的显著性,接下来就需要比较19个均值之间差的显著性,临界值为0.2219。
85.06000-57.82571>0.2219,显著,82.42393-46.01821>0.2219,显著,只要存在一个显著性,就需要继续比较20个均值之间差的显著性。
以此类推直至两两比较结束。
图4.5 各组均值的t检验置信区间
图4.5中结果分析:
均值t分布的95%置信区间的一半宽度为0.126046,因此A24品牌均值置信区间的下限为85.06000-0.126046,上限为85.06000+0.126046。
其他品牌均值的置信区间计算,同样是均值加减0.126046而得到的。
图4.6 lsd最小显著差检验
图4.6中结果分析:
注意在显著水平为0.05上,两两比较的最小显著差为0.1783,如果显著则被标上“***”。
例如,A24均值减A22均值=85.06000-82.42393=2.63607>0.1783,显著。
综合分析的结果表明,A21品牌均值显著与其他品牌均值不同,且为最小的均值;A24品牌均值也显著与其他品牌均值不同,且为最大的均值;A13、A25两个品牌均值之间无显著差异。
4.4有计划的均值比较和参数估计
在实际情况中,多重比较要按某种分类标准来进行,我们现在还知道20种品牌的制造商情况,品牌A22、A23和A24三个品牌的香水来自法国(France)制造商,而其他品牌的香水来自非法国(non-France)制造商。
我们比较法国香水品牌的均值与非法国香水品牌的均值是否有差异。
程序如下:
procglmdata=li.perfume;
classperfume;
modelEvaluation=perfume;
contrast'FranceVSNON-France'perfume-3-3-3-3-3-3-3-3-3-3-3-3171717-3-3-3-3-3;
estimate'FranceVSNON-France'perfume-3-3-3-3-3-3-3-3-3-3-3-3171717-3-3-3-3-3;
run;
程序说明:
使用contrast语句来产生有计划的均值比较分析和使用estimate语句进行参数估计。
注意在anova过程中没有这两条语句,必须使用glm过程。
使用contrast语句前,应该首先表达出所关心的均值线性组合的原假设,如
contrast语句的三个基本参数,一是标签('FranceVSNON-France'),二是效应名(perfume),三是效应的数字系数表(-3-3-3-3-3-3-3-3-3-3-3-3171717-3-3-3-3-3)。
应特别注意的是,数字系数的次序是匹配分类变量按字母数字次序的水平值。
事实上,均值线性组合的系数同样是model语句中效应参数组合的系数,这是因为,
,将它们分别代入均值线性组合后,可得到
所以,estimate语句的使用格式与contrast语句非常类同。
输出的主要结果见图4.7所示:
图4.7 有计划的均值比较和参数估计
图4.7中结果分析:
显示了法国香水品牌均值与非法国品牌均值比较的平方和为40602.42123,F值为175695,这个分布F值大于175659的概率为<0.0001小于0.05,因此原假设是显著的,拒绝接受,即法国香水品牌均值与非法国香水品牌均值是不同的。
注意到t检验的p值为0.0026,与对比分析的F检验的p值相同,这是因为两种检验是相同的,F值等于t的平方。
结论
通过对香水品质的评价进行的单因素方差分析,综合分析结果得出总体F检验是显著的,表明模型是有意义的。
品牌perfume的F检验也是显著的,表明不同品牌的均值不全相等;A21(rose)品牌均值显著与其他品牌均值不同,且为最小的均值;A24(raspberry)品牌均值也显著与其他品牌均值不同,且为最大的均值;A13(aood)、A25(RoseMusk)两个品牌均值之间无显著差异;法国香水品牌均值与非法国香水品牌均值是不同的,用户法国香水的整体满意程度高于其他香水。
这次SAS分析大量的数据使我对SAS的便利性有了更加深刻的认识,SAS非常方便的对我们所要研究的同进问题进行处理分析,相信SAS对我以后的更多问题的研究有更大帮助。
当然期间遇到很多问题,问题来自于多个方面,首先就是数据的问题,1000以上的数据寻找起来真的很麻烦,刚开始难以开始作业主要就是数据的问题。
之后便是对数据的处理上,我的SAS不能导入EXCEL的.xlsx文件。
以上问题后来求助同学都得以解决。
后来遇到的问题也都在网络上找到解决办法。
最总完成作业我也很高兴。
参考文献
[1]茆诗松,程依明.概率论与数理统计教程.2004.03
[2]胡希远.SAS与统计分析
[3]史占国,李晓娜.单因素方差分析在车辆主观评价中的应用.2009.12.11
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 软件 因素 方差分析 香水 主观 评价 中的 应用