葡萄酒质量的评价Word格式文档下载.docx
- 文档编号:19457803
- 上传时间:2023-01-06
- 格式:DOCX
- 页数:37
- 大小:39.19KB
葡萄酒质量的评价Word格式文档下载.docx
《葡萄酒质量的评价Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《葡萄酒质量的评价Word格式文档下载.docx(37页珍藏版)》请在冰豆网上搜索。
相关性分析多元回归系数法
1.问题重述
葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
试建立数学模型求解下列问题:
1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2.
问题分析
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。
问题一:
要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信。
通过绘制每个样品酒的均值评分差异图,对每个样品酒的两组评酒员在各个指标的均值进行比较,发现对于红葡萄的评价,两组评酒员还是存在着显著性的差异的,而对于白葡萄酒的评价,两组评酒员的差异性并不是很明显,列举部分红、白葡萄酒评分差异图如下:
图表1红葡萄酒样品12差异图(左边),系列1为第二组品酒员打分均值,系列2为第一组品酒员打分均值。
图表2红葡萄酒样品15差异图(右边),横坐标为10个指标变量,包括澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感质量以及整体评价。
针对两组评酒员在大量差异图中表现出来对红、白葡萄酒的评价存在差异,对红、白葡萄酒进行分开地显著性检验。
第一步,利用每个样品酒都具有两组评酒员的评价结果,对两组结果进行双因子可重复方差分析,得出题中给出的27种葡萄样品酒各个分析结果。
比较27个显著性检验的结果,若具有显著性差异的样品酒占总样品酒的比例高于,有足够的把握认定两组评酒员的评价结果具有显著性差异。
第二步,对两组评酒员给予红、白葡萄酒的打分进行可信性分析,将红、白葡萄酒分别进行可信度分析,比较两组评酒员对不同种类葡萄酒的评价是否具有各自的优势。
在进行双因子多重分析和可信性分析之前,需要对原先数据进行如下处理:
1.对于附件1给出的数据,先将两组品酒员的评价结果按着样品酒进行统一划分,每一样品酒对应着两种评价结果。
将每一样品酒的评价结果组成评价矩阵,矩阵以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共20行。
2.针对红葡萄酒样品20评酒员4号对色调的评分缺失,利用同组评酒员对红葡萄酒样品20色调评分的平均值作为4号评酒员的评分值。
做可信度分析时,将两组的27种酒样品评价结果组成两组评价总矩阵,以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共270行,分别用SPSS19.0对两组矩阵进行信度分析,目的是对量表的可靠性与有效性进行检验,判断出哪一组可信度更高。
问题二:
问题二要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响葡萄酒的质量,选取优质营养成分高的酿酒葡萄酿酒,保证了葡萄酒的营养价值和保健价值。
但是葡萄酒质量优劣,不单单从营养成分和养身价值上考虑,一瓶优质的葡萄酒,还得具备着可观赏性,纯正的口感、芬芳的酒香等优点,而这些优点,都得由评酒员来给出评价。
所以,对酿酒葡萄进行分级,不单单从葡萄的成分上考虑,还得结合最终酿成的葡萄酒质量综合考虑。
因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来,进行聚类分析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。
依据:
在进行据聚类分析之前,需要对原始数据进行预先处理
1.分别计算附件一中评酒员各项评分指标的权重并加和,最后求取10位评酒员的权重平均值作为葡萄酒样品的综合评价指标。
2.用酿酒葡萄各项理化指标(多次测得的取平均值)以及酒样的综合指标形成一个31列28行的原始资料阵,并用SPSS的标准化将数据标准化。
问题三:
酿酒葡萄和葡萄酒的理化指标都很多,为了找出它们之间的联系,首先将葡萄的成分与葡萄酒的理性指标列成一个大矩阵,分析葡萄成分与葡萄酒理想指标的相关性,找出它们之间相关性大的指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。
1.酿酒葡萄的成分和葡萄酒的理化指标列成一个大矩阵。
2.通过SPSS软件做相关性分析,选取与葡萄酒理化指标相关性程度大的葡萄酒成分个指标,建立拟合方程。
问题四:
酿酒葡萄的理化指标并不能直接与葡萄酒的质量建立联系,由于在问题3中已经通过相关性分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此我们分析葡萄酒的理化指标与葡萄酒质量的相关性,计算相关性系数,通过比较选出系数高的即与葡萄酒质量指标相关性程度大的葡萄酒成分,进而用回归分析法建立酿酒葡萄的理化指标与葡萄酒质量之间的关系。
1.附表一中列出了十位品酒员对葡萄酒外观、香气和口感分析三者的数据,用Matlab7.6.0b,分别对四项指标求27(28)种红(白)葡萄酒样品权重平均值作为葡萄酒质量的评价指标。
2.通过SPSS软件作因子分析分析两者之间的相关性,选取与葡萄酒质量指标相关性程度大的葡萄酒成分个指标,建立拟合方程。
3.符号说明
显著性水平
置信度
误差平方和
行组间误差
列组间误差
组内误差
克伦巴赫系数
明考斯基距离
欧式距离
4.模型假设
(1)假设数据来源真实有效
(2)假设各变量的相差微小,各坐标对欧式距离的贡献是同等的且变差大小相同,欧氏距离效果理想。
(3)假设酿酒工艺条件相同,无其他人为因素影响
(4)为低信度,则尚可,若则属于高信度。
假设组一与组二评分分别处于不同信度区间,可信度差异明显。
5.建模过程
5.1.问题一的建模与求解
模型建立:
利用双因素可重复方差分析结合0-1分析检验两组评酒员的评价结果有无显著性差异
1.双因子可重复方差分析的统计模型。
假设在两因子方差分析中,因子共有个水平,记作,每个水平下,进行次试验,因子共有个水平。
一个典型的双因子方差分析的数据结构如下表所示。
表格1双因子可重复方差分析的数据结构
因子
…
为因子的某个水平下第试验所得结果,表示因子的第个水平,。
第列数据为因子的第个水平下所考察的变量取值,每一列为一个总体,=1,2,…,。
所以一个两因子方差分析的数据结构表里,共有个总体,在本题中,。
下表给出因子所对应的各个指标:
指标
外观澄清度
外观色调
香气纯正度
香气浓度
香气质量
口感纯正度
口感浓度
口感持久性
口感质量
整体得分
给出双因子可重复方差分析的原假设和备择假设:
当原假设为真时,说明两组评酒员的评价结果不存在显著性差异,反之称两组评酒员的评价结果存在着显著性影响因素。
当原假设为真时,说明选取的各个指标对评价结果没有显著性影响,在本题中,显然原假设是不成立的,后续的检验将证明这点。
2.两因子方差分析的方差分解。
(1)误差平方和。
每一个观察值与总平均值之间的离差平方和称为误差平方和,记作
=
其中,称为总均值。
(2)行组间误差。
双因子误差平方和分解的第一部分,称为行组间误差,记作
(3)列组间误差。
双因子误差平方和分解的第二部分,称为列组间误差,记作
(4)组内误差。
双因子误差平方和分解的第三部分,称为组内误差,记作
行组间误差衡量的是行因子不同水平之间的差异,列组间误差衡量的是列因子不同水平之间的差异。
它们的误差值中既包含随即误差也包含了因子影响的系统误差。
所以判断行(列)因子是否有显著性影响,主要考察行(列)组间误差和组内误差之间的差异大小。
如果行(列)组间误差和组内误差很接近,就认为行(列)因子无显著性影响。
反之,认为行(列)因子有显著性影响。
两因子方差分析的检验统计量。
其中。
根据单因素方差分析推导,有行组间误差服从自由度为的分布
列组间误差服从自由度为的分布
剩余的列组服从自由度为的分布
则两因素方差分析的检验统计量为如下两个:
(1)行检验统计量。
(2)列检验统计量。
双因子可重复方差分析的结果判定
当显著性水平为时,如果,拒绝,说明两组评酒员的评价结果存在显著性差异;
等价的值检验是,当值<
时,拒绝原假设;
综合来讲,当,或值<
时,拒绝原假设。
0-1数据分析
在给定条件下,对于有个样品酒来说(红葡萄酒,白葡萄酒),定义函数:
(1)
其中为每个样品酒的值。
给定置信度:
(2)
对个样品酒的双因子可重复方差检验后,得出值,则认为在置信水平下,两组评酒员的评价结果存在着显著性差异。
Alpha模型进行可靠性分析
克伦巴赫系数:
测度内部一致性的一个指标,与皮尔逊系数都是一样的范围在0—1之间,如果为负值则表明表中某些项目的内容是其他一些项目的反面;
越接近于1,则量表中项目的内部一致性越是高,可信度越大。
根据量表中的项目数和各项之间的相关系数计算得出
当量表中项目增加时,值也会增大;
同时,项目之间的相关系数较高时,也会比较大。
这里的是指各项与其他各项之和计算相关系数的平均值。
模型求解:
双因子可重复方差分析模型检验
利用Matlab7.6.0的函数对已经预处理的数据进行双因子可重复方差分析,可以得到每个样品酒的检验结果,列举两个检验结果如下所示:
提取每个样品酒的所对应值,然后结合公式
(1)、公式
(2)进行0-1分析,得到红、白葡萄酒的各个样品酒的如下:
图表3模型检验结果
红葡萄酒值以及值,得到
0.18971
0.00001
0.00040
0.00212
0.16314
0.00138
0.00486
0.00334
0.02476
0.00000
0.00002
0.00011
0.36479
0.21870
1
0.00046
0.80100
0.00021
0.56414
0.17544
1.00000
0.04686
0.01131
0.00017
0.00086
0.00112
0.00045
白葡萄酒值以及值,得到
0.00103
0.10777
0.31115
0.50613
0.01060
0.34940
0.67936
0.00329
0.00460
0.00008
0.08585
0.20310
0.01714
0.03333
0.01381
0.19476
0.00339
0.44078
0.00034
0.00005
0.68334
0.46710
0.00031
0.16632
0.13648
模型结果分析
分析图标3的结果,可以知道,对于红葡萄酒来说,对27个葡萄酒样品评分检验中,有70.3%的评价结果中,两组评酒员的评价结果存在着显著性差异(置信水平为95%)。
对于白葡萄酒的28个葡萄样品评分的检验,只有53%的评价结果中,两组评酒员的评价结果存在显著性检验(置信水平为95%)。
这样的结果,符合之前问题分析中,各个组队样品酒的评分均值差异图。
即:
两组评酒员对红葡萄的评分结果更具有显著性差异,而对于白葡萄酒的评分,两组评酒员的评价差异性较不明显。
Alpha模型的可靠性分析
1.利用SPSS19.0进行可靠性统计量对红葡萄酒的两组品酒员评分的分析
第一组红葡萄酒案例处理汇总
第二组红葡萄酒案例处理汇总
%
案例
有效
268
99.3
270
100.0
已排除
2
.7
.0
总计
第一组红葡萄酒可靠性统计量
第二组红葡萄酒可靠性统计量
基于标准化项的
项数
.874
.906
10
.750
.786
若将某一项目从量表中剔除,则量表的平均得分、方差(每个项目得分与剩余各项目得分间的相关系数、以该项目为自变量所有其他项目为应变量建立回归方程的值以及值将会改变。
有表知第一组数据中剔除了两项,增加到0.874,第一组评酒员红葡萄酒的,组2尚有35%的内容未曾涉及,故信度不高。
表格2第一组红葡萄酒
平方和
均方
人员之间
人员内部项之间
残差
总均值=7.31
4947.218
31938.494
5623.506
37562.000
42509.218
267
9
2403
2412
2679
18.529
3548.722
2.340
15.573
15.868
1516.417
.000
类内相关性
95%置信区间
使用真值0的F检验
下限
上限
值
单个测量
.409b
.362
.460
7.918
平均测量
.874c
.850
.895
表格3第二组红葡萄酒
1232.544
34017.040
2778.260
36795.300
38027.844
269
2421
2430
2699
4.582
3779.671
1.148
15.142
14.090
3293.639
总均值=7.05
.230
.191
.276
3.993
.703
.792
分析比较两者的F检验表明,=516.417<
=3293.639,组2的显著性更强,而、均小于0.01,表示两组该量表的重复度量效果良好。
综合分析结果表明,组一的评酒员可信度更高。
(2)可靠性统计量对白葡萄酒的两组品酒员评分进行分析
同样利用SPSS可靠性分析,建立Alpha模型对白葡萄酒的品酒员评分数据进行检验,发现不同种类的酒,因其酿造,成分的不同,品酒员对葡萄口感,质量的分析评价上有差异,得出第一组品酒员白葡萄酒的
、,组2的显著性更强,、均小于0.01表示两组该量表的重复度量效果良好。
综合分析结果表明,白葡萄酒组二的品酒员可信度更高。
5.2.问题二的建模与求解
聚类分析及欧式距离
对样品和指标(变量)进行分类主要采用聚类分析法,而求取样品以及类之间的距离有多种方法,其中主要使用欧式距离和最短距离法。
(1)数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个样本有个指标,则每个变量可表示为,均值
标准方差
则标准化后
(2)聚类
距离:
对样品进行聚类时,“靠近”往往由某种距离来刻画。
若每个样品有个指标,故每个样品可以看成维空间中的一个点,个样品就组成维空间中的个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度。
令表示第个样品的第个指标,表示第个样品与第个样品之间的距离,最常见最直观的计算距离的方法是:
明考斯基距离()
当时,
即为绝对距离
即为欧氏距离
当时
称为切比雪夫距离。
当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然后用标准化后的数据进行计算。
系统聚类;
,将个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。
开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的样品都成一类为止,最终完成养分的分类。
计算类与类之间的距离主要有:
(1)最短距离法:
设、、分别为一类,则最短距离的计算公式为:
此时将类与类合并为类,则任意的类和的距离公式为
依次下去,最终完成对样品的分类。
(2)最长距离法
将类与类合并为类,则任意的类和的距离公式为
(3)类平均法
(4)重心法
根据欧式距离对酿酒葡萄分类
(1)对红葡萄酒进行分类
将附件中的组一评酒员评价标准,算出各项所占权重并加和,最终求得十位品酒员对每个葡萄酒样品的平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过spss进行聚类分析,得到酒样品的八个类别,并列出每个酒样品所对应的综合指标,得出下表以及聚类分析树状图
图表3:
不同来源红葡萄酒聚类分析
第一类
酒样品
12
18
6
7
15
综合评价指标
6.984
7.623
8.985
8.897
7.309
第二类
13
19
4
16
27
22
9.395
9.753
8.45
9.348
9.135
9.529
17
24
5
20
26
9.901
9.706
9.071
9.817
9.139
第三类
25
8.571
第四类
8
14
9.003
9.204
第五类
7.79
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 葡萄酒 质量 评价