葡萄酒评价模型.docx
- 文档编号:7155011
- 上传时间:2023-01-21
- 格式:DOCX
- 页数:29
- 大小:110.30KB
葡萄酒评价模型.docx
《葡萄酒评价模型.docx》由会员分享,可在线阅读,更多相关《葡萄酒评价模型.docx(29页珍藏版)》请在冰豆网上搜索。
葡萄酒评价模型
葡萄酒评价模型
摘要
本文运用统计学方法利用题目中所给的样本数据,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,建立模型解决葡萄酒质量评价问题,从而确定酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,葡萄酒和酿酒葡萄检测的理化指标在一定程度上反应了葡萄和葡萄酒的质量。
问题一,首先根据附件一中的两组评酒员对葡萄酒分类指标的分数并借助Excel软件得到每组评酒员对同一葡萄酒样品所给出的分数平均值,利用SPSS软件对所得数据进行t检验,证明两组评价结果有显著差异。
要评价哪一组评价结果更可信,采用平均值方差分析方法,用Excel计算每组中评酒员所给出样品成绩与平均值间的偏差,分析其变化趋势与大小,判定第二组的评价结果更可信。
问题二,通过主成分分析法根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄综合指标打分,综合第一问结果采用层次聚类法对酿酒葡萄进行分级,划分出酿酒葡萄的等级都为四级。
问题三,运用双变量分析法,分别将红,白酿酒葡萄的等级和葡萄酒的理化指标进行双变量分析,求出酿酒葡萄等级与葡萄酒每一个理化指标的sig值来判断酿酒葡萄等级与葡萄酒的显著相关性。
得出如下结论:
1.红葡萄酒理化指标中花色苷、总酚、酒总黄酮、DPPH半抑制体积、L*(D与红酿酒葡萄有显著性相关。
2.白葡萄酒理化指标中L*、b*与白酿酒葡萄有显著性相关。
问题四,利用逐步线性回归法和进步线性回归法,将葡萄酒的每一个指标和对应的酿酒葡萄等级作为自变量,将第二组评酒员对葡萄酒的评分作为因变量,进行线性回归运算。
判断因变量与自变量的显著相关性,来判别哪几个自变量对因变量有影响,即判断葡萄酒质量受哪些因素影响。
其中红葡萄酒:
回归平方和=202.370残差平方和=209.064总计平方和=411.434F值为24.200sig值小于0.05,所以线性回归方程Z=-0.139X1+0.176X2+0.208X3+0.241X4-0.133X5+2.910Y有效。
白葡萄酒:
回归平方和=124.312残差平方和=147.169总计平方和=2771.481F值=21.962sig值小于0、05,所以线性回归方程Z=0.130X1-0.145X2+1.862Y有效。
红酿酒葡萄和白酿酒葡萄的显著性相关的解释率分别为49.2%和45.8%。
结论:
分析出无论是白葡萄酒还是红葡萄酒,葡萄酒的质量都与酿酒葡萄的指标等级有显著性相关,并且红葡萄酒除了用红酿酒葡萄指标等级来评价,其次也可以用红葡萄酒的理化指标来评价红葡萄酒的质量。
关键词:
SPSS统计t检验主成分分析聚类分析多元线性回归
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评,每个评酒员在对葡萄酒进行品尝后客观地对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论下列问题:
1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量
二、问题分析
第一个问题属于显著性差异分析的数学问题,即比较两组中十位评酒员给出的平均成绩有无显著性差异。
两组评酒员的评分是成对的,即对同一酒样品测出一对数据,这样局限于各对中两个数据来比较,只考虑单独由两组评酒员所产生的影响从而比较这两组评酒员的评价结果有无显著性差异,要解决这个问题采用配对样品t检验分析的方法。
评价哪一组的结果更可信,采用分析偏方差和的方法,得出结论。
第二个问题,通过对酿酒葡萄的分级,我们能选择不同等级的葡萄去酿葡萄酒,这样保证我们酿出的酒的品质大致相同。
这属于数据分类方面的数学问题,我们采用主成分分析法和聚类分析法解决这个问题。
第三个问题,我们认为基于实际作用,应该是酿酒葡萄的等级与葡萄酒理化指标的关系。
所以我们认为这是一个双变量相关性问题。
一个变量为第二题的数据结果分析出来的等级,另一个变量为葡萄酒的一级指标。
第四个问题,我们将第四个问题理解为:
酿酒葡萄等级和葡萄酒的理化指标对葡萄酒质量的影响,利用线性回归处理该问题。
三、模型假设
1.题中红葡萄酒与白葡萄酒没有显著的性质差别,可以用同样的方法分析。
2.假设所有样本发酵条件相同。
3.假设所有瓶酒师的味觉分析能力正常。
4.不考虑工艺因素对结果的影响。
四、符号表示
ɑ:
t检验显著性水平
H0:
接受假设
H1:
拒绝假设
五、模型建立与求解
5-1葡萄酒质量评价结果分析模型
5-1-1显著性差异分析
1.分析
显著性差异是一种有量度的或然性评价,如果我们判定两组数据在0.05水平上具备显著性差异,这是说这两组数据具备念珠性差异的可能性为95%,这两组数据所代表的样本还有5%的可能性是没有显著性差异的,这5%的差异的由于随机误差造成的。
通常情况下,实验结果达到0.05水平或者0.01水平,才可以说数据之间具有显著性差异而在做出结论时,应确定描述方向性。
2.比较均值
由附件1根据评酒员给出的各项指标成绩,用Excel将各项成绩相加得出每种酒样品的得分均值白葡萄酒评分中有异常数据,处理后得到结果如下表:
表1:
第一组和第二组评酒师对红葡萄酒的评分均值
第一组
62.7
80.3
80.4
68.6
73.3
72.2
71.5
72.3
81.5
第二组
68.1
74
74.6
71.2
72.1
66.3
65.3
66
78.2
第一组
74.2
70.1
53.9
74.6
73
58.7
74.9
79.3
60.1
第二组
68.8
61.6
68.3
68.8
72.6
65.7
69.9
74.5
65.4
第一组
78.6
79.2
77.1
77.2
85.6
78
69.2
73.8
73
第二组
72.6
75.8
72.2
71.6
77.1
71.5
68.2
72
71.5
表2:
第一组和第二组评酒师对白葡萄酒的评分均值
第一组
82
74.2
85.3
79.4
71
68.4
77.5
71.4
第二组
77.9
75.8
75.6
76.9
81.5
75.5
74.2
72.3
第一组
72.9
74.3
72.3
63.5
65.9
72
72.4
74
第二组
80.4
79.8
71.4
72.4
73.9
77.1
78.4
67.3
第一组
78.8
73.1
72.2
77.8
76.4
71
75.9
73.3
第二组
80.3
76.7
76.4
76.6
79.2
79.4
77.4
76.1
第一组
77.1
81.3
64.8
81.3
第二组
79.5
74.3
77
79.6
由表中数据进行MATLAB编程(程序见附录),做出均值分布图,如下:
图1
通过图像观察可知,两组评酒员对红葡萄酒和白葡萄酒的评价结果在某点处相差很大,初步判定两组评价结果有明显差异。
3.配对样本t检验
t检验模型:
注:
d为样本均值;SD为样本方差
建立假设,确定显著性水平ɑ,两组评分差异没有特定的方向,所以用双边假设检验
Ho:
μ=0,H1:
μ≠0
在显著性水平ɑ=0.05下,检验初步判定结果。
①红葡萄酒检验:
n=27,tɑ/2(n-1)=1.7033,即拒绝域为
|t|≥1.7033
根据公式得到|t|的值落在拒绝域内,即两组对红葡萄酒的评价结果有显著性差异。
②白葡萄酒检验:
n=28,tɑ/2(n-1)=1.7011,即拒绝域为
|t|≥1.7011
根据公式得到|t|的值落在拒绝域内,即两组对白葡萄酒的评价结果有显著性差异。
5-1-2可信度分析
有附件1数据,利用Excel计算的两组数据的偏方差和,得到第二组红葡萄的偏方差和为8211,第二组白葡萄的偏方差和14244小于第一组红葡萄的偏方差和14244和第一组白葡萄的偏方差和32555,即第二组评分更加稳定。
5-2
该问题属于聚类分析对变量分级,首先,我们认为葡萄酒质量可以根据第一题分析结果,采取第二组对葡萄酒的评分为葡萄酒质量的分级标准。
对于多次测量的指标我们选择其多次测量的平均值,针对不同等级的指标,我们选择运用主成分分析法,对酿酒葡萄的理化指标进行分析,然后对主成份分析结果与标准化后的第二组对葡萄酒评分数据进行聚类分析。
最后将酿酒葡萄的理化指标分类,把每一类酿酒葡萄的对应与第二组评分的平均值进行比较,完成对酿酒葡萄的分级。
聚类分析:
我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。
于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
主成分分析:
是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
主成份分析数学模型:
F0=a11ZX1+a21ZX2+……+ap1ZXp
其中a11,a21,……,ap1(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1,ZX2,……ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:
本文指的数据标准化是指Z标准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0。
进行主成分分析主要步骤如下:
1.指标数据标准化(SPSS软件自动执行);
2.指标之间的相关性判定;
3.确定主成分个数m;
4.主成分Fi表达式;
5.主成分Fi命名;
首先将所给红酿酒葡萄的一级指标筛选出来并整理,然后将数据直接导入SPSS软件中进行因子分析,方法采用主成份分析法,得到数据,表3、表4为所得数据的主要部分。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
6.994
24.977
24.977
6.994
24.977
24.977
2
4.669
16.674
41.651
4.669
16.674
41.651
3
3.070
10.966
52.617
3.070
10.966
52.617
4
2.836
10.130
62.747
2.836
10.130
62.747
5
1.978
7.064
69.811
1.978
7.064
69.811
6
1.628
5.815
75.627
1.628
5.815
75.627
7
1.218
4.350
79.977
1.218
4.350
79.977
8
1.109
3.961
83.938
1.109
3.961
83.938
9
.885
3.159
87.097
10
.718
2.564
89.661
11
.634
2.265
91.926
12
.501
1.788
93.713
13
.385
1.375
95.089
14
.318
1.136
96.225
15
.235
.838
97.062
16
.226
.807
97.870
17
.192
.685
98.555
18
.173
.617
99.171
19
.075
.266
99.438
20
.064
.228
99.665
21
.043
.152
99.817
22
.022
.080
99.897
23
.016
.056
99.953
24
.010
.036
99.989
25
.002
.009
99.998
26
.001
.002
100.000
27
1.977E-15
7.059E-15
100.000
28
1.944E-16
6.941E-16
100.000
提取方法:
主成份分析。
成份矩阵a
成份
1
2
3
4
5
6
7
8
总酚
.859
-.073
.301
-.118
-.030
.009
.014
-.329
花色苷
.838
-.026
.098
.360
.067
-.145
.043
-.069
DPPH
.792
-.391
.194
-.131
-.025
.190
-.004
-.203
单宁
.748
-.063
.348
.193
-.198
.093
-.240
-.022
葡萄总黄酮
.737
-.214
.397
-.155
-.004
.001
-.122
-.309
果皮颜色
.659
-.163
.431
-.026
-.123
-.368
-.060
.362
蛋白质
.658
-.464
-.046
-.268
.229
.180
-.033
.037
果梗比
.598
-.123
-.284
.159
-.338
.372
.161
.070
出汁率
.591
-.148
.483
-.053
-.078
-.439
-.086
.361
干物质含量
.294
.898
.151
-.067
.090
-.019
-.051
.118
可溶性固体
.168
.824
.285
-.079
.119
-.005
.169
-.058
总糖
.200
.822
.181
-.235
.091
-.103
.197
.059
还原糖
.015
.773
.070
-.135
.119
-.060
.108
.205
氨基酸总量
.320
.587
-.011
-.475
-.186
.329
.022
.094
果皮质量
-.271
-.184
.604
.301
.323
.393
.035
.203
白藜芦醇
.160
-.177
-.576
-.238
-.256
-.028
-.004
.150
可滴定酸
-.374
.467
.554
.151
-.364
.135
-.287
-.016
百粒质量
-.527
-.365
.551
.081
.237
.123
.099
-.020
PH
.320
-.266
.028
-.710
.147
-.120
.360
.090
褐变度
.592
-.013
-.230
.681
-.014
-.030
.128
.061
多分氧化酶
.277
.185
-.008
.622
.279
.193
.257
.075
苹果酸
.372
.304
-.246
.614
.017
-.371
-.011
-.081
vc
-.088
-.431
-.032
-.008
-.577
-.101
.143
.456
果穗质量
-.299
-.479
.343
.031
.565
.047
-.008
.291
固酸比
.424
-.055
-.389
-.101
.544
-.233
.316
-.022
黄酮醇
.541
.111
-.095
.071
-.088
.685
.209
.251
柠檬酸
.300
.164
-.484
.246
.363
.076
-.535
.252
酒石酸
.386
.081
-.276
-.470
.347
.141
-.517
.109
提取方法:
主成份。
a.已提取了8个成份。
对一级指标主成份分析后所得变量和第二组评分标准化后的变量采用SPSS聚类分析的系统聚类,聚类方法为WORD法,主要数据结果如下:
图2
根据第一题算得第二组在白葡萄酒和红葡萄酒的偏方差和较第一组小,可靠性更高,所以我们认为应该将第二组对每个酒样品的评分作为葡萄酒质量的评判标准。
于是我们将红葡萄酒的4类酒样品中的每个酒样品一一对应第二组对红葡萄酒的评分,然后将每一类酒样品的平均评分求出,然后将每一类酒样品的评分按照升序排列,从而得到每一类酒样品等级的升序排列。
最后结果为:
第一等级为红葡萄酒(26,27,10,25,13,12,18,7,11)
第二等级为红葡萄酒(6,15,5,17,4,24,22,16,20)
第三等级为红葡萄酒(2,23,9)
第四等级为红葡萄酒(14,21,3,8,19,1,2,23,9)
(等级越高说明酒的评分越高,即品质越高)
对白酿酒葡萄的分级同红酿酒葡萄的原理相同,我们对白酿酒葡萄的一级指标筛选出来用SPSS进行主成份分析,得到表5,表6,图3:
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
5.830
19.435
19.435
5.830
19.435
19.435
2
4.929
16.430
35.864
4.929
16.430
35.864
3
3.628
12.093
47.957
3.628
12.093
47.957
4
2.080
6.934
54.891
2.080
6.934
54.891
5
1.889
6.298
61.189
1.889
6.298
61.189
6
1.654
5.514
66.703
1.654
5.514
66.703
7
1.525
5.084
71.787
1.525
5.084
71.787
8
1.278
4.261
76.048
1.278
4.261
76.048
9
1.238
4.126
80.174
1.238
4.126
80.174
10
1.000
3.332
83.506
11
.967
3.223
86.729
12
.862
2.873
89.602
13
.640
2.133
91.736
14
.601
2.003
93.739
15
.398
1.326
95.065
16
.345
1.152
96.216
17
.303
1.010
97.226
18
.280
.932
98.158
19
.175
.585
98.742
20
.117
.391
99.133
21
.096
.321
99.454
22
.064
.214
99.668
23
.051
.171
99.839
24
.023
.076
99.916
25
.014
.047
99.963
26
.008
.026
99.989
27
.003
.011
100.000
28
7.685E-16
2.562E-15
100.000
29
-2.457E-16
-8.189E-16
100.000
30
-3.612E-16
-1.204E-15
100.000
提取方法:
主成份分析。
成份矩阵a
成份
1
2
3
4
5
6
7
8
9
干物质含量
.835
-.174
.106
.155
-.064
-.092
.114
.222
-.137
可溶性固体
.802
-.298
-.027
-.042
-.273
.297
.067
-.034
.162
总糖
.756
-.187
-.097
.017
-.346
.037
.082
-.035
.170
还原糖
.722
-.072
.005
.163
-.276
-.200
.275
.243
-.027
b
.646
.152
-.613
.006
.275
-.085
.045
-.188
-.079
氨基酸总量
.591
.112
.182
.533
.061
.127
-.059
-.158
.069
出汁率
-.578
.204
-.232
.218
.212
-.055
.173
-.297
-.012
果穗质量
-.577
.478
.277
.226
-.014
-.166
-.047
-.138
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 葡萄酒 评价 模型