葡萄酒的评价模型.docx
- 文档编号:23226048
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:31
- 大小:202.08KB
葡萄酒的评价模型.docx
《葡萄酒的评价模型.docx》由会员分享,可在线阅读,更多相关《葡萄酒的评价模型.docx(31页珍藏版)》请在冰豆网上搜索。
葡萄酒的评价模型
葡萄酒的评价模型
摘要
随着社会的进步,经济的发展,人们的知识水平的提高,葡萄酒越来越多的出现在人们的餐桌上。
因此,葡萄酒的质量也受到了人们的重视,然而,目前葡萄酒的质量是由品酒员品评打分给出,由于主观性这必然会影响葡萄酒真实质量的确定。
本题通过对一系列葡萄,葡萄酒的成分数据的分析,建立了葡萄酒的评价模型。
对于问题一,我们除去几个错误数据以平均值代之处理,用EXCEL软件对数据进行一系列处理并进行进行方差分析可得两组品酒员的评价结果中第二组的评价结果更可信。
用SPSS软件进行两独立样本T检验可知,两组品酒员对红葡萄酒的品评无显著性差异,对白葡萄的品评有显著性差异。
对于问题二,我们根据酿酒葡萄的一级指标并将葡萄酒的质量也作为一个指标对其进行系统聚类分析【1】,对红、白酿酒葡萄做出了分类,各分为五类。
第三问中我们对酿酒葡萄与葡萄酒的公共理化指标用SPSS软件和MATLAB软件作多元回归分析和相关分析,建立了多个酿酒葡萄与葡萄酒的理化指标之间的多元线性回归模型,进而得出它们之间的相关性联系。
第四问中我们运用主成分分析和多元线性回归分析,找出酿酒葡萄和葡萄酒的主要成分,然后建立酿酒葡萄和葡萄酒的主要成分与葡萄酒质量之间的多元线性回归模型,即红葡萄酒的质量与酿酒葡萄和葡萄酒的理化指标之间的关系式:
y=-0.0012-0.9764x1+0.2825x2+0.7103x3-0.4800x4-0.3767x5+0.3023x6+0.3132x7-0.2246x8+0.5958x9+0.4415x10-0.3881x11+0.5550x12
白葡萄酒的质量与酿酒葡萄和葡萄酒的理化指标之间的关系式:
y=0.0015+0.5648x1-0.3012x2-0.4185x3-1.4472x4+1.1306x5+0.1214x6+0.0843x7-0.0405x8+0.4541x9+0.0373x11+0.0060x12+0.4183x13-0.1754x14.
最后结合残差图对模型进行了拟合验证了所建模型是符合的。
关键词两独立样本T检验聚类分析相关分析多元线性回归模型主成分分析
一、问题重述与分析
1.1问题重述
随着社会的进步,经济的发展,人们的知识水平的提高,葡萄酒越来越多的出现在人们的餐桌上。
因此,葡萄酒的质量也受到了人们的重视,然而,目前葡萄酒的质量是由品酒员品评打分给出,由于主观性这必然会影响葡萄酒真实质量的确定。
因此基于酿酒葡萄的理化指标的研究而得出的葡萄酒的质量可信度更高。
下面我们要解决四个问题:
1.分析两组评酒员的评价结果有无显著性差异并确定较可信的一组。
2.根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
1.2问题分析
本题要建立的是葡萄酒的质量评价模型。
首先,根据品酒员对葡萄酒质量的各个独立指标的打分,我们经过数据观察和处理,将几个错误数据去掉,代之以平均值处理,并将各个理化指标的数据单位进行了标准化处理,使之便于分析比较。
其次,对于问题一,用方差分析,方差波动较小的那组评价结果比较可信。
再用两独立样本T检验的犯法分析两组评价结果是否有显著性差异。
对于问题二,由第一问的结果选较可信那组综合评分作为葡萄酒的质量,联合酿酒葡萄的理化指标做系统聚类分析可对其进行分类。
对于问题三,由生活常识可知,酿酒葡萄与葡萄酒理化指标之间必有某种相关性联系,因此我们用相关分析,并建立多元线性回归模型,可得出它们的理化指标之间的联系。
针对问题四,因为酿酒葡萄的理化指标太多,所以先用主成分分析找出酿酒葡萄和葡萄酒的主成分,再将质量与主成分进行多元回归分析,可得出它们之间的线性关系。
最后,模型检验,用MATLAB软件进行残差检验,观察拟合的程度。
二、符号说明
符号
意义
取值范围
Rij
第一组品酒员i对红葡萄酒样品j的综合评分
i=1,2…10,j=1,2…27
rij
第二组品酒员i对红葡萄酒样品j的综合评分
i=1,2…10,j=1,2…27
Wij
第一组品酒员i对白葡萄酒样品j的综合评分
i=1,2…10,j=1,2…28
wij
第二组品酒员i对白葡萄酒样品j的综合评分
i=1,2…10,j=1,2…28
Aj
第一组红葡萄酒样品j的平均评分
j=1,2…27
aj
第二组红葡萄酒样品j的平均评分
j=1,2…27
Bj
第一组白葡萄酒样品j的平均评分
j=1,2…28
bj
第二组白葡萄酒样品j的平均评分
j=1,2…28
S1j
第一组红葡萄酒样品j的方差
j=1,2…27
S2j
第二组红葡萄酒样品j的方差
j=1,2…27
S3j
第一组白葡萄酒样品j的方差
j=1,2…28
S4j
第二组白葡萄酒样品j的方差
j=1,2…28
三、模型假设
1.错误数据剔除后可用平均值代之处理。
2.酒样品的各个评价指标是相互独立的。
3.酿酒葡萄及葡萄酒的各项指标均满足正态分布。
4.品酒员的评分结果比较独立、公正、客观、准确。
5.酿酒葡萄的二级指标对葡萄酒质量影响极小。
四、模型建立与求解
4.1问题一
4.1.1问题的分析
问题一中要求我们确定哪组评价结果较可信,我们先观察数据并将错误数据剔除后以平均值代之。
然后基于品酒员的专业水准的假设,我们想到分别求两组品酒员对各个酒样品关于各个指标评分的总和,再求十个总分的平均值,并求得方差,再分别画出它们的方差分布图,看哪组的分布比较稳定。
独立样本T检验就是根据样本数据对两个样本来自的两独立总体的均值是否有显著差异进行推断,前提是两样本是相互独立的且数据满足正态分布。
由假设,本题中的数据满足这两个条件。
根据SPSS软件的操作结果分析可得出结论。
4.1.2问题求解
我们运用公式Aj=
aj=
S2j=
用EXCEL软件求出各组葡萄酒的平均值和方差,如下表
表一
第一组葡萄酒方差
第二组葡萄酒方差
酒样品
S1j
S3j
S2j
S4j
1
88.011
87.368
77.568
24.516
2
37.695
190.484
12.305
46.484
3
43.411
111.8105
29.095
134.989
4
102.358
42.358
39.116
39.884
5
58.747
119.789
12.937
24.895
6
56.589
154.147
20.011
21.526
7
98.158
37.105
59.379
39.958
8
41.695
111.8105
61.684
29.484
9
31.211
87.884
24.379
100.64
10
28.8
201.484
34.274
66.695
11
67.042
167.8
36.042
83.2
12
75.463
109.695
23.8
132.674
13
42.568
161.779
14.484
44.305
14
34.105
108.211
21.937
15.042
15
81.063
124.674
39.168
51.2
16
17.147
168.632
19.042
77.905
17
83.379
136.589
8.684
36.432
18
44.726
148.305
47.621
28.642
19
44.884
43.958
52.253
24.674
20
56.721
61.011
37.011
47.411
21
109.989
163.621
33.642
61.011
22
47.958
131.368
22.989
50.779
23
30.779
41.358
23.463
10.989
24
70.947
105.274
10.158
36.516
25
61.221
32.095
41.432
100.895
26
29.642
69.063
39.368
97.484
27
47.158
136.8
19.421
33.684
28
76.221
24.042
表二
第一组葡萄酒平均值
第二组葡萄酒平均值
酒样品
Aj
Bj
aj
bj
1
62.7
68.1
68.1
77.9
2
80.3
74
74
75.8
3
80.4
71.02
74.6
75.6
4
68.6
71.2
71.2
76.9
5
73.3
72.1
72.1
81.5
6
72.2
66.3
66.3
75.5
7
71.5
65.3
65.3
74.2
8
72.3
71.02
66
72.3
9
81.5
78.2
78.2
80.4
10
74.2
68.8
68.8
79.8
11
70.1
61.6
61.6
71.4
12
53.9
68.3
68.3
72.4
13
74.6
68.8
68.8
73.9
14
73
72.6
72.6
77.1
15
58.7
65.7
65.7
78.4
16
74.9
69.9
69.9
67.3
17
79.3
74.5
74.5
80.3
18
63
65.4
65.4
76.7
19
78.6
72.6
72.6
76.4
20
72.9
77.8
75.8
76.6
21
77.1
72.2
72.2
79.2
22
77.2
71.6
71.6
79.4
23
85.6
77.1
77.1
77.4
24
78
71.5
71.5
76.1
25
69.2
68.2
68.2
79.5
26
73.8
72
72
74.3
27
72
71.5
71.5
77
81.3
79.6
注:
红色标记的数据代表剔除错误数据后代之的平均值。
再作两组品酒员的评分方差图,如下
图一图二
两组红葡萄酒方差分布图两组白葡萄酒方差分布图
由图一、图二可看出第二组的方差比较稳定,因此第二组的评价结果更可信。
各对两组白、红葡萄酒评分的均值用SPSS【2】软件进行两独立样本T检验,得到如下两表:
方差方程的Levene检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
差分的95%置信区间
下限
上限
VAR00002
假设方差相等
3.201
.079
1.461
52
.150
2.32741
1.59293
-.86904
5.52386
假设方差不相等
1.461
40.326
.152
2.32741
1.59293
-.89122
5.54603
因为0.079>0.05,所以方差相等的假设成立。
再看第一行假设方差相等的情况,sig=0.150>0.05,即说明p值大于显著性水平,即指两组品酒员对红葡萄酒的评价没有显著性差异。
方差方程的Levene检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
差分的95%置信区间
下限
上限
VAR00004
假设方差相等
2.489
.120
-2.411
54
.019
-2.58571
1.07231
-4.73557
-.43586
假设方差不相等
-2.411
47.330
.020
-2.58571
1.07231
-4.74253
-.42890
因为0.120>0.05,所以方差相等的假设成立。
再看第一行假设方差相等的情况,sig=0.019<0.05,即说明p值小于显著性水平,即指两组品酒员对白葡萄酒的评价有显著性差异。
4.2问题二
4.2.1问题的分析
此问是让我们对酿酒葡萄进行分类,由此我们想到可以用聚类分析法解决此问题。
聚类分析就是根据对象的某些属性将数据分组成为多个类,在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大,又被称为“无监督的分析方法”,意即没有因变量。
聚类分析可从样本数据出发自动进行分类。
由于酿酒葡萄的理化指标比较多,因此我们只选一级指标,再结合第一问的结果将第二组的评分作为质量指标,用SPSS软件对其进行系统聚类分析,可分出若干类。
注意在进行分析前要先将各数据进行标准化处理。
4.2.2问题的求解
将酿酒葡萄的一级指标和质量指标数据导入SPSS软件,进行一系列操作,得到如下图三、图四;
图三
群集成员
案例
6群集
5群集
4群集
3群集
1:
1.00
1
1
1
1
2:
2.00
2
2
2
1
3:
3.00
3
3
3
2
4:
4.00
4
4
4
3
5:
5.00
4
4
4
3
6:
6.00
4
4
4
3
7:
7.00
4
4
4
3
8:
8.00
5
1
1
1
9:
9.00
2
2
2
1
10:
10.00
6
5
4
3
11:
11.00
4
4
4
3
12:
12.00
4
4
4
3
13:
13.00
4
4
4
3
14:
14.00
5
1
1
1
15:
15.00
4
4
4
3
16:
16.00
4
4
4
3
17:
17.00
4
4
4
3
18:
18.00
4
4
4
3
19:
19.00
4
4
4
3
20:
20.00
4
4
4
3
21:
21.00
3
3
3
2
22:
22.00
4
4
4
3
23:
23.00
2
2
2
1
24:
24.00
4
4
4
3
25:
25.00
6
5
4
3
26:
26.00
4
4
4
3
27:
27.00
4
4
4
3
分五类
第一类:
1,8,14
第二类:
2,9,23
第三类:
3,21
第四类:
4,5,6,7,11,12,13,15,16,17,18,19,20,22,24,26,27
第五类:
10,25
图四
群集成员
案例
6群集
5群集
4群集
3群集
1:
1.00
1
1
1
1
2:
2.00
2
2
2
1
3:
3.00
3
2
2
1
4:
4.00
2
2
2
1
5:
5.00
2
2
2
1
6:
6.00
4
3
1
1
7:
7.00
4
3
1
1
8:
8.00
5
4
3
2
9:
9.00
2
2
2
1
10:
10.00
2
2
2
1
11:
11.00
5
4
3
2
12:
12.00
2
2
2
1
13:
13.00
1
1
1
1
14:
14.00
2
2
2
1
15:
15.00
4
3
1
1
16:
16.00
5
4
3
2
17:
17.00
2
2
2
1
18:
18.00
4
3
1
1
19:
19.00
2
2
2
1
20:
20.00
2
2
2
1
21:
21.00
2
2
2
1
22:
22.00
2
2
2
1
23:
23.00
2
2
2
1
24:
24.00
2
2
2
1
25:
25.00
2
2
2
1
26:
26.00
2
2
2
1
27:
27.00
6
5
4
3
28:
28.00
2
2
2
1
分五类
第一类:
1,13
第二类:
2,3,4,5,9,10,12,14,17,19,20,21,22,23,24,25,26,28
第三类:
6,7,15,18
第四类:
8,11,16
第五类:
27
4.3问题三
4.3.1问题的分析
为了分析酿酒葡萄与葡萄酒的理化指标之间的联系,我们选取各项指标的相关系数作为关联程度的指标。
对于相关系数较大的各项指标整理出来,再对它们进行多元线性回归分析【3】,得到的多元线性方程就是它们之间的联系。
在大多数的实际问题中,影响因变量的因素不是单个而是多个,我们称这类问题为多元回归分析。
事实上,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效更符合实际。
可以建立因变量Y与各自变量Xj(j=1,2…n)之间的多元线性回归模型:
Y=b0+b1X1+b2X2+…+bnXn+e,其中b0是回归常数,bk为回归系数,e是随机误差。
第三问便可以使用这一模型解决,用表达式直观地说明酿酒葡萄与葡萄酒理化指标之间的联系。
先考虑酿酒葡萄与葡萄酒的公共理化指标之间的联系,建立多元线性回归模型。
相关分析是分析客观事物之间关系的定量分析方法,许多事物或现象之间总是相互关联的,并且可以通过一定的数量关系反映出来。
4.3.2问题的求解
由附表二可知酿酒红葡萄与葡萄酒的公共理化指标【3】有五个,分别是花色苷、单宁、总酚、酒总黄酮、白藜芦醇。
酿酒白葡萄与葡萄酒的公共理化指标有四个,分别是单宁、总酚、酒总黄酮。
先分析红葡萄。
用x1,x2,x3,x4,x5分别表示花色苷、单宁、总酚、酒总黄酮、白藜芦醇。
用MATLAB软件实现,程序见附录1、2、3、4、5.先看红葡萄酒。
1)、红葡萄酒花色苷与x1、x2、x3、x4、x5的关系:
Y=0.9393x1+0.1645x2-0.0544x3-0.1559x4+0.0319x5,
红葡萄酒中花色苷与酿酒葡萄的花色苷有较大的正相关性。
2)、红葡萄酒单宁与x1、x2、x3、x4、x5的关系:
Y=0.1836x1+0.1890x2+0.7138x3-0.0911x4+0.0873x5
红葡萄酒中单宁与酿酒葡萄的总酚有较大的正相关性。
3)、红葡萄酒总酚与x1、x2、x3、x4、x5的关系:
Y=0.3241x1+0.0877x2+0.3290x3+0.2749x4+0.1006x5
红葡萄酒中总酚与酿酒葡萄的五指标无明显的正相关性。
4)、红葡萄酒酒总黄醇与x1、x2、x3、x4、x5的关系:
Y=0.1812x1+0.0205x2+0.5342x3+0.2266x4+0.0644x5
红葡萄酒中酒总黄醇与酿酒葡萄的总酚有较大的正相关性。
5)、红葡萄酒白藜芦醇与x1、x2、x3、x4、x5的关系:
Y=-0.1388x1+0.0524x2-0.0531x3+0.7292x4-0.0138x5
红葡萄酒中白藜芦醇与酿酒葡萄的葡萄总黄醇有较大的正相关性。
运用相关分析,如下图所示
红葡萄酒主要指标相关系数矩阵
酿红花色苷
酿红单宁
酿红总酚
葡萄总黄醇
酿红白藜芦醇
花色苷
单宁
总酚
酒总黄醇
白藜芦醇
酿红花色苷
1.000
.688
.728
.566
-.060
.923
.720
.774
.709
.200
酿红单宁
.688
1.000
.755
.688
-.050
.661
.718
.743
.701
.315
酿红总酚
.728
.755
1.000
.895
-.019
.613
.817
.875
.883
.459
葡萄总黄醇
.566
.688
.895
1.000
.021
.441
.684
.815
.823
.567
酿红白藜芦醇
-.060
-.050
-.019
.021
1.000
-.035
.049
.076
.047
.014
花色苷
.923
.661
.613
.441
-.035
1.000
.744
.765
.665
.124
单宁
.720
.718
.817
.684
.049
.744
1.000
.921
.837
.331
总酚
.774
.743
.875
.815
.076
.765
.921
1.000
.904
.486
酒总黄醇
.709
.701
.883
.823
.047
.665
.837
.904
1.000
.399
白藜芦醇
.200
.315
.459
.567
.014
.124
.331
.486
.399
1.000
由此图可知,红葡萄酒中的花色苷与酿酒葡萄中的花色苷、单宁有较大的正相关性。
红葡萄酒中的单宁与酿酒葡萄的花色苷、总酚有较大的正相关性。
红葡萄酒中的总酚与酿酒葡萄的总酚、葡萄总黄醇有较大的正相关性。
红葡萄酒中的酒总黄醇与酿酒葡萄的总酚、葡萄总黄醇有较大的正相关性。
红葡萄酒中的白藜芦醇与酿酒葡萄的总酚、葡萄总黄醇有较大的正相关性。
综合起来前面MATLAB的结果,红葡萄酒中的花色苷与酿酒葡萄的花色苷有较大的正相关性。
红葡萄酒中的单宁与酿酒葡萄中的总酚有较大的正相关性。
红葡萄酒中的总酚与酿酒葡萄的总酚、葡萄棕黄醇有较大的正相关性。
红葡萄酒中的酒总黄醇与酿酒葡萄的总酚有较大的正相关性。
红葡萄酒中的白藜芦醇与酿酒葡萄的葡萄总黄醇有较大的正相关性。
再用x1,x2,x3,x4分别表示酿酒白葡萄中的单宁、总酚、葡萄总黄醇、白藜芦醇。
用MATLAB软件实现,程序见附录6,7,8,9。
1)、白葡萄酒中单宁与x1、x2、x3、x4的关系:
Y=0.4234x1-0.3364x2+0.5838x3-0.0569x4
白葡萄酒中单宁与酿酒葡萄的葡萄总黄醇有较大的正相关性。
2)、白葡萄酒中总酚与x1、x2、x3、x4的关系:
Y=0.3619x1-0.0577x2+0.4419x3+0.0320x4
白葡萄酒中总酚与酿酒葡萄的葡萄总黄醇有一定的正相关性。
3)、白葡萄酒中酒总黄醇与x1、x2、x3、x4的关系:
Y=-0.0665x1+0.7742x2+0.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 葡萄酒 评价 模型