葡萄酒评价数学模型研究数学建模A题.docx
- 文档编号:6321275
- 上传时间:2023-01-05
- 格式:DOCX
- 页数:72
- 大小:86.16KB
葡萄酒评价数学模型研究数学建模A题.docx
《葡萄酒评价数学模型研究数学建模A题.docx》由会员分享,可在线阅读,更多相关《葡萄酒评价数学模型研究数学建模A题.docx(72页珍藏版)》请在冰豆网上搜索。
葡萄酒评价数学模型研究数学建模A题
2012高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
参赛队员(打印并签名):
1.
2.
3.
指导教师或指导教师组负责人(打印并签名):
日期:
年月日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号)
葡萄酒评价模型研究
摘要
本文运用统计学方法利用题中所给样本数据对葡萄酒质量与酿酒葡萄和葡萄酒理化关系进行详细分析,建立模型解决葡萄酒质量评价的问题,确定酿酒葡萄的好坏与所酿葡萄酒有直接的关系,判定葡萄酒和酿酒葡萄的理化指标会在一定程度上反映葡萄酒的质量.
问题一,利用附件一中的两组评酒员的打分数据借助于Excel和SPSS软件采用配对样本的均值检验方法,分别对红,白葡萄酒的评酒员评分进行假设检验,得出红葡萄酒:
n=27t=2.491p=0.019白萄酒n=28t=-2.631p=0.014,因此两组评酒员的评分存在显著性差异。
其变异系数cv2明显小于cv1,故第二组评酒员的评分更可靠。
问题二,通过主成分分析法将酿酒葡萄的一级理化指标由m级缩减为n级,利用缩减后的主成分和问题一中得到的评分进行聚类分析,将酿酒葡萄分为j类,然后根据每一类酿酒葡萄的对应于第二组评分的平均值进行比较,划分出酿酒葡萄的等级都为四个等级。
问题三,运用双变量分析法,分别将红,白酿酒葡萄的等级和葡萄酒的理化指标进行双变量分析,求出酿酒葡萄等级与葡萄酒每一个理化指标的sig值来判断酿酒葡萄等级与葡萄酒的显著相关性。
得出如下结论:
1,红葡萄酒理化指标中花色苷、总酚、酒总黄酮、DPPH半抑制体积、L*(D与红酿酒葡萄有显著性相关。
2,白葡萄酒理化指标中L*、b*与白酿酒葡萄有显著性相关。
问题四,利用逐步线性回归法和进步线性回归法,将葡萄酒的每一个指标和对应的酿酒葡萄等级作为自变量,将第二组评酒员对葡萄酒的评分作为因变量,进行线性回归运算。
判断因变量与自变量的显著相关性,来判别哪几个自变量对因变量有影响,即判断葡萄酒质量受哪些因素影响。
其中红葡萄酒:
回归平方和=202.370残差平方和=209.064总计平方和=411.434F值为24.200sig值小于0.05,所以线性回归方程Z=-0.139X1+0.176X2+0.208X3+0.241X4-0.133X5+2.910Y有效。
白葡萄酒:
回归平方和=124.312残差平方和=147.169总计平方和=2771.481F值=21.962sig值小于0、05,所以线性回归方程Z=0.130X1-0.145X2+1.862Y有效。
红酿酒葡萄和白酿酒葡萄的显著性相关的解释率分别为49.2%和45.8%。
结论:
分析出无论是白葡萄酒还是红葡萄酒,葡萄酒的质量都与酿酒葡萄的指标等级有显著性相关,并且红葡萄酒除了用红酿酒葡萄指标等级来评价,其次也可以用红葡萄酒的理化指标来评价红葡萄酒的质量。
关键词
主成分分析聚类分析多元线性回归质量评价理化指标显著性相关
一,问题的提出
葡萄酒作为体现时尚品味的元素,同雪茄,咖啡,名茶一样备受追捧.确定葡萄酒质量是由一批有资质的评酒师进行品评,每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到总分,从而确定葡萄酒的质量.酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量.附件一中给出了某一年份一些葡萄酒样本的评价结果,附件二和三分别给出了该年份这些葡萄酒和酿酒葡萄的理化指标与成分数据.尝试建立数学模型讨论如下问题:
1分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级.
3分析酿酒葡萄和葡萄酒理化指标之间的联系
4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二,问题的分析
2—1第一个问题属于显著性差异分析的数学问题,要解决这个问题,我么用配对样品T检验分析,因为t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
通过计算出变异性系数(cv)判断这两组那组更合理。
附件1分别给出了两组的10位品酒员对27个酒样的各项进行打分,我们先每个品酒员对每个指标打分求和再求每组是个品酒员打分求平均值。
为了检测两组是否有显著性差异我们建立了配对样品T检验的数学模型
2-2.第二个题目中通过对酿酒葡萄的分级我们能选择不同等级的葡萄去酿葡萄酒,这样保证我们酿出的酒的品质大致相同。
这属于数据分类方面的数学问题,我们采用主成分分析法和聚类分析法解决这个问题。
2-3我们认为基于实际作用,问题三应该是酿酒葡萄的等级与葡萄酒理化指标的关系。
所以我们认为这是一个双变量相关性问题。
一个变量为第二题的数据结果分析出来的等级,另一个变量为葡萄酒的一级指标。
2-4我们将第四个问题理解为:
酿酒葡萄等级和葡萄酒的理化指标对葡萄酒质量的影响。
我们利用线性回归处理该问题。
三,模型的假设
1假设所有样本发酵条件相同
2假设所有品酒师的味觉分析能力正常
四,模型的建立与求解
4-1问题一属于显著性差异分析的数学问题,要解决这个问题,我们用配对样品T检验分析。
因为t检验是用t分布理论来推论差异发生的概率,从而利用配对T检验比较两个平均数的差异是否显著。
通过计算出每组评分的变异性系数(cv)判断这两组中哪组更合理。
显著性差异是一种有量度的或然性评价,比如我们说A、B两数据在0.05水平上具备显著性差异,这是说两组数据具备显著性差异的可能性为95%。
两个数据所代表的样本还有5%的可能性是没有差异的。
这5%的差异是由于随机误差造成的。
通常情况下,实验结果达到0.05水平或0.01水平,才可以说数据之间具备了差异显著或是极显著。
在作结论时,应确实描述方向性(例如显著大于或显著小于)。
sig值通常用P>0.05表示差异性不显著;0.01
建立模型:
附件1分别给出了两组的10位品酒员对27个红酒样的各项的评分,这里规定附件1中第M位品酒员对第N个酒品中的第K个指标分数为X(MNK),以此,先将每个品酒员对酒样品的各个指标打分求和,比如第一位品酒员对酒样品2的每个指标求和的计算公式为Y(12)=X(121)+X(122)+………+X(1210),其中Y(12)表示第一位品酒员对酒样品2的总评分,再求每组中每一个酒品关于该组所有品酒员评分的平均值,所得结果即为该组品酒员对某一样品的综合评分,如某组对酒样品2的综合评分即为Z
(2)=(Y(12)+Y(22)+Y(32)+…….Y(102))/10。
利用用EXCEL将数据整理好(详图见目录),然后用spss软件分别将两组对红葡萄酒样品和白葡萄酒样品的综合评分进行处理,具体步骤为:
分析——比较均值——配对样本T检验。
T检验的数学公式如下:
其中
,
,
注:
式中:
Sd为d的标准差;n为配对的对子数,即试验的重复数,
d为两样本各对数据之差,
为差异标准误。
我们先来对红葡萄酒的显著性进行分析
表1-1是第一组品酒师和第二组品酒师对红葡萄酒的打分数据.
表1-1第一组和第二组品酒师对红葡萄酒的打分
第一组
62.7
80.3
80.4
68.6
73.3
72.2
第二组
68.1
74
74.6
71.2
72.1
66.3
第一组
71.5
72.3
81.5
74.2
70.1
53.9
第二组
65.3
66
78.2
68.8
61.6
68.3
第一组
74.6
73
58.7
74.9
79.3
60.08889
第二组
68.8
72.6
65.7
69.9
74.5
65.4
第一组
78.6
79.22222
77.1
77.2
85.6
78
第二组
72.6
75.8
72.2
71.6
77.1
71.5
第一组
69.2
73.8
73
第二组
68.2
72
71.5
接着将这些打分数据输入到SPSS软件中进行配对样本T检验,得到表1-2-1、表1-2-2、表1-2-3:
表1-2-1成对样本统计量
均值
N
标准差
均值的标准误
对1
VAR00006
73.0856
27
7.34872
1.41426
VAR00007
70.5148
27
3.97799
.76556
c.v(1hong)=0.100549
c.v(2hong)=0.056414
表1-2-2成对样本相关系数
N
相关系数
Sig.
对1
VAR00006&VAR00007
27
.702
.000
表1-2-3成对样本检验
成对差分
t
df
Sig.(
表1-2-3成对样本检验
成对差分
t
df
Sig.(
双侧)
均值
标准差
均值的标准误
差分的95%置信区间
下限
上限
双侧)
均值
标准差
均值的标准误
差分的95%置信区间
下限
上限
对1
VAR00006-VAR00007
2.57078
5.36358
1.03222
.44902
4.69254
2.491
26
.019
结果分析:
N=27,t=2.491,P=0.019小于显著性水平0.05,即俩组对红葡萄酒的评价存在显著性差异。
因为第二组品酒师对红葡萄酒评分的变异性系数c.v(2hong)=0.056414小于第一组品酒师对红葡萄酒评分的变异性系数c.v(1hong)=0.100549,所以我们认为第二组的评分更加稳定,也就是说第二组的评分更可靠。
(C.V为我们自行计算数值,非SPSS数据结果)
用同样方法对第一组和第二组对白葡萄酒的评分进行分析时,我们发现了一个问题,在附件一中,第一组白葡萄酒品尝评分表格中,J233数据为77,明显异常,我们按照该异常数据
对未修正的白葡萄酒进行配对样品T检验得到表1-3-1、1-3-2:
表1-3-1成对样本相关系数
N
相关系数
Sig.
对1
VAR00003&VAR00004
28
.207
.291
表1-3-2成对样本检验
成对差分
t
df
Sig.(双侧)
均值
标准差
均值的标准误
差分的95%置信区间
下限
上限
对1
VAR00003-VAR00004
-2.27143
5.50386
1.04013
-4.40560
-.13725
-2.184
27
.038
结果分析:
P=0.038小于显著性水平0.05,存在显著性差异。
(C.V为我们自行计算数值,非SPSS数据结果)
注:
(我们将该异常数据取同一指标下,其他品酒员评分的平均值。
)
对修正后的白葡萄酒进行配对样品T检验得到表1-4-1、1-4-2、1-4-3:
表1-4-1
均值
N
标准差
均值的标准误
均值
N
标准差
均值的标准误
对1
VAR00004
74.0071
28
4.80077
.90726
对1
VAR00004
74.0071
28
4.80077
.90726
VAR00005
76.5321
28
3.17094
.59925
第一组品酒师对白葡萄酒评分的变异系数c.v(1bai)=0.064869
第二组品酒师对白葡萄酒评分的变异系数c.v(2bai)=0.041433
表1-4-2
成对样本相关系数
N
相关系数
Sig.
对1
VAR00004&VAR00005
28
.240
.219
表1-4-3成对样本检验
成对差分
t
df
Sig.(双侧)
均值
标准差
均值的标准误
差分的95%置信区间
下限
上限
对1
VAR00004-VAR00005
-2.52500
5.07905
.95985
-4.49445
-.55555
-2.631
27
.014
结果分析:
P=0.014小于显著性水平0.05,两组对白葡萄酒评分存在显著性差异。
因为第二组的c.v(2bai)=0.041433小于第一组的c.v(1bai)=0.064869,所以我们认为第二组对白葡萄酒的评分更加稳定,也就是说结果更加可靠。
(C.V为我们自行计算数值,非SPSS数据结果)
4-2
该问题属于聚类分析对变量分级,首先,我们认为葡萄酒质量可以根据第一题分析结果,采取第二组对葡萄酒的评分为葡萄酒质量的分级标准。
附录2中所给酿酒葡萄的指标数据分为一级指标和二级指标,对于多次测量的指标我们选择其多次测量的平均值,针对不同等级的指标,我们选择运用主成分分析法,对酿酒葡萄的理化指标进行分析,然后对主成份分析结果与标准化后的第二组对葡萄酒评分数据进行聚类分析。
最后将酿酒葡萄的理化指标分类,把每一类酿酒葡萄的对应与第二组评分的平均值进行比较,完成对酿酒葡萄的分级。
主成分分析:
是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关
.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
主成份分析数学模型:
Fp=a1iZX1+a2iZX2+……+apiZXp
其中a1i,a2i,……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1,ZX2,……,ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:
本文指的数据标准化是指Z标准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0。
进行主成分分析主要步骤如下:
1.指标数据标准化(SPSS软件自动执行);
2.指标之间的相关性判定;
3.确定主成分个数m;
4.主成分Fi表达式;
5.主成分Fi命名;
聚类分析:
我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。
于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
常见聚类分析有:
1.SquaredEuclideandistance平方欧式距离:
2.Euclideandistance欧式距离:
3.Cosine夹角余弦(R型)
4.Pearsoncorrelation皮尔逊相关系数(R型)
5.Chebychev切比雪夫距离:
首先将所给红酿酒葡萄的一级指标筛选出来并整理,然后将数据直接导入SPSS软件中进行因子分析,方法采用主成份分析法,得到数据,表2-1、表2-2为所得数据的主要部分。
表2-1
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
6.891
25.522
25.522
6.891
25.522
25.522
2
4.015
14.872
40.394
4.015
14.872
40.394
3
3.356
12.430
52.824
3.356
12.430
52.824
4
2.981
11.040
63.864
2.981
11.040
63.864
5
1.903
7.046
70.910
1.903
7.046
70.910
6
1.598
5.919
76.829
1.598
5.919
76.829
7
1.198
4.437
81.265
1.198
4.437
81.265
8
1.013
3.751
85.016
1.013
3.751
85.016
9
.913
3.383
88.399
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
6.891
25.522
25.522
6.891
25.522
25.522
2
4.015
14.872
40.394
4.015
14.872
40.394
3
3.356
12.430
52.824
3.356
12.430
52.824
4
2.981
11.040
63.864
2.981
11.040
63.864
5
1.903
7.046
70.910
1.903
7.046
70.910
6
1.598
5.919
76.829
1.598
5.919
76.829
7
1.198
4.437
81.265
1.198
4.437
81.265
8
1.013
3.751
85.016
1.013
3.751
85.016
9
.913
3.383
88.399
10
.657
2.433
90.832
11
.553
2.047
92.879
12
.438
1.623
94.502
13
.338
1.252
95.755
14
.279
1.033
96.787
15
.260
.962
97.749
16
.169
.624
98.373
17
.144
.534
98.908
18
.101
.373
99.281
19
.074
.275
99.556
20
.054
.201
99.757
21
.033
.123
99.880
22
.020
.074
99.954
23
.009
.033
99.987
24
.002
.007
99.994
25
.001
.006
100.000
26
9.959E-5
.000
100.000
27
-1.797E-16
-6.654E-16
100.000
10
.657
2.433
90.832
11
.553
2.047
92.879
12
.438
1.623
94.502
13
.338
1.252
95.755
14
.279
1.033
96.787
15
.260
.962
97.749
16
.169
.624
98.373
17
.144
.534
98.908
18
.101
.373
99.281
19
.074
.275
99.556
20
.054
.201
99.757
21
.033
.123
99.880
22
.020
.074
99.954
23
.009
.033
99.987
24
.002
.007
99.994
25
.001
.006
100.000
26
9.959E-5
.000
100.000
27
-1.797E-16
-6.654E-16
100.000
提取方法:
主成份分析。
表2-2
成份矩阵a
成份
1
2
3
4
5
6
7
8
总酚(mmol/kg)
.789
.361
.004
-.159
-.003
.224
-.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 葡萄酒 评价 数学模型 研究 数学 建模