数据挖掘之红酒鉴别精品文档13页.docx
- 文档编号:25483820
- 上传时间:2023-06-09
- 格式:DOCX
- 页数:12
- 大小:42.22KB
数据挖掘之红酒鉴别精品文档13页.docx
《数据挖掘之红酒鉴别精品文档13页.docx》由会员分享,可在线阅读,更多相关《数据挖掘之红酒鉴别精品文档13页.docx(12页珍藏版)》请在冰豆网上搜索。
数据挖掘之红酒鉴别精品文档13页
基于数据挖掘的葡萄酒质量识别
我们知道,传统的葡萄酒鉴别靠感觉器官的品尝来判断其质量的好坏,这就必须要求品尝者是训练有素的品酒专家。
但感官品尝结果容易受各种因素的影响。
随着科学技术的发展,葡萄酒质量品鉴成了一项可以替代性的工作,不在局限于酿酒工作者的工作才能完成。
因此,将数据挖掘方法用于葡萄酒评级早已被各国所采用。
下面主要基于数据挖掘的分类和回归方法对葡萄酒质量的鉴别做一个简单的分析与判断。
1.数据挖掘理论方法论述
1.1主成分回归
在数据处理中,经常会遇到高维数据组,由于数据维数高,变量多,而且变量间往往存在相关关系,因此很难抓住他们的相关关系信息。
在实际问题中,研究多变量问题是经常遇到的,再加上变量指标之间有一定的相关性,这势必增加了问题的复杂性,主成分分析就是设法将原来指标重新组合成一组新的互相无关的较少的综合指标来代替原来的指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。
这种将多个变量化为少数互相无关的综合指标的统计方法称为主成分分析。
主成分分析就是设法将原来众多具有一定相关性的变量重新组合成一组新的相互无关的综合指标来代替,通常数学上的处理就是将原来
个变量作线性组合,作为新的综合指标,但是这种线性组合,需要加以限制。
假设第一个综合指标记为
,自然希望
尽可能多的反映原来指标的信息,这里最经典的方法是用
的方差来表达,即
越大,表示
包含的信息越。
因此所有线性组合中所选取的
应该是方差最大的,故将
称为第一主成分,如果
不足以代表原来
个指标的信息,在满足
的条件下,再考虑选取
作为第二个主成分,同理可以构造第三,四,.....,第
个主成分。
要求:
(1)
(2)
求得
的主成分为协房阵
的特征向量为系数的线性组合。
得到主成分,提取所需要的前几个主要成分后,回归的过程与线性回归是一致的。
只是自变量变成了选取的主成分,因变量不变。
1.2分类回归树
1.2.1分类回归树的构建
分类回归树的构建是通过学习给定的训练样本,寻找最佳的分支规则。
分类回归树的分支规则是根据不纯度作为评估度量来实现的,以寻找最佳的分支规则。
最常用的不纯度函数为基尼指数,其定义为
其中
是指
中第
类的频率,也就是说当基尼指数越小时,意味着该节点所包含的样本集越集中,该节点越纯。
树的构建大致可以这样表述为:
所有的样本都属于树的根节点
,寻找第一个节点的分支规则时,从第一个自变量开始,记录样本数据该变量的每个取值作为分支阈值时不纯度的下降值,直到所有变量的每个取值作为分支阈值的不纯度下降值记录完毕,选择不纯度下降值最大的自变量和分叉阈值作为树根节点的分支变量和分支阈值。
如此往复生成一颗最大的树。
由此过程可见,分类回归树属于贪心算法。
在构建树的过程中,满足以下条件之一,则不再对叶节点进行分支操作:
(1)叶节点中的样本数小于给定的值
,一般默认
;
(2)分支后的叶节点中的样本属于同一类;
(3)无属性向量用于分支选择。
经过此过程,最终得到一颗最大的树
1.2.2分类回归树的修剪
为了解决所建立的最大树
过分拟合的问题,需要对生成的树进行修剪,去掉那些对未知检验样本的分类精度没有帮助的部分树,使得模型更简单、更容易理解。
常用的剪枝有两种:
一种是先剪枝法,一种是后剪枝法。
它们都采用统计度量,剪去最不可靠的分支,提高分类回归树独立于测试数据的测试能力。
最小成本复杂度的后剪枝法较为常用,其统计度量为
其中
表示复杂度参数,用于表示每个终止点复杂度的代价,当
为0时,对应的最大树
。
为
的估计错分率,
为该树的估计错分类与对复杂度惩罚值之和的成本复合值。
当
一定时,
越大,其可取性也就越小。
1.2.3分类回归树的评估
经过树的修剪,得到了一系列的子树,那么如果选择最优大小的树作为最终构建分类回归树,就需要对分类回归树进行评估,最常用的评估方法有测试样本评估和交互检验评估。
文中采用的是交互检验评估。
折交互检验是将样本集平均分为
个子集,每次用其中的
个子集进行建模,剩下的子集用来预测,循环
次,计算平均的错分率。
对所生成的一系列子树
分别进行
折交互检验,得到
个平均错分率,那么最小平均错分率对应的子树就是最优的构建树
,即
2.数据处理与基本分析
2.1数据说明与预处理
葡萄酒数据来源于http:
//archive.ics.uci.edu/ml/datasets/Wine+Quality,包含红酒和白酒两种。
红酒1599个样本记录,11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。
白酒则有4898个样本记录,也是11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。
为简化问题,我主要讨论了红酒的质量识别,白酒的质量识别可以对照参考。
本文数据分析所使用的工具主要有SPSS和R语言。
首先将葡萄酒质量等级分为低等、中等以及高等三类(质量为3和4的视为低等,5和6的视为中等,7和8的视为高等,见表1-1),对应样本量分别为63、1319、217。
表1-1葡萄酒质量等级分类
quality
频率
百分比
有效百分比
累积百分比
等级
有效
3
10
0.6
0.6
0.6
低
4
53
3.3
3.3
3.9
5
681
42.6
42.6
46.5
中
6
638
39.9
39.9
86.4
7
199
12.4
12.4
98.9
高
8
18
1.1
1.1
100.0
合计
1599
100.0
100.0
具体的11个自变量如表1-2所示。
表1-2红酒质量自变量的简单描述
自变量
N
极小值
极大值
均值
标准差
Fixedacidity
1599
4.6
15.9
8.320
1.7411
Volatileacidity
1599
0.120
1.580
0.52782
0.179060
Citricacid
1599
0.00
1.00
0.2710
0.19480
Residualsugar
1599
0.90
15.50
2.5388
1.40993
chlorides
1599
0.012
0.611
0.08747
0.047065
Freesulfurdioxide
1599
1
72
15.87
10.460
Totalsulfurdioxide
1599
6
289
46.47
32.895
density
1599
0.9901
1.0037
0.996747
0.0018873
pH
1599
2.74
4.01
3.3111
0.15439
sulphates
1599
0.33
2.00
0.6581
0.16951
alcohol
1599
8.4
14.9
10.423
1.0657
有效的N(列表状态)
1599
其中体现红酒的酸、甜、咸、苦的成分归纳如下:
酸:
Fixedacidity(酒石酸)、Volatileacidity(醋酸)、Citricacid(柠檬酸)
甜:
Residualsugar(糖分)、alcohol(酒精)
咸:
chlorides(氯化钠)
苦:
Freesulfurdioxide(游离二氧化硫)、Totalsulfurdioxide(总二氧化硫)、sulphates(硫酸钾)
表1-2显示的变量只是红酒主要的基本成分,并没有微量成分,由葡萄酒的品尝原理我们知道,葡萄酒中的微量成分是香气和滋味成分中最主要的部分,这些成分数目极大而浓度极小。
这可能对我们的分析会造成不利的影响,即体现红酒质量的自变量缺失了,某些甚至可能是重要的变量。
2.2数据基本分析
2.2.1相关性分析
首先对自变量之间进行相关性分析,图1-3给出了部分相关性相对较大的变量两点之间的散点图。
透过散点图我们可以观察到酸度与密度,酸度与PH值之间的相关性程度较高。
其他各个变量之间的相关系数详见表1-4.
表1-3变量间相关性散点图
从表1-4可以看出,除了酒石酸与密度,酒石酸与柠檬酸、酒石酸与PH、游离二氧化硫与总二氧化硫的相关系数在0.68左右,其他变量之间的相关程度并不高。
其中,酒石酸与PH、醋酸与酒石酸、酒精与密度之间存在负相关性。
综上也说明了,在葡萄酒的成分里,酒石酸和许多化学成分存在相关性。
表1-4红酒质量各自变量之间的相关系数表
相关性
Fixed
acidy
Volatile
acidity
Citric
acid
Residual
sugar
chlorides
Free
Sulfur
dioxide
Total
Sulfur
dioxide
density
pH
sulphates
alcohol
Fixed
acidity
1
-0.256**
0.672**
0.115**
0.094**
-0.154**
-0.113**
0.668**
-0.683**
0.183**
-0.062*
Volatile
acidity
-0.256**
1
-0.552**
0.002
0.061*
-0.011
0.076**
0.022
0.235**
-0.261**
-0.202**
Citric
acid
0.672**
-0.552**
1
0.144**
0.204**
-0.061*
0.036
0.365**
-0.542**
0.313**
0.110**
Residual
sugar
0.115**
0.002
0.144**
1
0.056*
0.187**
0.203**
0.355**
-0.086**
0.006
0.042
chlorides
0.094**
0.061*
0.204**
0.056*
1
0.006
0.047
0.201**
-0.265**
0.371**
-0.221**
Free
Sulfur
dioxide
-0.154**
-0.011
-0.061*
0.187**
0.006
1
0.668**
-0.022
0.070**
0.052*
-0.069**
Total
Sulfur
dioxide
-0.113**
0.076**
0.036
0.203**
0.047
0.668**
1
0.071**
-0.066**
0.043
-0.206**
density
0.668**
0.022
0.365**
0.355**
0.201**
-0.022
0.071**
1
-0.342**
0.149**
-0.496**
pH
-0.683**
0.235**
-0.542**
-0.086**
-0.265**
0.070**
-0.066**
-0.342**
1
-0.197**
0.206**
sulphates
0.183**
-0.261**
0.313**
0.006
0.371**
0.052*
0.043
0.149**
-0.197**
1
0.094**
alcohol
-0.062*
-0.202**
0.110**
0.042
-0.221**
-0.069**
-0.206**
-0.496**
0.206**
0.094**
1
**.在0.01水平(双侧)上显著相关。
*.在0.05水平(双侧)上显著相关。
由前面我们知道,变量很多且部分变量之间存在相关性,那么可以考虑用主成分分析。
到第五个主成分时累积方差已经达到了79.53%,所以选择五个主成分进行回归分析。
表1-5主成分概况
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
3.099
28.174
28.174
3.099
28.174
28.174
2
1.926
17.508
45.682
1.926
17.508
45.682
3
1.551
14.096
59.778
1.551
14.096
59.778
4
1.213
11.029
70.807
1.213
11.029
70.807
5
.959
8.721
79.528
6
.660
5.996
85.525
7
.584
5.307
90.832
8
.423
3.845
94.677
9
.345
3.133
97.810
10
.181
1.648
99.459
11
.060
.541
100.000
提取方法:
主成份分析。
成份矩阵a
成份
1
2
3
4
Fixedacidity
.861
-.153
-.154
-.253
Volatileacidity
-.420
.382
-.560
.087
Citricacid
.816
-.211
.297
-.087
Residualsugar
.257
.378
.126
-.411
chlorides
.374
.205
-.115
.734
Freesulfurdioxide
-.064
.713
.534
-.048
Totalsulfurdioxide
.042
.790
.401
-.038
density
.696
.324
-.422
-.192
pH
-.772
.009
.072
-.004
sulphates
.428
-.052
.348
.607
alcohol
-.199
-.536
.587
-.135
提取方法:
主成份。
a.已提取了4个成份。
表1-6表示三种主成分分类图,点表示不同的类别,可以看出主成分可以分类,但是并不能分的很开。
由表1-4我们也可以看出,只有少数的变量之间存在相关性,且相关程度并不高。
由于主成分分析只有在多数变量之间存在较高的相关度的情况下显示出其算法的优势,因此本文的数据并不适合用主成分分析。
表1-6主成分分类图
因为因变量可以看成类别,也可以看成连续的、有大小之分的变量。
可分别利用分类回归树进行分类和回归。
建立分类回归树后需要对树进行修剪,降低模型的复杂度,使得模型不至于出现过度拟合。
回归和分类的结果表明,分类的预测精确度比回归的要高。
回归的结果是使得总预测精确度最高来确定其分叉点,这就可能导致回归的结果都是靠近某个整数,使得最终处理得到的结果预测精确度下降。
所以,我们仅考虑利用分类树建模。
图1-7是回归树的初始结果。
图1-7分类回归树
节点的收益汇总
节点
N
百分比
均值
1
308
21.0%
10.901
5
245
16.7%
10.747
4
329
22.4%
10.190
3
585
39.9%
10.142
增长方法:
CHAID
因变量列表:
alcohol
风险
估计
标准误差
1.003
.041
增长方法:
CHAID
因变量列表:
alcohol
因为分类的效果比回归的效果要好,所以这里建模采用分类的方法。
由上表节点收益及风险数据看出分类树能识别大部分质量低劣的红酒,同时又不使得其他质量等级的葡萄酒识别率下降太多。
现成的葡萄酒成分检验技术依然很有限,气相和液相并不能检测出所有的化学成分,本文所利用的数据仅11个变量,包括9个化学成分和2个非化学成分变量,某些重要变量的缺失影响了建模的预测结果。
希望随着检测仪器的研究发现,能检测出更多的成分,为研究葡萄酒质量等级的识别提供更多的硬性基础,提高葡萄酒质量等级的识别率,检测出更多低质量葡萄酒,维护消费者权益。
希望以上资料对你有所帮助,附励志名言3条:
1、理想的路总是为有信心的人预备着。
2、最可怕的敌人,就是没有坚强的信念。
——罗曼·罗兰
3、人生就像爬坡,要一步一步来。
——丁玲
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 红酒 鉴别 精品 文档 13