数学建模之葡萄品种的分类.docx
- 文档编号:23144583
- 上传时间:2023-05-08
- 格式:DOCX
- 页数:32
- 大小:65.50KB
数学建模之葡萄品种的分类.docx
《数学建模之葡萄品种的分类.docx》由会员分享,可在线阅读,更多相关《数学建模之葡萄品种的分类.docx(32页珍藏版)》请在冰豆网上搜索。
数学建模之葡萄品种的分类
TTAstandardizationoffice【TTA5AB-TTAK08-TTA2C】
数学建模之葡萄品种的分类
葡萄品种的分类
摘要
随着社会各个领域的不断发展,统计分类已经逐步渗透到每个角落,本文中,我们将举出其中一例,通过题中一些已知种类葡萄(红葡萄或白葡萄)的理化指标和未知种类(红葡萄或白葡萄的)理化指标,采用合适的指标运用三种不同方法对葡萄品种进行分类。
首先使用模糊数学的方法,运用MATLAB对数据进行处理,并进行进一步的运算,由切比雪夫距离法对问题进行建模:
①原始数据处理变成模糊矩阵,②处理模糊矩阵成为相似矩阵,③找相似矩阵闭包,从而找到模糊等价矩阵,④选取合适的
值,进行分类最终求得结果。
方法二使用聚类分析法,利用spass软件中的系统聚类分析对已知数据进行处理,并得到树状图,观察树状图选取合适的分类指标,把红葡萄和白葡萄样品分别分为五类。
方法三通过综合分析方法从各方面、多角度出发,对问题展开全方位的分析,由隶属函数得出综合得分进行分类。
问题一属于归类问题,由于红葡萄和白葡萄属于不同种类,所以本文运用模糊数学、聚类分析以及综合评价三种方法把他们分别划分为不同品种,并一一进行分析解释。
问题二,在问题一的基础上,我们已经把红葡萄及白葡萄进行品种划分,接下来将待分类葡萄先进行种类划分,再将其分别放入各自的种类中按照原来的分类方法划分品种即可。
关键词:
模糊数学聚类分析法切比雪夫距离法综合评价隶属函数
一、问题重述
在酿造葡萄酒时,选用不同品种的葡萄及不不同的酿造工艺,会得到不同种类的葡萄酒,附件中给出了一些已知种类葡萄(红葡萄或白葡萄)的理化指标和未知种类(红葡萄或白葡萄的)理化指标,且这些葡萄来自于不同的葡萄品种,同一种类不同品种的葡萄在理化指标上会稍有不同。
请选取合适的指标,用多种方法完成以下任务:
1、将已知种类的红葡萄和白葡萄样本分成若干不同的品种(不需要指明品种);
2、区分出待检测葡萄的种类及品种,并对结果进行解释。
二、题设分析
问题分析
问题一的分析
本题中红葡萄及白葡萄的指标有54种,考虑到指标数量较多,不能简单粗略地识别出品种的分类,我们对数据进行了一定的处理,多次测量的指标数据,我们用它的平均值进行代替。
因为归属于分类题型,有多种方法可以进行求解,本文中采用其中的模糊数学、系统聚类以及综合评价法这三种方法分别做出问题一的解答。
问题二的分析
问题二要求我们区分出待检测葡萄的种类及品种,并对结果进行解释。
已知数据中共有六个待测样品,从已知样品中我们可以观察到,红葡萄和白葡萄花色苷含量存在显着差异,从而我们很容易把待测样品分为红葡萄和白葡萄,结合问题一的结果,进而对待测样品进行归类。
三、模型假设
假设一:
已知样本葡萄中没有出现变异情况;
四、符号说明
方法三的符号说明:
五、模型的建立及求解
.方法一
模糊数学
一的求解
1.模型的建立
题目中给出了红葡萄,白葡萄两种,我们先对红葡萄进行数据处理与分类,白葡萄处理方法类似。
根据模糊数学的分类方法,我们分为四步进行:
①原始数据处理变成模糊矩阵,②处理模糊矩阵成为相似矩阵,③找相似矩阵闭包,从而找到模糊等价矩阵,④选取合适的
值,进行分类。
2.建立模糊矩阵
先对原始数据进行处理形成迷糊矩阵,我们先采用标准差标化,为了使所有的
,在进行极差变化,具体操作如下:
(1)
(2)
(3)
根据
(1)
(2)(3)我们求出了模糊矩阵,数据见附录一。
3.建立模糊相似矩阵
确定相似系数的方法有多种,常用的有切比雪夫距离法,数量积法、夹角余弦法、相关系数法、最大最小值法、距离法、专家评分法等,根据实际需要我们选用了比较常见的切比雪夫距离法,方法如下:
(4)
其中Q为使所有
的确定常数.则
。
根据(4)我们可以列出模糊相似矩阵,我们利用matlab算法很快求出其相似矩阵,定义为
数据和程序见附录一。
4.建立模糊等价矩阵--找闭包
从是上一步求出的22阶模糊相似矩阵
出发,用平方法求其传递闭包
它就是将
改造成的22阶模糊等价矩阵,再让
由大变小,就可形成动态聚类图.我们通过
编程求得它的闭包为
。
通过给定不同的
值,得到了不同的分类。
当截取值取时分成了5类我们将此时的截取矩阵放在附录中,其具体分类如下:
红葡萄分类表
第一类
样品1、样品3
第二类
样品2、样品5、样品10、样品15、样品16、
样品17、样品18
第三类
样品7、样品8、样品12、样品20、样品21、样品22
第四类
样品11、样品13、样品14
第五类
样品6、样品9、样品19
5:
白葡萄分类
因为白葡萄于此方法相似,我们省略上面的分析。
我们截取值取时,分成了类,具体分类如下:
白葡萄分类表
第一类
样品1、样品7、样品9、样品13、样品14
第二类
样品2、样品3、样品4、样品5、样品6、样品8、样品10、样品11、样品12、样品15、样品16、样品17、样品18、样品19、样品20、样品21、样品22、样品23、样品24、样品25
自此模糊分类已经完成,我们接下来采取聚类分析,进行分类,从而易于分析两者的联系与差别。
方法二
系统聚类法
问题一的求解
1.模型准备
系统聚类法的基本原理:
首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。
重复这一过程,直到将所有的样本(或指标)合并为一类。
系统聚类分为Q型聚类和R型聚类两种:
Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。
在本文中进行的是Q型聚类。
类与类之间距离的计算方法主要有以下几种:
最短距离法(NearestNeighbor),是指两类之间每个个体距离的最小值;
最长距离法(FarthestNeighbor),是指两类之间每个个体距离的最大值;
组间联接法(Between-groupsLinkage),是指两类之间个体之间距离的平均值;
组内联接(Within-groupsLinkage),是指把两类所有个体之间的距离都考虑在内;
重心距离法(Centroidclustering),是指两个类中心点之间的距离;
离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。
2.模型的求解
(1)红葡萄的分类
我们利用spass软件中的聚类分析的方法来求解此问题,具体步骤如下:
打开spass软件,在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“系统聚类(H)”;
在弹出的“系统聚类分析”对话框中,将“样品”变量选入“标注个案(C)”中,将其他变量选入“变量框”中。
在“分群”单选框中选中“个案”,表示进行的是Q型聚类。
在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。
单击“统计量(S)”按钮,在“系统聚类分析:
统计量”对话框中选择“合并进程表”、“相似性矩阵”。
单击“绘制(T)”按钮,在“系统聚类分析:
图”对话框中选择“树状图”、“冰柱”,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。
单击“方法(M)”按钮,弹出“系统聚类分析:
方法”对话框,我们选择“聚类方法(M)”选项条中的“组间联接”和“度量标准-区间(N)”选项条中的“平方Euclidean距离”以及“转换值-标准化(S)”选项条中的“全局从0到1”。
通过以上步骤,我们从spass输出中得到了红葡萄聚类表,垂直冰柱图见附录二中的图表1、图表2,树状图见下文中的图表3以及近似矩阵图。
下面我们对所得结果进行分析:
近似矩阵图表分析:
近似矩阵图表显示的是用平方Euclidean距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。
聚类表分析:
图表1显示的是聚类表,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数”,第2列和第3列表示的是聚合的类。
垂直冰柱图分析:
图表2冰柱图,是反映样本聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。
红葡萄树状图分析:
图表3红葡萄树状图
图表3用“组间联接”聚类法生成的树状聚类图。
如果将所有样本分为五类的话,可以得到如下分类:
红葡萄分类表
第一类
样品11、样品14、样品5
第二类
样品3、样品19、样品15、样品20、样品21、
样品4、样品22、样品9、样品12、样品16
第三类
样品6、样品17、样品10
第四类
样品7、样品13
第五类
样品2、样品8、样品18、样品1
(2)白葡萄的分类
由于红葡萄分类及白葡萄分类都是采用spass软件进行聚类分析,具体操作步骤在红葡萄分类中已经罗列,此处不再赘述,我们同样从spass输出中得到了白葡萄的近似矩阵,聚类表,垂直冰柱图见附录一中的图表4、表5,树状图见下文中的图表6及近似矩阵图。
白葡萄树状图分析:
图表6葡萄树状图
图表6用“组间联接”聚类法生成的树状聚类图。
如果将所有样本分为五类的话,可以得到如下分类:
白葡萄分类表
第一类
样品7、样品15、样品12、样品1、样品9
第二类
样品5、样品14、样品11
第三类
样品4、样品16、样品6、样品10、样品8、样品19、样品22、
样品21、样品2、样品3、样品18、样品13、样品17、样品24
第四类
样品20
第五类
样品23
问题二的求解
由常识可得红葡萄和白葡萄的颜色有很大区别,我们观察数据发现红葡萄和白葡萄花色苷的含量有很大差别,大多数红葡萄的花色苷的含量为7-410花色苷mg/100g鲜重,而白葡萄的花色苷含量为0-5花色苷mg/100g,所以我们按照种类依据以上结论可以近似把待测样品分为白葡萄和红葡萄。
如下表:
红葡萄
待测样品1、待测样品2、待测样品3
白葡萄
待测样品4、待测样品5、待测样品6
我们把待测样品1、2、3分别命名为a样品23、24、25放入原红葡萄的数据中,用spass中的系统聚类分析再次进行分类,得到以下树状图:
图表7
由树状图图表7可得,a样品23、24、25即待测样品1、2、3为红葡萄的第二类。
我们把待测样品4、5、6分别命名为b样品25、26、27放入原白葡萄的数据中,用spass中的系统聚类分析再次进行分类,得到以下树状图:
图表8
由树状图图表8可得,b样品25即待测样品4为白葡萄的第二类,b样品26、27即待测样品5、6为白葡萄的第三类。
方法三
综合评价法
问题一的求解
1.数据预处理:
问题给了54个指标,我们首先将一级指标和二级指标进行分开处理,为了体现两者的区别,给其不同的权数。
我们这样定义:
一级指标权数为,二级指标权数为。
接下来观察数据可知,各样品每种指标值相对集中,但不同指标相差却很悬殊,于是我们进行极值归一化处理,接下来给出统一的隶属规则:
其中(
),于是得到了红葡萄的22个样品54中指标的归一化值。
数据见附录。
归一处理后的数据就能进行综合处理,求出其综合得分,公式如下:
由于红白葡萄处理方式相同,直接将其两者综合得分给出如下:
样品种类
红葡萄综合得分
白葡萄综合得分
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
如果我们将红葡萄白葡萄均分成四种,只需将各综合得分进行排序,求出各样品区间,然后进行适当的分组。
我们将上述表格进行分类,对于红葡萄,我们分为
,则分为如下四类:
红葡萄分类表
第一类
样品19、样品14、样品3、样品21、样品20、样品9
第二类
样品22、样品12、样品6、样品11、样品5、样品10、
样品15、样品16
第三类
样品17、样品4、样品13、样品2、样品1、样品18
第四类
样品8、样品7
同理对白葡萄分类,我们分为
分为如下四类:
白葡萄分类表
第一类
样品9、样品15、样品7、样品12、样品10、样品13、样品2、样品1
第二类
样品14、样品17、样品8、样品3、样品22、样品18、
样品19、样品6、样品11
第三类
样品5、样品21、样品4、样品16、样品24
第四类
样品20、样品23
自此我们将红白葡萄均分成了四类。
六、模型评价
模型优点
本文运用了三种模型方法进行求解。
第一种方法模糊数学是建立在模糊集合基础上的一种预测和评价方法。
它的优点在于评价方式与人们的正常思维模式很接近,用程度语言描述对象。
第二种方法系统聚类法,利用spass软件解决问题,简单易操作,每个变量之间的关系一目了然。
第三种方法综合评价法,考虑全面,具体分析问题使结果更加简单易懂,清晰明了。
模型的推广
此模型是对葡萄进行分类,我们可以利用这个模型迁移到物品分类领域上来,我们只需要将一些系数修正即可,再加上各个领域的特殊情况,那么此模型一定也能较好的发挥其作用。
七、参考文件
[1]庞庆华,《现代综合评价方法与案例精选》[M],清华大学出版社。
[2]韩中庚,《数学建模方法及其应用》[M],北京市:
高等教育出版社,2009年。
附录
附录一
问题一:
方法一:
程序:
%%%%%%:
红葡萄分类程序
U1=Untitled1;
fori=1:
size(u1)
forj=1:
54
v(i,j)=(u(i,j)-mean(u(:
j)))/std(u(:
j));
end
end
m=zeros(size(u1),54);
fori=1:
size(u1)
forj=1:
54
m(i,j)=(v(i,j)-min(v(:
j)))/(max(v(:
j))-min(v(:
j)))
end
end
%%%%%%%:
数据预处理,建立模糊矩阵
d=zeros(size(u1));
fori=1:
size(d,1)
forj=1:
size(d,2)
fork=1:
size(m,2)
d(i,j)=max(abs(m(i,k)-m(j,k)));
end
r(i,j)=1-d(i,j);
end
end
%%%%%%%:
建立相似矩阵
flag=0;
p=0;
whileflag==0
fori=1:
size(u1)
forj=1:
size(u1)
fork=1:
size(u1)
B(i,j)=max(min(r(i,k),r(k,j)));%r与r取内积,先取小后取大
end
end
end
ifall(B(i,j)<=r(i,j))
flag=1;
else
r=B;
p=p+1
end
end
bb=r;
%%%%%%%%:
建立模糊等价矩阵,并求闭包B
fori=1:
size(u1)
forj=1:
size(u1)
if(bb(i,j)>
r(i,j)=1;
else
r(i,j)=0;
end
end
end
%%%%%%%:
求截集矩阵
c=zeros(size(u1))
forj=1:
size(u1)
fork=1:
size(u1)
ifr(j,:
)==r(k,:
);
c(j,k)=k
else
c(j,k)=0
end
end
End
%%%%%%%:
分种类
%%%%%%%:
白葡萄分类
%%%%%%%:
白葡萄利用了u2=Untitled2,故将上述u1均改为u2即可
红葡萄
氨基酸总量
蛋白质
VC含量
花色苷鲜重
酒石酸(g/L)
葡萄样品1
葡萄样品2
葡萄样品3
葡萄样品4
葡萄样品5
葡萄样品6
葡萄样品7
葡萄样品8
葡萄样品9
葡萄样品10
葡萄样品11
葡萄样品12
葡萄样品13
葡萄样品14
葡萄样品15
葡萄样品16
葡萄样品17
葡萄样品18
葡萄样品19
葡萄样品20
葡萄样品21
葡萄样品22
红葡萄
苹果酸(g/L)
柠檬酸(g/L)
多酚氧化酶活力
褐变度
DPPH自由基1/IC50
葡萄样品1
葡萄样品2
葡萄样品3
葡萄样品4
葡萄样品5
葡萄样品6
葡萄样品7
葡萄样品8
葡萄样品9
葡萄样品10
葡萄样品11
葡萄样品12
葡萄样品13
葡萄样品14
葡萄样品15
葡萄样品16
葡萄样品17
葡萄样品18
葡萄样品19
葡萄样品20
葡萄样品21
葡萄样品22
红葡萄
总酚
单宁
葡萄总黄酮
白藜芦醇(mg/kg)
黄酮醇(mg/kg)
葡萄样品1
葡萄样品2
葡萄样品3
葡萄样品4
葡萄样品5
葡萄样品6
葡萄样品7
葡萄样品8
葡萄样品9
葡萄样品10
葡萄样品11
葡萄样品12
葡萄样品13
葡萄样品14
葡萄样品15
葡萄样品16
葡萄样品17
葡萄样品18
葡萄样品19
葡萄样品20
葡萄样品21
葡萄样品22
红葡萄
总糖g/L
还原糖g/L
可溶性固形物g/l
PH值
可滴定酸(g/l)
葡萄样品1
葡萄样品2
葡萄样品3
葡萄样品4
葡萄样品5
葡萄样品6
葡萄样品7
葡萄样品8
葡萄样品9
葡萄样品10
葡萄样品11
葡萄样品12
葡萄样品13
葡萄样品14
葡萄样品15
葡萄样品16
葡萄样品17
葡萄样品18
葡萄样品19
葡萄样品20
葡萄样品21
葡萄样品22
红葡萄
固酸比
干物质含量g/100g
果穗质量/g
百粒质量/g
果梗比(%)
葡萄样品1
葡萄样品2
葡萄样品3
葡萄样品4
葡萄样品5
葡萄样品6
葡萄样品7
葡萄样品8
葡萄样品9
葡萄样品10
葡萄样品11
葡萄样品12
葡萄样品13
葡萄样品14
葡萄样品15
葡萄样品16
葡萄样品17
葡萄样品18
葡萄样品19
葡萄样品20
葡萄样品21
葡萄样品22
红葡萄
出汁率(%)
果皮质量(g)
天门冬氨酸
苏氨酸
丝氨酸
葡萄样品1
葡萄样品2
葡萄样品3
葡萄样品4
葡萄样品5
葡萄样品6
葡萄样品7
葡萄样品8
葡萄样品9
葡萄样品10
葡萄样品11
葡萄样品12
葡萄样品13
葡萄样品14
葡萄样品15
葡萄样品16
葡萄样品17
葡萄样品18
葡萄样品19
葡萄样品20
葡萄样品21
葡萄样品22
红葡萄
谷氨酸
脯氨酸
甘氨酸
丙氨酸
胱氨酸
葡萄样品1
葡萄样品2
葡萄样品3
葡萄样品4
葡萄样品5
葡萄样品6
葡萄样品7
葡萄样品8
葡萄样品9
葡萄样品10
葡萄样品11
葡萄样品12
葡萄样品13
葡萄样品14
葡萄样品15
葡萄样品16
葡萄样品17
葡萄样品18
葡萄样品19
葡萄
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 葡萄 品种 分类