基于多元统计分析的葡萄酒质量评价分析.docx
- 文档编号:24438126
- 上传时间:2023-05-27
- 格式:DOCX
- 页数:17
- 大小:37.58KB
基于多元统计分析的葡萄酒质量评价分析.docx
《基于多元统计分析的葡萄酒质量评价分析.docx》由会员分享,可在线阅读,更多相关《基于多元统计分析的葡萄酒质量评价分析.docx(17页珍藏版)》请在冰豆网上搜索。
基于多元统计分析的葡萄酒质量评价分析
基于多元统计分析的葡萄质量评价分级
张加勇,冯婷婷,王祥玉,巩梦洁,张晓华
(信阳师范学院华锐学院数学与计算机科学系河南信阳464000)
摘要:
本文研究的是葡萄质量评价和分级问题。
首先对第一组品酒员和第二组品酒员对27个红葡萄酒样品的打分均值做均值检验和双正态总体方差检验,得出两组打分均值无显著性差异,而方差有显著性差异,且第二组方差较小,因而结果更可信。
对28个白葡萄酒样品做类似处理,得到同样结果,从而可知第二组品酒员的打分结果更可信。
然后对白葡萄样品的30个理化指标做主成分分析,提取出10个主成分,把它们和第二组品酒员的打分均值放在一起做R型聚类分析,提取出一些代表性指标,根据这些指标再对28个白葡萄样品做Q型聚类分析和主成分综合评价,综合上述结果,得出这些白葡萄分为四级比较合适。
对红葡萄样品做类似处理得出这些红葡萄分为五级比较合适。
关键词:
均值检验;方差检验;聚类分析;主成分综合评价
中图分类号:
O221.1文献标识码:
A文章编号:
1671—6132(2011)03—0013—05
Basedonmultivariatestatisticalanalysisofthegrapequalityevaluationclassification
ZHANGJia-yong,FENGTing-ting,WANGXiang-yu,
GONGMeng-jie,ZHANGXiao-hua
(Departmentofmathematicsandcomputerscience,huaruicollege,Xinyangnormaluniversityxinyang464000,china)
Abstract:
Thispaperstudiesthegrapequalityevaluationandclassificationproblem.First,thefirstgroupPinJiuYuanandthesecondgrouptoPinJiuYuan27redwinesamplesofscoringaveragedomeaninspectionanddoublenormalpopulationvariancetest,itisconcludedthatthemeanscoretwogroupshadnosignificantsexdifference,andvariancehavesignificantdifference,andthesecondformuladifferenceissmall,thustheresultmorereliable.28awhitewinesamplesforsimilartreatment,getthesameresults,soastoknowthesecondgroupofPinJiuYuanscoreresultsmorereliable.Thendialoguegrapesamples30physicalandchemicalindexfamilycompositionanalysis,theextracted10maincomposition,putthemandthesecondgroupofPinJiuYuanscoringaveragetogetherdoRtypeclusteringanalysis,theextractedsomerepresentativeindex,accordingtotheseindexagainto28whitegrapesampledoQtypeclusteranalysisandprincipalcomponentcomprehensiveevaluation,comprehensivetheaboveresults,itisconcludedthatthesewhitegrapeisdividedintofourmoreappropriate.Theredgrapesampledosimilarprocessingconcludedthattheseredgrapeisdividedintoacategoryfivemoreappropriate.
Keywords:
averageexamination;Varianceexamination;Clusteringanalysis;Principalcomponentcomprehensiveevaluation
收稿日期:
2012-09-28*.通讯联系人:
张加勇E-mail:
zh_jiayong2007@
作者简介:
张加勇(1980-),男,河南南阳人,讲师,研究生,主要从事小波分析和数学建模研究
0问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄
酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
本文根据附件1,2中提供的数据建立数学模型讨论下列问题:
(1).分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
(2).根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
1模型假设
(1)附件中给出的数据是准确可信的;
(2)品酒员对葡萄酒的打分均值服从相互独立的正态分布;
(3)二级指标忽略不计,只考虑一级指标对葡萄质量的的影响
2符号说明
m2:
第二组品酒员对红葡萄酒的打分均值
m4:
第二组品酒员对白葡萄酒的打分均值
xi:
白葡萄样品理化指标的10个主成分,i=1,2,…10
yi:
红葡萄样品理化指标的8个主成分,i=1,2,…8
3问题的分析和求解
3.1问题
(1)的分析和求解
问题
(1)要求分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信。
首先利用MATLAB编程分别求出第一组十个品酒员和第二组品酒员对27个红葡萄酒样品
打分的平均分m1,m2,假设样本m1,m2分别服从相互独立的正态分布
,
然后利用MATLAB中的ttest2和vartest2命令对它们做均值检验和方差检验。
程序如下:
hfjy.m
%本程序为对红葡萄酒样品的评分显著性检验
clc
%先求第一组品酒员对27个红葡萄酒样品打分的平均分m1
a=xlsread('hptj1');a(91,3)=2;b=[];c=[];
fork=1:
10:
261
b=sum(a(k:
k+9,:
));
c=[c;b];
end
c;
ind=[252771011201624191864132217123812523152692114];
fork=1:
27
d(ind(k),:
)=c(k,:
);
end
d1=d;m1=mean(d1');
%下面求第二组品酒员对27个红葡萄酒样品打分的平均分m2
a1=load('hptj2.txt');size(a1);b=[];c1=[];
fork=1:
10:
261
b=sum(a1(k:
k+9,:
));
c1=[c1;b];
end
c1;
ind1=[102337116171820121115272619146254529212422813];
fork=1:
27
d2(ind1(k),:
)=c1(k,:
);
end
d2;m2=mean(d2');
h=ttest2(m1,m2,0.05)%检验两组得分均值是否有显著性差异
[h1,p1]=vartest2(m1,m2,0.05,'right')%检验两组得分方差是否有显著性差异
程序运行结果为:
h=0,这说明两组得分均值无显著性差异,
h1=1,p1=0.0013075,这说明两组得分方差有显著性差异,且第二组得分方差较小,结果比较可信。
对28个白葡萄酒样品做类似处理,利用MATLAB编程bfjy.m(见附录程序1),可得结果为:
h=0,h2=1,p2=0.0062295
以上结果说明:
第一组品酒员和第二组品酒员对28个白葡萄酒样品打分的平均分也没有显著性差异,但是,方差有显著性差异,且第二组方差较小,结果比较可信。
综上所述知:
第二组品酒员的打分结果比较可信。
下面我们将用第二组品酒员的打分结果作为葡萄酒质量的度量值。
3.2问题
(2)的分析和求解
问题
(2)要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些葡萄酒样品进行分级。
这次我们先对白葡萄酒和白葡萄样品进行处理。
考虑到白葡萄样品的理化指标较多,一级指标有30个,另外还有一些二级指标,不便于处理,因此,我们首先对做了几次测试的一级指标值取其平均值作为指标值,并忽略其二级指标,然后利用SPSS软件对30个一级指标做主成分分析,提取其10个主成分x1,x2,…x10,然后再加上第二组品酒员对28个白葡萄酒样品打分的平均值m4,求出这些指标间的相关系数,结果如表1:
表1:
白葡萄理化指标主成分和葡萄酒质量的相关系数表
Table1:
whitegrapephysicochemicalindexprincipalcomponents
andqualityofwinerelatedcoefficienttable
可以看出某些指标之间存在较强的相关性,因此考虑从这些指标中选取一些具有代表性的指标进行聚类分析。
对上述11个指标做R型聚类分析,首先对每个变量的数据分别进行标准化处理,变量间相近性度量采用相关系数,类间相似性度量的计算选用类平均法。
聚类树形图如下:
图1:
指标聚类树形图
Figure1:
indexclusteringtree
从图1可以看出,x1,x2,x3,x4,x5,x8相关性较强,最先被归为一类,将11个指标分为6类,从中选定6个具有代表性的指标x3,x6,x7,x8,x10,m4对28个白葡萄样品进行Q型聚类分析,结果为:
划分成3类的结果如下:
第1类的有14212327
第2类的有12456789101112131516171819202224252628
第3类的有3
**********************************
划分成4类的结果如下:
第1类的有15
第2类的有124567891011121316171819202224252628
第3类的有14212327
第4类的有3
**********************************
划分成5类的结果如下:
第1类的有124567891112131617181920222526
第2类的有102428
第3类的有15
第4类的有14212327
第5类的有3
如图2所示:
图2:
白葡萄聚类分级图
Figure2:
whitegrapeclusterclassificationmap
下面再根据x3,x6,x7,x8,x10,m4对28个白葡萄样品进行主成分综合评价,所得结果如下表:
表2:
白葡萄主成分综合评价表
Table2:
whitegrapeprincipalcomponentcomprehensiveevaluationtable
结合上述Q型聚类分析和主成分综合评价结果,我们认为,白葡萄分为四级比较合适:
第一级:
3
第二级:
15282410
第三级:
124567891112131617181920222526
第四级:
14212327
其中,一级白葡萄质量最好,二,三级次之,四级白葡萄质量最差。
以上聚类分析和主成分综合评价可以通过MATLAB编程实现,见附录2程序:
bjlzcfpj.m
对于红葡萄,做类似处理:
(1)从原始数据中提取27个红葡萄样品的30个理化指标的可用数据(对某些做了几次测试的指标值取平均值);
(2)用SPSS软件对上述30个理化指标做主成分分析,提取其8个主成分y1,y2,…y8;
(3)对y1,y2,…y8和第二组品酒员对27个红葡萄酒样品打分均值m2做R型聚类分析,提取代表性指标y1,y2,y3,y6,y8,m2;
(4)根据指标y1,y2,y3,y6,y8,m2对27个红葡萄样品做Q型聚类分析和综合评价,所得结果为:
划分成3类的结果如下:
第1类的有1814
第2类的有24567910111213151617181920222324252627
第3类的有321
**********************************
划分成4类的结果如下:
第1类的有517202426
第2类的有24679101112131516181922232527
第3类的有1814
第4类的有321
**********************************
划分成5类的结果如下:
第1类的有2923
第2类的有4671011121315161819222527
第3类的有517202426
第4类的有1814
第5类的有321
如图3和表3所示
图3:
红葡萄聚类分级图
Figure3:
redgrapeclusterclassificationmap
表3:
红葡萄主成分综合评价表
Table3:
redgrapeprincipalcomponentcomprehensiveevaluationtable
可以看出,红葡萄分为五级比较合适:
第一级的有321
第二级的有2923
第三级的有1814
第四级的有4671011121315161819222527
第五级的有517202426
其中,一级红葡萄质量最好,二,三,四级次之,五级红葡萄质量最差。
以上聚类分析和主成分综合评价可以通过MATLAB程序hjlzcfpj.m实现(见附录3)
4、模型的评价和改进
4.1模型的优缺点评析:
4.1.1模型的优点
(1)模型结构清晰,层次分明,直观易懂,分析也比较切合实际.
(2)用合理的方式处理数据,使其尽量符合实际情况.
(3)在问题的求解中合理地运用了表格和图形,并应用了MATLAB、SPSS等数学软件编程绘图,使结果明了、准确.
(4)灵活运用聚类分析和主成分分析知识,对葡萄样品给出了令人信服的分级.
(5)本模型能与实际紧密联系,结合实际情况,对所有数据进行合理解释,使模型更贴切,通用性比较强.
4.1.2缺点
忽略葡萄理化指标的二级指标降低了结果准确性.
4.2模型的改进
对于模型可以把葡萄理化指标的二级指标和其中芳香物质含量考虑进来,从而建立一个更精确的模型,使得对葡萄的分级更加准确.
本文考虑的对葡萄的分级本质上是对葡萄酒的分级,葡萄酒的分级是一个对消费者和生产厂家都很有意义的问题,但现在还没有一个公认的通用可行的比较简单的方法,我们在这方面做了一些初步的尝试.
参考文献
[1]韩中庚.数学建模方法及其应用[M].2版.北京:
高等教育出版社,2009.
[2]《数学建模算法与应用》国防工业出版社司守奎孙玺菁编著2011
[3]宋志刚,等.SPSS16实用教程[M].北京:
人民邮电出版社,2008.
[4]《Excel在数学建模中的应用》科学出版社袁新生邵大宏编著2007
[5]Matlab中的概率统计简介
附录
附录1bfjy.m
%本程序为白葡萄酒的评分显著性检验
a=xlsread('bptj1')
clc
b1=[];
c1=[];
fork=1:
10:
271
b1=sum(a(k:
k+9,:
));
c1=[c1;b1];
end
c1;
ind=[26542320192811151412181321107131626228179252427];
fork=1:
28
d(ind(k),:
)=c1(k,:
);
end
d3=d;
m3=mean(d3');
a1=load('bptj2.txt');
size(a1);
b=[];
c1=[];
fork=1:
10:
271
b=sum(a1(k:
k+9,:
));
c1=[c1;b];
end
c1;
ind1=[26163121121920254102146271815113172822248195723];
fork=1:
28
d4(ind1(k),:
)=c1(k,:
);
end
m4=mean(d4');
h=ttest2(m3,m4,0.05)
[h2,p2]=vartest2(m3,m4,0.05,'right')
附录2bjlzcfpj.m
%本程序为28个白葡萄样品的聚类分析和主成分评价
b=load('bzcf.txt');%bzcf为从红葡萄酒理化指标提取的10个主成分
d4=qd4%求第二组对红葡萄酒打分
m4=mean(d4');
m4=m4';
b=[b,m4];
gj=b;
r=corrcoef(gj)
xlswrite('r3',r)
d=pdist(gj','correlation');%计算相关系数导出的距离
z=linkage(d,'average');%按类平均法聚类
h=dendrogram(z);%画聚类图
title('指标聚类树形图')
holdon
set(h,'Color','k','LineWidth',1.3)%把聚类图线的颜色改成黑色,线宽加粗
T=cluster(z,'maxclust',6)%把变量划分成6类
fori=1:
6
tm=find(T==i);%求第i类的对象
tm=reshape(tm,1,length(tm));%变成行向量
fprintf('第%d类的有%s\n',i,int2str(tm));%显示分类结果
end
gj(:
[1,2,4,5,9])=[];
gj=zscore(gj);%数据标准化%Q聚类分析
y=pdist(gj);%求对象间的欧氏距离,每行是一个对象
z=linkage(y,'average');%按类平均法聚类
dendrogram(z);%画聚类图
fork=3:
5
fprintf('划分成%d类的结果如下:
\n',k)
T=cluster(z,'maxclust',k);%把样本点划分成k类
fori=1:
k
tm=find(T==i);%求第i类的对象
tm=reshape(tm,1,length(tm));%变成行向量
fprintf('第%d类的有%s\n',i,int2str(tm));%显示分类结果
end
ifk==5
break
end
fprintf('**********************************\n');
end
title('白葡萄聚类分级图')
b(:
[1,2,4,5,9])=[];
hp=zscore(b);%数据标准化%主成分综合评价
r=corrcoef(hp)%计算相关系数矩阵
%下面利用相关系数矩阵进行主成分分析,x的列为r的特征向量,即主成分的系数
[x,y,z]=pcacov(r)%y为r的特征值,z为各个主成分的贡献率
f=repmat(sign(sum(x)),size(x,1),1);%构造与x同维数的元素为±1的矩阵
x=x.*f;%修改特征向量的正负号,每个特征向量乘以所有分量和的符号函数值
num=4;%num为选取的主成分的个数
df=hp*x(:
1:
num);%计算各个主成分的得分
tf=df*z(1:
num)/100;%计算综合得分
[stf,ind]=sort(tf,'descend');%把得分按照从高到低的次序排列
stf=reshape(stf,7,4);ind=reshape(ind,7,4);
stf=stf',ind=ind',
xlswrite('stfind.xls',[stf(1,:
);ind(1,:
);stf(2,:
);ind(2,:
);stf(3,:
);ind(3,:
);stf(4,:
);ind(4,:
)],'b1:
h8')
附录3:
hjlzcfpj.m
%本程序为2:
7个红葡萄样品的聚类分析和主成分评价
a=load('hzcf.txt');%bzcf为从红葡萄酒理化指标提取的8个主成分
d2=qd2;%求第二组对红葡萄酒打分
m2=mean(d2');
m2=m2';
a=[a,m2];
gj=a;
r=corrcoef(gj)
xlswrite('r1',r)
d=pdist(gj','correlation');%计算相关系数导出的距离
z=linkage(d,'average');%按类平均法聚类
h=dendrogram(z);%画聚类图
title('红葡萄指标聚类树')
holdon
set(h,'Color','k','LineWidth',1.3)%把聚类图线的颜色改成黑色,线宽加粗
T=cluster(z,'maxclust',6)%把变量划分成6类
fori=1:
6
tm=find(T==i);%求第i类的对象
tm=reshape(tm,1,length(tm));%变成行向量
fprintf('第%d类的有%s\n',i,int2str(tm));%显示分类结果
end
gj(:
[4,5,7])=[];
gj=zscore(gj);%数据标准化%Q聚类分析
y=pdist(gj);%求对象间的欧氏距离,每行是一个对象
z=linkage(y,'average');%按类平均法聚类
dendrogram(z);%画聚类图
fork=3:
5
fprintf('划分成%d类的结果如下:
\n',k)
T=cluster(z,'maxclust',k);%把样本点划分成k类
fori=1:
k
tm=find(T==i);%求第i类的对象
tm
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多元 统计分析 葡萄酒 质量 评价 分析
![提示](https://static.bdocx.com/images/bang_tan.gif)