书签分享收藏举报版权申诉 / 17

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 能源化工 > 基于多元统计分析的葡萄酒质量评价分析.docx

基于多元统计分析的葡萄酒质量评价分析.docx

文档编号：24438126
上传时间：2023-05-27
格式：DOCX
页数：17
大小：37.58KB

《基于多元统计分析的葡萄酒质量评价分析.docx》由会员分享，可在线阅读，更多相关《基于多元统计分析的葡萄酒质量评价分析.docx（17页珍藏版）》请在冰豆网上搜索。

基于多元统计分析的葡萄酒质量评价分析.docx

基于多元统计分析的葡萄酒质量评价分析

基于多元统计分析的葡萄质量评价分级

张加勇，冯婷婷，王祥玉，巩梦洁，张晓华

（信阳师范学院华锐学院数学与计算机科学系河南信阳464000）

摘要：

本文研究的是葡萄质量评价和分级问题。

首先对第一组品酒员和第二组品酒员对27个红葡萄酒样品的打分均值做均值检验和双正态总体方差检验，得出两组打分均值无显著性差异，而方差有显著性差异，且第二组方差较小，因而结果更可信。

对28个白葡萄酒样品做类似处理，得到同样结果，从而可知第二组品酒员的打分结果更可信。

然后对白葡萄样品的30个理化指标做主成分分析，提取出10个主成分，把它们和第二组品酒员的打分均值放在一起做R型聚类分析，提取出一些代表性指标，根据这些指标再对28个白葡萄样品做Q型聚类分析和主成分综合评价，综合上述结果，得出这些白葡萄分为四级比较合适。

对红葡萄样品做类似处理得出这些红葡萄分为五级比较合适。

关键词：

均值检验；方差检验；聚类分析；主成分综合评价

中图分类号：

O221．1文献标识码：

A文章编号：

1671—6132（2011）03—0013—05

Basedonmultivariatestatisticalanalysisofthegrapequalityevaluationclassification

ZHANGJia-yong,FENGTing-ting,WANGXiang-yu,

GONGMeng-jie,ZHANGXiao-hua

（Departmentofmathematicsandcomputerscience,huaruicollege,Xinyangnormaluniversityxinyang464000，china）

Abstract:

Thispaperstudiesthegrapequalityevaluationandclassificationproblem.First,thefirstgroupPinJiuYuanandthesecondgrouptoPinJiuYuan27redwinesamplesofscoringaveragedomeaninspectionanddoublenormalpopulationvariancetest,itisconcludedthatthemeanscoretwogroupshadnosignificantsexdifference,andvariancehavesignificantdifference,andthesecondformuladifferenceissmall,thustheresultmorereliable.28awhitewinesamplesforsimilartreatment,getthesameresults,soastoknowthesecondgroupofPinJiuYuanscoreresultsmorereliable.Thendialoguegrapesamples30physicalandchemicalindexfamilycompositionanalysis,theextracted10maincomposition,putthemandthesecondgroupofPinJiuYuanscoringaveragetogetherdoRtypeclusteringanalysis,theextractedsomerepresentativeindex,accordingtotheseindexagainto28whitegrapesampledoQtypeclusteranalysisandprincipalcomponentcomprehensiveevaluation,comprehensivetheaboveresults,itisconcludedthatthesewhitegrapeisdividedintofourmoreappropriate.Theredgrapesampledosimilarprocessingconcludedthattheseredgrapeisdividedintoacategoryfivemoreappropriate.

Keywords:

averageexamination;Varianceexamination;Clusteringanalysis;Principalcomponentcomprehensiveevaluation

收稿日期：

2012-09-28*.通讯联系人：

张加勇E-mail:

zh_jiayong2007@

作者简介：

张加勇（1980-），男，河南南阳人，讲师，研究生，主要从事小波分析和数学建模研究

0问题重述

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。

每个评酒员在对葡萄

酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

本文根据附件1，2中提供的数据建立数学模型讨论下列问题：

（1）.分析附件1中两组评酒员的评价结果有无显著性差异，哪一组结果更可信？

（2）.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

1模型假设

（1）附件中给出的数据是准确可信的；

（2）品酒员对葡萄酒的打分均值服从相互独立的正态分布；

（3）二级指标忽略不计，只考虑一级指标对葡萄质量的的影响

2符号说明

m2：

第二组品酒员对红葡萄酒的打分均值

m4:

第二组品酒员对白葡萄酒的打分均值

xi:

白葡萄样品理化指标的10个主成分，i=1,2,…10

yi:

红葡萄样品理化指标的8个主成分，i=1,2,…8

3问题的分析和求解

3.1问题

（1）的分析和求解

问题

（1）要求分析附件1中两组评酒员的评价结果有无显著性差异，哪一组结果更可信。

首先利用MATLAB编程分别求出第一组十个品酒员和第二组品酒员对27个红葡萄酒样品

打分的平均分m1,m2，假设样本m1,m2分别服从相互独立的正态分布

，

然后利用MATLAB中的ttest2和vartest2命令对它们做均值检验和方差检验。

程序如下：

hfjy.m

%本程序为对红葡萄酒样品的评分显著性检验

clc

%先求第一组品酒员对27个红葡萄酒样品打分的平均分m1

a=xlsread（'hptj1'）;a（91,3）=2;b=[];c=[];

fork=1:

10:

261

b=sum（a（k:

k+9,:

））;

c=[c;b];

end

c;

ind=[252771011201624191864132217123812523152692114];

fork=1:

27

d（ind（k）,:

）=c（k,:

）;

end

d1=d;m1=mean（d1'）;

%下面求第二组品酒员对27个红葡萄酒样品打分的平均分m2

a1=load（'hptj2.txt'）;size（a1）;b=[];c1=[];

fork=1:

10:

261

b=sum（a1（k:

k+9,:

））;

c1=[c1;b];

end

c1;

ind1=[102337116171820121115272619146254529212422813];

fork=1:

27

d2（ind1（k）,:

）=c1（k,:

）;

end

d2;m2=mean（d2'）;

h=ttest2（m1,m2,0.05）%检验两组得分均值是否有显著性差异

[h1,p1]=vartest2（m1,m2,0.05,'right'）%检验两组得分方差是否有显著性差异

程序运行结果为：

h=0，这说明两组得分均值无显著性差异，

h1=1，p1=0.0013075，这说明两组得分方差有显著性差异，且第二组得分方差较小，结果比较可信。

对28个白葡萄酒样品做类似处理，利用MATLAB编程bfjy.m（见附录程序1）,可得结果为：

h=0，h2=1，p2=0.0062295

以上结果说明：

第一组品酒员和第二组品酒员对28个白葡萄酒样品打分的平均分也没有显著性差异，但是，方差有显著性差异，且第二组方差较小，结果比较可信。

综上所述知：

第二组品酒员的打分结果比较可信。

下面我们将用第二组品酒员的打分结果作为葡萄酒质量的度量值。

3.2问题

（2）的分析和求解

问题

（2）要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些葡萄酒样品进行分级。

这次我们先对白葡萄酒和白葡萄样品进行处理。

考虑到白葡萄样品的理化指标较多，一级指标有30个，另外还有一些二级指标，不便于处理，因此，我们首先对做了几次测试的一级指标值取其平均值作为指标值，并忽略其二级指标，然后利用SPSS软件对30个一级指标做主成分分析，提取其10个主成分x1,x2,…x10，然后再加上第二组品酒员对28个白葡萄酒样品打分的平均值m4,求出这些指标间的相关系数，结果如表1：

表1：

白葡萄理化指标主成分和葡萄酒质量的相关系数表

Table1:

whitegrapephysicochemicalindexprincipalcomponents

andqualityofwinerelatedcoefficienttable

可以看出某些指标之间存在较强的相关性，因此考虑从这些指标中选取一些具有代表性的指标进行聚类分析。

对上述11个指标做R型聚类分析，首先对每个变量的数据分别进行标准化处理，变量间相近性度量采用相关系数，类间相似性度量的计算选用类平均法。

聚类树形图如下：

图1：

指标聚类树形图

Figure1:

indexclusteringtree

从图1可以看出，x1,x2,x3,x4,x5,x8相关性较强，最先被归为一类，将11个指标分为6类，从中选定6个具有代表性的指标x3,x6,x7,x8,x10,m4对28个白葡萄样品进行Q型聚类分析，结果为：

划分成3类的结果如下：

第1类的有14212327

第2类的有12456789101112131516171819202224252628

第3类的有3

**********************************

划分成4类的结果如下：

第1类的有15

第2类的有124567891011121316171819202224252628

第3类的有14212327

第4类的有3

**********************************

划分成5类的结果如下：

第1类的有124567891112131617181920222526

第2类的有102428

第3类的有15

第4类的有14212327

第5类的有3

如图2所示：

图2：

白葡萄聚类分级图

Figure2:

whitegrapeclusterclassificationmap

下面再根据x3,x6,x7,x8,x10,m4对28个白葡萄样品进行主成分综合评价，所得结果如下表：

表2：

白葡萄主成分综合评价表

Table2:

whitegrapeprincipalcomponentcomprehensiveevaluationtable

结合上述Q型聚类分析和主成分综合评价结果，我们认为，白葡萄分为四级比较合适：

第一级：

3

第二级：

15282410

第三级：

124567891112131617181920222526

第四级：

14212327

其中，一级白葡萄质量最好，二，三级次之，四级白葡萄质量最差。

以上聚类分析和主成分综合评价可以通过MATLAB编程实现，见附录2程序：

bjlzcfpj.m

对于红葡萄，做类似处理：

（1）从原始数据中提取27个红葡萄样品的30个理化指标的可用数据（对某些做了几次测试的指标值取平均值）；

（2）用SPSS软件对上述30个理化指标做主成分分析，提取其8个主成分y1,y2,…y8;

（3）对y1,y2,…y8和第二组品酒员对27个红葡萄酒样品打分均值m2做R型聚类分析，提取代表性指标y1,y2,y3,y6,y8，m2;

（4）根据指标y1,y2,y3,y6,y8，m2对27个红葡萄样品做Q型聚类分析和综合评价，所得结果为：

划分成3类的结果如下：

第1类的有1814

第2类的有24567910111213151617181920222324252627

第3类的有321

**********************************

划分成4类的结果如下：

第1类的有517202426

第2类的有24679101112131516181922232527

第3类的有1814

第4类的有321

**********************************

划分成5类的结果如下：

第1类的有2923

第2类的有4671011121315161819222527

第3类的有517202426

第4类的有1814

第5类的有321

如图3和表3所示

图3：

红葡萄聚类分级图

Figure3:

redgrapeclusterclassificationmap

表3：

红葡萄主成分综合评价表

Table3:

redgrapeprincipalcomponentcomprehensiveevaluationtable

可以看出，红葡萄分为五级比较合适：

第一级的有321

第二级的有2923

第三级的有1814

第四级的有4671011121315161819222527

第五级的有517202426

其中，一级红葡萄质量最好，二，三，四级次之，五级红葡萄质量最差。

以上聚类分析和主成分综合评价可以通过MATLAB程序hjlzcfpj.m实现（见附录3）

4、模型的评价和改进

4.1模型的优缺点评析：

4.1.1模型的优点

（1）模型结构清晰，层次分明，直观易懂，分析也比较切合实际．

（2）用合理的方式处理数据，使其尽量符合实际情况．

（3）在问题的求解中合理地运用了表格和图形，并应用了MATLAB、SPSS等数学软件编程绘图，使结果明了、准确．

（4）灵活运用聚类分析和主成分分析知识，对葡萄样品给出了令人信服的分级．

（5）本模型能与实际紧密联系，结合实际情况，对所有数据进行合理解释，使模型更贴切，通用性比较强．

4．1．2缺点

忽略葡萄理化指标的二级指标降低了结果准确性．

4．2模型的改进

对于模型可以把葡萄理化指标的二级指标和其中芳香物质含量考虑进来，从而建立一个更精确的模型，使得对葡萄的分级更加准确．

本文考虑的对葡萄的分级本质上是对葡萄酒的分级，葡萄酒的分级是一个对消费者和生产厂家都很有意义的问题，但现在还没有一个公认的通用可行的比较简单的方法，我们在这方面做了一些初步的尝试．

参考文献

[1]韩中庚．数学建模方法及其应用[M]．2版．北京：

高等教育出版社，2009．

[2]《数学建模算法与应用》国防工业出版社司守奎孙玺菁编著2011

[3]宋志刚，等．SPSS16实用教程[M]．北京：

人民邮电出版社，2008．

[4]《Excel在数学建模中的应用》科学出版社袁新生邵大宏编著2007

[5]Matlab中的概率统计简介

附录

附录1bfjy.m

%本程序为白葡萄酒的评分显著性检验

a=xlsread（'bptj1'）

clc

b1=[];

c1=[];

fork=1:

10:

271

b1=sum（a（k:

k+9,:

））;

c1=[c1;b1];

end

c1;

ind=[26542320192811151412181321107131626228179252427];

fork=1:

28

d（ind（k）,:

）=c1（k,:

）;

end

d3=d;

m3=mean（d3'）;

a1=load（'bptj2.txt'）;

size（a1）;

b=[];

c1=[];

fork=1:

10:

271

b=sum（a1（k:

k+9,:

））;

c1=[c1;b];

end

c1;

ind1=[26163121121920254102146271815113172822248195723];

fork=1:

28

d4（ind1（k）,:

）=c1（k,:

）;

end

m4=mean（d4'）;

h=ttest2（m3,m4,0.05）

[h2,p2]=vartest2（m3,m4,0.05,'right'）

附录2bjlzcfpj.m

%本程序为28个白葡萄样品的聚类分析和主成分评价

b=load（'bzcf.txt'）;%bzcf为从红葡萄酒理化指标提取的10个主成分

d4=qd4%求第二组对红葡萄酒打分

m4=mean（d4'）;

m4=m4';

b=[b,m4];

gj=b;

r=corrcoef（gj）

xlswrite（'r3',r）

d=pdist（gj','correlation'）;%计算相关系数导出的距离

z=linkage（d,'average'）;%按类平均法聚类

h=dendrogram（z）;%画聚类图

title（'指标聚类树形图'）

holdon

set（h,'Color','k','LineWidth',1.3）%把聚类图线的颜色改成黑色，线宽加粗

T=cluster（z,'maxclust',6）%把变量划分成6类

fori=1:

6

tm=find（T==i）;%求第i类的对象

tm=reshape（tm,1,length（tm））;%变成行向量

fprintf（'第%d类的有%s\n',i,int2str（tm））;%显示分类结果

end

gj（:

[1,2,4,5,9]）=[];

gj=zscore（gj）;%数据标准化%Q聚类分析

y=pdist（gj）;%求对象间的欧氏距离,每行是一个对象

z=linkage（y,'average'）;%按类平均法聚类

dendrogram（z）;%画聚类图

fork=3:

5

fprintf（'划分成%d类的结果如下：

\n',k）

T=cluster（z,'maxclust',k）;%把样本点划分成k类

fori=1:

k

tm=find（T==i）;%求第i类的对象

tm=reshape（tm,1,length（tm））;%变成行向量

fprintf（'第%d类的有%s\n',i,int2str（tm））;%显示分类结果

end

ifk==5

break

end

fprintf（'**********************************\n'）;

end

title（'白葡萄聚类分级图'）

b（:

[1,2,4,5,9]）=[];

hp=zscore（b）;%数据标准化%主成分综合评价

r=corrcoef（hp）%计算相关系数矩阵

%下面利用相关系数矩阵进行主成分分析，x的列为r的特征向量，即主成分的系数

[x,y,z]=pcacov（r）%y为r的特征值，z为各个主成分的贡献率

f=repmat（sign（sum（x））,size（x,1）,1）;%构造与x同维数的元素为±1的矩阵

x=x.*f;%修改特征向量的正负号，每个特征向量乘以所有分量和的符号函数值

num=4;%num为选取的主成分的个数

df=hp*x（:

1:

num）;%计算各个主成分的得分

tf=df*z（1:

num）/100;%计算综合得分

[stf,ind]=sort（tf,'descend'）;%把得分按照从高到低的次序排列

stf=reshape（stf,7,4）;ind=reshape（ind,7,4）;

stf=stf',ind=ind',

xlswrite（'stfind.xls',[stf（1,:

）;ind（1,:

）;stf（2,:

）;ind（2,:

）;stf（3,:

）;ind（3,:

）;stf（4,:

）;ind（4,:

）],'b1:

h8'）

附录3：

hjlzcfpj.m

%本程序为2:

7个红葡萄样品的聚类分析和主成分评价

a=load（'hzcf.txt'）;%bzcf为从红葡萄酒理化指标提取的8个主成分

d2=qd2;%求第二组对红葡萄酒打分

m2=mean（d2'）;

m2=m2';

a=[a,m2];

gj=a;

r=corrcoef（gj）

xlswrite（'r1',r）

d=pdist（gj','correlation'）;%计算相关系数导出的距离

z=linkage（d,'average'）;%按类平均法聚类

h=dendrogram（z）;%画聚类图

title（'红葡萄指标聚类树'）

holdon

set（h,'Color','k','LineWidth',1.3）%把聚类图线的颜色改成黑色，线宽加粗

T=cluster（z,'maxclust',6）%把变量划分成6类

fori=1:

6

tm=find（T==i）;%求第i类的对象

tm=reshape（tm,1,length（tm））;%变成行向量

fprintf（'第%d类的有%s\n',i,int2str（tm））;%显示分类结果

end

gj（:

[4,5,7]）=[];

gj=zscore（gj）;%数据标准化%Q聚类分析

y=pdist（gj）;%求对象间的欧氏距离,每行是一个对象

z=linkage（y,'average'）;%按类平均法聚类

dendrogram（z）;%画聚类图

fork=3:

5

fprintf（'划分成%d类的结果如下：

\n',k）

T=cluster（z,'maxclust',k）;%把样本点划分成k类

fori=1:

k

tm=find（T==i）;%求第i类的对象

tm

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于多元统计分析葡萄酒质量评价分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于多元统计分析的葡萄酒质量评价分析.docx
链接地址：https://www.bdocx.com/doc/24438126.html

基于多元统计分析的葡萄酒质量评价分析.docx

热门标签