聚类分析例题Word文件下载.docx
- 文档编号:20735782
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:10
- 大小:82.54KB
聚类分析例题Word文件下载.docx
《聚类分析例题Word文件下载.docx》由会员分享,可在线阅读,更多相关《聚类分析例题Word文件下载.docx(10页珍藏版)》请在冰豆网上搜索。
数字等级
5
4
3
2
1
通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表
7):
表7:
各支葡萄酒的等级
编号
红酒
原等级
细化等级
白酒
1号
68.1
77.9
2号
74
75.8
3号
74.6
75.6
4号
71.2
76.9
5号
72.1
81.5
6号
66.3
75.5
7号
65.3
74.2
8号
66
72.3
9号
7&
2
80.4
10号
6&
8
79.8
11号
61.6
71.4
12号
3
72.4
13号
68.8
73.9
14号
72.6
77.1
15号
65.7
78.4
16号
69.9
67.3
17号
74.5
80.3
18号
65.4
76.7
19号
76.4
20号
76.6
21号
72.2
79.2
22号
71.6
79.4
23号
77.1
77.4
24号
71.5
76.1
25号
68.2
79.5
26号
72
74.3
27号
77
28号
79.6
经过整理,我们初步得到了对于葡萄酒由
勺质量的分刁
1的表格。
考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。
5.2.2建立模型
在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward最小方差法,又叫做离差平方和法。
聚类分析是研究分类问题的一种多元统计方法。
所谓类,通俗地说,就是指相似元素的集合。
为了将样品进行分类,就需要研究样品之间关系。
这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点,并在空间的定义距离,距离较近的点归为一类;
距离较远的点归为不同的类。
面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。
现在我们将用SAS系统里面的stepdisc和cluster过程完成判别分析和聚类分析,最终确定元素对象的分类问题。
建立数据阵,具体数学表示为:
「九…Xw
X™•••••••••(5.2•1)
乂川…X叽
式中,行向量x严g,…,兀,”)表示第j个样品;
列向量Xj=(X\j,…,xnjyf,表示第j项指标。
(i=l,2,—,n;
j=l,2,—m)
接下来我们将要对数据进行变化,以便于我们比较和消除纲号。
在此我们用了使用最广范的方法,ward最小方差法。
其中用到了类间距离来进行比较,定义为:
2=11疋一疋1|2/(I/哄+1/耳)
(5.2.2)
Ward方法并类时总是使得并类导致的类内离差平方和增量最小。
系统聚类数的确定。
在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;
因为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。
在实际应用中常使用下面
几种方法确定类的个数。
由适当的阀值确定,此处阀值为q-
根据样本的散点图直观的确定。
当样本所含指标只有2个或3个时,可运用散点图直观观察。
如果指标超过3个时,可用主成份法先综合指标。
根据统计量确定分类个数。
在SAS中,提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。
1)统计量:
疋=1_S;
/S;
=S;
(5.2.3)
其中,S;
为分类数为k个数时的总类内离差平方和,S;
为所有样品或变量的总离差平方和。
F越大,说明类内的离差平方和在总离差平方和中比例较小,也就是分为k个类的效果越好。
显然分类越多,每个类离差越小,疋越大,所以我们只能取k使得用足够大,但k本身比较小,而且疋不再大幅度增加。
2)半偏R2统计量:
在把类Q和类C,合并为下一水平的类时,定义半偏相关:
半偏R2=Bkl/T(5.2.4)
其中以为合并类引起的类内离差平方和的增量:
St为类
C,的类内离差平方和。
半偏F用于评价单次合并效果,其值越大,说明上次合
并效果越好。
3)伪F统计量:
(5.2.5)
伪“统计量评价分为k个类的效果。
伪F统计量越大,表达分为k个类越合理。
通常取伪F统计量较大而类数小的聚类水平。
4)伪尸统计量:
(5.2.6)
广=BJ((S女+SJ/(nk+q—2))
用此统计量评价合并类G和类q的效果,该值大说明合并的两个类Q和类
C,是很分开的,这个合并不成功,而应该去合并前的水平。
通过使用sas软件的cluster过程和tree过程,可以求解分析出结果。
5.2.3模型的求解与分析
首先,我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标,通过聚类分析,把酿酒葡萄分成五类,得到初步的结果(见图3):
从图中我们能够直观的看到把酿酒葡萄分为5大类,为了检验效果,我们通过判别分析检验原本的28种葡萄分类的结果,得到表&
表8:
误判概率表(具体表见附录)
组号
概率
0.2727
0.1250
0.3333
0.4000
1.000
在误差一栏我们看到,每一组的分类都存在或多或少的误差,我们觉得这个结果是不满意的。
为了进一步优化方案以及简化分析过程,我们利用逐步判别法对参与分类的因素进行逐步剔除,以达到减少噪声干扰的目的,让得到的结果更加合理和完善。
通过逐步判别法,我们剔除了原本59个数据中的35个相关不大,造成干扰的因素,剩下了24个因素。
经过剔除干扰项后,为了检验剔除后干扰项后的结果是否更加合理,我们重新对剩余的24个因素进行了聚类分析,做谱系聚类图和判别分析。
得到了新的结果(见表9):
表9:
优化后的聚类分析部分结果(详细见附录)
分类数
样品数
半偏F
R2
伪F统计量
伪尸统计量
6
0.0171
0.915
47.6
9.1
0.0500
0.865
37.0
6.1
11
0.0612
0.804
32.9
17.3
21
0.1032
0.701
29.3
17.9
7
0.1648
0.536
30.1
10.0
28
0.5362
■
30.1
综合个数据检验,把葡萄分为5个类别是比较合理的一种方案,为了检验与之前的差异我们得到了新的谱系聚类图(见图4)
图
通过对比前后的两图,我们可以发现,分类的结果除了组间的类别有点波动之外,整体的分组是没有改变的。
所以,我们第一步得到了优化结果的可靠。
但仅仅用图说明是不够的,为此我们通过判别分析法,通过具体数据来说明分析结果的可靠。
表10:
优化后的判别分析表数据
0.1667
我们不难发现,表中的错误只在第3组出现了0.1667的误差,其他组是没有存在误差的。
这个结果是比较令人满意也令人信服的。
由此,我们得到的结果是,我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。
具体分类结果为:
表11:
白葡萄酒酿酒葡萄分类
分类/组数
组别
A/共组
Pl,P8,P13,P16,P17,P18,P19,P22
B/共组
P14,P21,P23
C/共组
P2,P3,P4,P6,P7,P9,P11,P12
D/共组
PIO,P20,P25,P26
E/共组
P3,P5,P15,P24,P27,P28
通过该组的成功检验,我们接下来将会对红葡萄酒的酿酒葡萄进行同算法的分类。
由于用到的算法与检验方法一样,所以这里不再累赘,将直接输出最后分组结果。
部分详细内容见附录。
表12:
红葡萄酒酿酒葡萄的分类
Pl,P4,P5,P8,P15,P17,P24
P2,P7,P9,Pll,P19,P20,P22,P23
PIO,P13,P14,P16,P25,P26,P27
P6,P12,P18
P3,P21
分类完毕,接下来我们将利用关于红酒质量的评分等级来对对应的葡萄进行评分,首先应该说明的是,烂葡萄是不能酿出好酒,根据这个,我们可以客观的说出一点,一般好的葡萄能酿出好的酒,可能酿酒过程会意外让酒变质导致酒变差,但好的酒由好的葡萄酿制出来是毫无疑问的。
为此我们把对于酒的等级相当于对葡萄打分。
每种葡萄分别得到分数s、,i表示第i种葡萄。
通过将每组的葡萄总分除以组内总数得到的数据,对葡萄进行分类,
分类指标=工&
/组内数
通过指标的具体分数,我们就可以轻松对葡萄进行等级划分,结果见表13:
表13:
对白葡萄酒和红葡萄酒的酿酒葡萄评价分类有:
白葡萄酒酿酒葡萄
得分
E
4.2
B
C,D
3.75
良好
A
3.62
红葡萄酒酿酒葡萄
B,E
A,C
2.57
中等
D
procclusterdata=wgouttree=treemethod=ward
cccpseudoprint=15;
varal-a59;
idnumber;
run;
proctreedata=treeout=newnclusters=5graphics;
copyal-a59;
procstepdiscdata二new;
classcluster;
procdiscrimddtd二newoutstdt二newstdtmethod二normalpool=yeslistcrossvalidate;
priorsproportional;
附录四:
第二小题,优化后的数据运行程序
procclusterdata=nwgouttree=treemethod=ward
varbl-b24;
proctreedata二treeout=newnclusters=5graphics;
copybl-b24;
procstepdiscdata=new;
procdiscrimdata二newoutstat=newstatmethod=normalpool=yeslistcrossvalidate;
附录五:
原判别分析表
TUrofCt^cr-^.tiwsendPercentClassifi^JintoCLl^TEE
FrowCLUSTER
Total
RatePriors
0.0714
附录六:
优化后的判别分析表
ClusterHistory
在表中的各列数据代表的意思是:
”NCL”为分类数量,表示新类别形成后类别的总数。
"
-ClustersJoined—"
为合并的类别,指明这一步合并了哪两个类,有两列。
其中OBx表示某一个原始样品,而CLx表示在某一个聚类水平上产生的类。
“FREQ”表示这次合并得到的类有多少个样品。
“SPRSQ”是半偏以,“RSQ”是以,”CCC”是考察聚类效果的统计量,该值越大,聚类水平越好,”PSF”为伪F统计量,“PST2”为伪2统计量,“Tie”指示距离最小的候选类对是否有多对,本例全无。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 例题