聚类分析的步骤.ppt
- 文档编号:1058047
- 上传时间:2022-10-16
- 格式:PPT
- 页数:58
- 大小:621KB
聚类分析的步骤.ppt
《聚类分析的步骤.ppt》由会员分享,可在线阅读,更多相关《聚类分析的步骤.ppt(58页珍藏版)》请在冰豆网上搜索。
第三节模糊聚类分析,一、聚类分析对事物按一定要求进行分类的数学方法,叫做聚类分析。
现实的分类问题,大多伴随着模糊性。
如地质上水油层之间的边界是不分明的,对农业区划的分界也是模糊的等等。
利用模糊聚类分析法去对地质分类,进行农业区划就更合理。
聚类分析的步骤:
1.确定聚类单元这是第一步工作。
在确定聚类单元时,主要根据研究对象和聚类的目的进行综合分析来确定。
如研究的对象是三江平原大系统,则聚类单元以县为单位较妥;如研究对象是某个县,则以乡为单元较妥;如研究的目的是将耕地按肥力不同分成不同的类别,则以地块作为聚类单元。
这里有一点需要注意,不管单元如何划定,保证行政区划的完整性是必要的,只有如此,才能确保把聚类结果应用到实际生产中去。
2.确定聚类准则和聚类因子聚类准则又叫聚类原则,是对聚类目的性的概括描述,也是筛选聚类因子的基本依据。
如气候条件准则、经济发展水平准则、土壤肥力准则等。
不难看出,这三个准则将指导把聚类单元分成不同气候区、经济发展区和土壤肥力分类等。
根据聚类准则要进一步确定聚类因子,这项工作应请有关专家参与,以便把握住与准则密切相关的特征参数,确保聚类的精确性。
根据需要可同时选择不同准则分别进行聚类分析,然后通过综合取交的方法,以做到兼顾多目标,使分类结果更科学。
3.数据处理无量纲化由于聚类因子的量纲不同,不具有横向可比性,为此必须对基础数据进行无量纲处理。
关于无量纲处理的方法,主要是相对系数评分法,该法适用于具有数量指标的因子进行相对评分;其次是模糊经验评分法,该法适用于定性因子的评分。
于是得到聚类因子矩阵如下:
聚类因子矩阵的一般表达式:
式中:
n-聚类单元数;m-聚类因子数。
注意,聚类因子阵也是计算机求解的输入矩阵。
4.求模糊相似关系矩阵设式中:
叫相似系数。
计算相似系数可以按照实际情况,采用不同的计算公式来计算,常用的有12种方法。
(1)数量积法其中M为一适当选择的正数,且满足,
(2)夹角余弦法(3)指数相似系数法其中为适当选定的正数。
(4)相关系数法其中(5)最大最小方法,(6)非参数法令而和分别为中大于0和小于0的个数。
(7)算术平均最小法(8)几何平均最小法,(9)绝对值指数法(10)绝对值倒数法其中适当选取,使,(11)绝对值减数法其中C适当选取,使。
(12)主观评定法请有经验的专家直接对与的相似程度评分,一般可用百分制,然后再除以100,即得闭区间0,1的一个数。
为避免主观,也可采用多人评分再取平均值的方法来定出。
5.求模糊等价关系矩阵用上述方法建立起来的模糊矩阵,一般说来只满足自反性和对称性,不一定满足传递性,即不一定是模糊等价关系,需要将改造成模糊等价矩阵,然后再在适当的阈值上进行截取,便可得所需分类。
改造的方法是将自乘得,再自乘,如此继续下去,得,至某一步出现为止。
则便是一个模糊等价关系。
这个方法是由所谓“传递闭包”理论而来,我们在此拿来直接应用,不再作详细介绍。
6.截取等价类模糊等价关系矩阵为系统聚类奠定了基础,要想在此基础上进行分类,还必须将模糊等价关系转变成非模糊的等价关系。
为此定义模糊等价关系矩阵的截矩阵如下:
设为U上的一个模糊等价关系矩阵,且,则对任意一个,定义则称为的一个截矩阵。
很显然,取不同的值就对应不同的分类结果,从而可以根据实际情况进行分类。
根据结果可知,取值越大,分类就越细,这无疑对更精确地研究问题是有利的。
但如果一个单元划为一类,不仅工作量巨大,而且失去了聚类的意义。
相反,取值越小,分的类就越少(粗),同样这对研究问题也是不可取的。
当然,究竞将系统划分为几类,还应结合具体情况作具体分析,特别是要注意征询有关专家的意见,在多数专家认可的情况下,才做为最终的结果输出。
7.撰写聚类分析报告聚类分析是一项独立的研究工作,这项工作完成的好坏关系全局。
作为聚类分析报告一般应包括以下几部分内容:
聚类分析的目的和意义。
聚类分析所采用的方法和研究结果。
结果分析。
这部分的主要工作是将不同类上的基本情况和特征参数进行综合分析,指出不同类的特点,发展优势和问题等。
二、应用实例我们以1980年荣获北京市科技成果一等奖的北京市东南郊环境污染治理为例,从中抽象出一个环境单元分类问题。
每个环境单元包括空气,水份,土壤,作物四要素。
环境单元的污染状况由污染物在四要素中含量的超限度来描述。
为了示意,假设只有五个单元,它们的污染数据如下:
I(5,5,3,2),II(2,3,4,5),III(5,5,2,3),IV(1,5,3,1),V(2,4,5,1)。
取论域U=I,II,III,IV,V。
按方法(11)(取),得到模糊相似矩阵,是个模糊相似矩阵,不能直接分类,对它进行如下改造:
再自乘则得。
因此选定为模糊等价矩阵,即,由此进行聚类。
当时,的截矩阵为因此U可分为五类I,II,III,IV,V。
当时的截矩阵为因此U可分为四类I,III,II,IV,V,当时,的截矩阵为当时,分为三类I,III,II,IV,V当时,分为两类I,III,IV,V,II,当取不同值时,得聚类图见图3-15所示。
=0.6为三类,U=,12345,123,1,=0.8为四类,=1.0为五类,图3-15,1234,=0.5为二类,12,=0.4为一类,三、最佳水平的确定设样本空间(为样本总数),其中为分类特征个数,为的第个特征。
设为对应值的类数,为第类的样本数,第类样本为。
第类的聚类中心为向量其中,为该类样本第个特征的平均值,即,总体样本的中心向量为,其中构造下列形式的F统计量,其中,为与的距离,为第类中样本与的距离。
统计量分子表征类与类之间的距离,分母表示类内样本间距离,因此值越大,说明类与类之间的距离大,表明类与类间的差异大,分类就越合理。
对应于统计量最大的水平即为最佳值。
第四节动态聚类方法动态聚类亦称逐步聚类。
这种方法的基本思路是:
首先将个聚类单元粗略地分成若干类,然后用某种最优准则一次又一次地调整,直至不能调整为止,即得到最终分类结果。
由于修改调整的方法不同,又有不同的动态聚类方法,经常用的是重心法(或称最短距离法)。
下面就介绍这种方法。
一、重心法聚类的步骤1初选凝聚点;2分别计算每个单元至第个凝聚点的欧氏距离;3进行初始分类;4计算每类重心,并以此作为新的凝聚点;5.重复第2步计算;6.进行下一次分类;7.根据分类结果,判别是不需要调整。
初选凝聚点这是第一步工作,也是最重要的工作。
这不仅因为凝聚点的个数代表最终分类个数,而且凝聚点选的好,将使调整次数减少,节省计算时间。
选择凝聚点常用的方法有:
1)根据对每个聚类单元在不同聚类因子下的取值分析,预先给出一个初始分类,然后在每一类中选一个有代表性的单元作为凝聚点。
2)根据经验人为的分为p类,然后计算每类的重心(即该类中各单元指标向量的均值向量),并以这些重心作为凝聚点。
3)根据经验直接给出p个凝聚点。
分别计算每个单元至个凝聚点的欧氏距离,即式中:
-第个单元与第个凝聚点的欧氏距离-第单元的指标向量-第个凝聚点的指标向量。
为简便起见,常取欧氏距离平方,即,3进行初始分类根据结果,按下面条件进行分类:
则归为第类。
这样便得到初始分类结果,即式中:
U聚类单元全集;-第类单元集合。
计算每类重心,并以此作为新的凝聚点。
有了初始分类还无法判别分类是否合理。
为此必须给出新的凝聚点再次进行分类。
这个新的凝聚点就是每类的重心,这也是重心法的由来。
前面已经提到,把各类中每个单元指标总和向量的均值向量定义该类的重心,于是有式中:
-第类重心向量;-第类单元指标总和向量;-第类中单元数。
重复第步计算,即求根据计算结果,按式进行新的分类。
于是得到第一次分类结果:
.判别第一次分类结果是否需进一步调整,其方法是比较和是否相等,若相等则分类结束,否则应继续进行调整。
二、应用实例这是个仅有两个聚类因子的简单例子。
已知奥帕克玉米杂交种和普通玉米杂交种赖氨酸含量数据如表3所示。
其中代号至为奥帕克玉米杂交种,与为普通玉米杂交种。
试用重心法进行分类。
表3-3玉米杂交种的赖氨酸含量数据表,聚类步骤:
初选凝聚点:
根据对指标向量的分析,分为三类比较合适,即。
并取1、8、13三个单元为凝聚点。
三个凝聚点的指标向量为,。
2计算每个单元与三个凝聚点的欧氏距离平方,即计算结果如表3所示。
表3-4各单元至凝聚点的距离及分类结果,初始分类结果。
根据表3-计算结果,按原则进行分类,具体结果是:
计算每类重心,并以此作为新的凝聚点,结果是:
计算每个单元到三个新凝聚点的欧氏距离,结果如表3所示。
表3-5各单元至三个新凝聚点的距离及分类结果,由表3-5的分类结果知:
说明第一次分类结果与初始分类结果相同,分类至此结束。
最终分类是:
各类品种的平均赖氨酸含量如表3所示。
表3-6各类品种的平均赖氨酸含量,第五节系统聚类分析,一、距离和聚合指数如前文所述,要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。
对于一群有待分类的事物或称为样本点,可以用若干个(如个)特征来描述,因此每样本点可以看成空间的一个点。
所以,样本点之间的相似程度可以用样本点之间的距离来表征。
记为样本点集合,则样本点与的距离是的一个函数,并且满足以下条件:
(1)
(2)(3)(4),在聚类分析中,最为常用的闵可夫斯基距离:
这里,当时,则分别得到
(1)哈明(Hamming)距离
(2)欧氏(Euclid)距离,如果有两类样本点和,怎样测量它们之间的距离呢?
假设是从的一个函数,我们称其为聚合指数,它有多种定义方法,比如1、最短距离法它的直观意义为两类中最近两点间的距离。
2、最长距离法其直观意义为两类中最远两点间的距离。
3、重心法其中分别为和的重心。
4、类平均法它等于和中两两样本点距离的平均,其中和分别为和中的样本点的个数。
二、系统聚类分析的功能和特点系统聚类分析是聚类分析方法中常用的一种方法,其优点在于可以指出由粗到细的多种分类情况,典型的系统聚类结果是由一个谱系图展示出来的。
例如,在平面上由7个点(如图3-18(a)),可以用谱系图(图3-18(b))来表示聚类结果。
(a)(b)图3-18系统聚类方法示意图,记,聚类结果依聚合指数不同而不同聚合指数取,分成一类聚合指数取,分两类,聚合指数取,分三类,,聚合指数取,分四类,聚合指数取,分六类,聚合指数取小于,分成七类,每一个点自成一类。
怎样才能生成这样的谱系图呢。
它的工作步骤可以概述如下。
设
(1)计算个样本两两之间的距离,形成矩阵。
(2)首先构造个类,每一个类中只包含一个样本,每一类的平台高度均为零。
(3)合并距离最近的两类为新类,并且以这两类间的聚合指数为谱系图中新的平台高度。
(4)计算新类与当前类的距离,若类的个数已等于1,转入步骤(5);否则,回到步骤(3)。
(5)画谱系图。
(6)决定类的个数和类。
显而易见,这种系统归类过程与计算类与类之间的聚合指数方法有关,采用不同的聚合指数,有可能得到不同的聚类结果。
三、最短距离法和最长距离法如果使用最短距离法来测量类与类之间的聚合指数,即称其为系统聚类法中的最短距离法。
下面举例说明最短距离法的计算步骤。
设某农机企业有5个销售员,他们的销售业绩由二维向量()描述,见表3-7,表3-7销售员业绩表,如果使用哈明距离来测量样本点之间的距离,使用最短距离法来测量类与类的聚合指数,则可以计算出距离矩阵。
第一步,所有的元素自成一类。
如果以表示的所有可能的类集合,。
这时,就有,每一个类的平台高度为零,即。
第二步,从距离矩阵中可以看出,和的推销业绩最为近似,即距离最近,把它们聚为一个新类,新类的平台高度(即聚合水平)等于它的聚合指数,。
这时的分类情况是。
第三步,计算新类与的聚合指数。
例如,即与组推销业绩相差的距离,按照与组中业绩最近似于他
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 步骤