数学建模优秀讲座课件之聚类分析.ppt
- 文档编号:28171624
- 上传时间:2023-07-09
- 格式:PPT
- 页数:50
- 大小:1.54MB
数学建模优秀讲座课件之聚类分析.ppt
《数学建模优秀讲座课件之聚类分析.ppt》由会员分享,可在线阅读,更多相关《数学建模优秀讲座课件之聚类分析.ppt(50页珍藏版)》请在冰豆网上搜索。
聚类分析,主要内容,聚类分析概述聚类的相似性度量聚类分析的分类聚类分析的SPSS实现,聚类分析概述,“物以类聚,人以群分”。
定义:
聚类是一种数据分析和处理方法,就是按照一定的规律对事物进行区分和分类的过程,它把一个没有类别标记的样本集按某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。
聚类分析是无监督学习,聚类分析过程中没有关于类的先验知识,仅靠事物间的相似性作为类属划分的准则。
聚类分析的相似性度量,距离:
主要用于样品(观测)间相似性度量相似系数:
主要用于变量间相似性度量,如何衡量样本点之间的距离或相似程度?
聚类分析的相似性度量,常用的距离的计算方法基本思想设每个样品有p个指标(变量)。
把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。
当变量的测量值相差悬殊时,要先进行标准化,以消除计量单位对计算结果的影响。
两点距离公式可以从不同角度进行定义。
聚类分析的相似性度量,欧氏距离多维空间个点之间的绝对距离,常用的距离的计算方法分类,d:
特征空间的维数x,y:
两个数据对象当较小时,表示x和y在一个类型区域,反之,则不再一个类型区域内,聚类分析的相似性度量,平方欧氏距离,常用的距离的计算方法分类,d:
特征空间的维数x,y:
两个数据对象当较小时,表示x和y在一个类型区域,反之,则不再一个类型区域内,聚类分析的相似性度量,切比雪夫距离,常用的距离的计算方法分类,d:
特征空间的维数x,y:
两个数据对象,聚类分析的相似性度量,马氏距离-数据的协方差距离,常用的距离的计算方法分类,:
均值向量:
协方差矩阵,意义:
两个服从同一分布并且其协方差矩阵为的随机变量与的差异程度,聚类分析的相似性度量,常用的距离的计算方法分类,明氏公式是距离公式的通式;:
表示欧式公式:
表示曼哈坦公式,明氏距离,特点:
第一,它与各指标的量纲有关;第二,它没有考虑指标直接的相关性。
聚类分析的相似性度量,距离选择的原则一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。
产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。
因此我们在进行聚类分析时,应注意距离公式的选择。
通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。
如欧氏距离就有非常明确的空间距离概念。
马氏距离有消除量纲影响的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。
如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。
样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。
实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。
聚类分析的相似性度量,常用的相似系数的计算方法基本计算,变量间的相似性可以从它们的方向趋同性或“相关性”进行考察,“夹角余弦法”和“相关系数”两种主要度量方法,统称为相似系数。
(1)夹角余弦*,两变量Xi与Xj看作P维空间的两个向量,这两个向量间的余弦夹角可用下式进行计算:
聚类分析的相似性度量,常用的相似系数的计算方法基本计算,Pearson相关系数经常用来度量变量间的相似性。
变量Xi与Xj的Pearson相关系数定义为,Pearson相关系数*,显然,。
聚类分析的分类,聚类分析的分类,系统聚类分析K-means聚类两步聚类直接聚类法有序样品聚类法模糊聚类法图论聚类,聚类分析的分类,系统聚类法(分层聚类)hierarchicalcluster,步骤:
Step1:
将每个样品(或变量)独自聚成一类,共有n类;Step2:
将最近的两类(点)合并成一类;Step3:
然后再把剩下的最近的两类合并成一类;Step4:
循环每次都少一类,直到最后只有一大类为止。
越是后来合并的类,距离就越远。
基本思想:
距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
聚类分析的分类,最短距离法,如何计算类与类之间的距离?
最长距离法,聚类分析的分类,重心法,离差平方和法(ward):
-合并离差平方和变动最小的两个类,聚类分析的分类,红绿(1,2,7,9)44.75离差平方和增加44.752.542.25黄绿(4,5,7,9)14.75离差平方和增加14.752.512.25黄红(1,2,4,5)10离差平方和增加1019故按该方法黄红首先连接。
聚类分析的分类,例子:
哪些少数民族的生存状况更接近?
*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。
聚类分析的分类,数据标准化标准差标准化,聚类分析的分类,
(1)各民族之间的欧氏距离,聚类分析的分类,
(2)合并G5、G6,再计算新类与其他类之间的距离,聚类分析的分类,(3)根据计算结果合并G4,G7,聚类分析的分类,(4)合并G1,G9,(5)最后合并成一类,聚类分析的分类,聚类结果的谱系聚类图(最短距离法),藏族哈萨克族维吾尔族朝鲜族蒙古族满族,0.311,0.406,0.526,1.208,1.448,聚类分析的分类,K-means聚类(快速聚类),步骤:
Step1:
将每个样品(或变量)独自聚成一类,共有n类;Step2:
将最近的两类(点)合并成一类;Step3:
然后再把剩下的最近的两类合并成一类;Step4:
循环每次都少一类,直到最后只有一大类为止。
越是后来合并的类,距离就越远。
基本思想:
距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
聚类分析的分类,例子:
利用K均值法对我国31个省、自治区和直辖市三次产业产值进行聚类分析。
我国各地区2003年三次产业产值如下图所示,聚类分析的分类,利用SPSS软件进行计算,1.根据已知的各省会污染指标的对城市分类2.根据已知的各省各产业,对各省进行分类,聚类分析的SPSS实现,聚类分析的SPSS实现,标准化处理,聚类分析的SPSS实现,SPSS的实现,K-means聚类,聚类分析的SPSS实现,下一步,聚类分析得分类,结果显示,聚类分析的SPSS实现,聚类分析的SPSS实现,聚类结果:
QCL-1说明聚类结果,QCL-2说明聚类的长度情况,聚类分析的分类,两步聚类法,步骤:
Step1:
预聚类。
对记录进行初始的归类,用户自定义最大类别数。
通过构建和修改特征树(CTFree)完成。
Step2:
正式聚类。
对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,系统根据一定的统计标准确定聚类的类别数目。
Step3:
可以通过传统的聚类方法进行聚类(SPSS中采用合并型分层聚类法)。
基本思想:
一种探索性的聚类方法,是随着人工智能的发展起来的智能聚类方法中的一种。
用于解决海量数据或具有复杂类别结构的聚类分析问题。
聚类分析的分类,例题:
根据已知的啤酒参数对啤酒进行分类,聚类分析的SPSS实现,标准化之后,聚类分析的SPSS实现,聚类分析的SPSS实现,聚类分析的SPSS实现,聚类数目,数值越小效果越好,BIC相邻两项差值,看数据的峰值,看聚类效果。
BIC准则-SchwartzBayesianCriterion,聚类分析的SPSS实现,聚类分析的SPSS实现,聚类分析的分类,直接聚类法,先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。
如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。
每一次归并,都划去该对象所在的列与列序相同的行。
经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
聚类分析的分类,聚类分析的分类,有序样品聚类分析法,开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、三类,一直分到K类为止。
这种方法适用于有序样品的分类问题。
又称为最优分割法。
聚类分析的分类,模糊聚类法,利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。
聚类分析的分类,图论聚类分析法,利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法。
谢谢!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 优秀 讲座 课件 聚类分析