第五章聚类分析_精品文档优质PPT.ppt
- 文档编号:15497438
- 上传时间:2022-11-02
- 格式:PPT
- 页数:84
- 大小:2.38MB
第五章聚类分析_精品文档优质PPT.ppt
《第五章聚类分析_精品文档优质PPT.ppt》由会员分享,可在线阅读,更多相关《第五章聚类分析_精品文档优质PPT.ppt(84页珍藏版)》请在冰豆网上搜索。
相似性与距离(不相似性)亲疏关系的判别:
相似性与距离(不相似性)ll分类数的确定:
分多少类合适分类数的确定:
分多少类合适聚类分析的应用不同地区城镇居民收入和消费状况的分类研究。
区域经济及社会发展水平的分析及全国区域经济综合评价产品市场细分:
按照消费者的需求特征分成不同的细分市场在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类聚类分析的类型根据分类的对象lQQ型聚类(即样本聚类型聚类(即样本聚类clusteringforindividualsclusteringforindividuals)lRR型聚类型聚类(变量聚类变量聚类clusteringforvariablesclusteringforvariables)根据分类的方法:
l系统聚类系统聚类(hierarchicalclustering(hierarchicalclustering)l快速聚类快速聚类(k-meansclustering)(k-meansclustering)l模糊聚类模糊聚类聚类分析数据格式k二、距离与相似系数二、距离与相似系数样本间的亲疏关系通常用距离描述,变样本间的亲疏关系通常用距离描述,变量间的亲疏关系通常用相似系数或相关量间的亲疏关系通常用相似系数或相关系数描述系数描述不同测量尺度的数据,其距离的计算方不同测量尺度的数据,其距离的计算方法不同法不同
(一)、距离:
样本间的亲疏关系
(一)、距离:
样本间的亲疏关系距离的定义:
l假设每个样品由假设每个样品由pp个变量描述,则每个样品个变量描述,则每个样品都可以看成都可以看成pp维空间中的一个点,维空间中的一个点,nn个样品就个样品就是是pp维空间中的维空间中的nn个点,则第个点,则第ii样品与第样品与第jj样品样品之间的距离记为之间的距离记为ddijijlddijij满足下列条件满足下列条件dij0dii=0dij=djidijdik+dkj1.欧式(欧式(Euclidian)距离)距离x1x2x12x22x11x21x21-x11x22-x122.明氏(明氏(Minkowski)距离)距离q=1q=2q=当q=1,为绝对值距离绝对值距离,SPSS称为block当q=2,即为欧式距离当q=,有,称为切比雪夫(Chebychev)距离实例计算实例计算品距离矩阵绝对值距离绝对值距离品Euclidian距离的平方距离的平方2Euclidian距离距离明氏距离的缺点明氏距离的缺点各指标同等对待(权数相同),不能反各指标同等对待(权数相同),不能反映各指标变异程度上的差异映各指标变异程度上的差异距离的大小与各指标的观测单位有关,距离的大小与各指标的观测单位有关,有时会出现不合理结果有时会出现不合理结果没有考虑指标之间的相关性没有考虑指标之间的相关性当各指标的测量值相差悬殊时,可以先当各指标的测量值相差悬殊时,可以先对数据标准化,然后用标准化后的数据对数据标准化,然后用标准化后的数据计算距离计算距离3.马氏马氏(Mahalanobis)距离距离明氏距离没有考虑数据中的协方差模式,马氏距离则考虑了协方差,且不受指标测量单位的影响:
已已知二维正态总体知二维正态总体G的分布为:
的分布为:
GN(,),其其中中分别求点分别求点A=(1,1),和点和点B=(1,-1)到均值到均值的欧式距离和马氏距离的欧式距离和马氏距离欧式等距离线欧式等距离线欧式等距离线欧式等距离线马氏等距离线马氏等距离线马氏等距离线马氏等距离线Mahalanobis距离例距离例AB欧氏距离、标准化变量的欧式距欧氏距离、标准化变量的欧式距离与马氏距离的比较离与马氏距离的比较4.Lance和和Williams距离距离对标准化变量:
对标准化变量:
5.配合距离前几类距离多用于定距和定比尺度数据,对于定类和定序变量:
配合距离例配合距离例4种品牌的软饮料在种品牌的软饮料在4个方面的特性:
是否可乐口味?
是个方面的特性:
是否含有咖啡因?
是否节食饮料?
是否可口可乐公司产?
否含有咖啡因?
可乐味可乐味咖啡因咖啡因节食节食可口可乐可口可乐Coke1101Pepsi1100DietCoke1111Caffeine-freeDietCoke1011距离矩阵距离矩阵1.夹角余弦(夹角余弦(Cosine)
(二)相似系数:
变量间的亲疏关系
(二)相似系数:
变量间的亲疏关系受相似形的启发而来,受相似形的启发而来,AB和和CD尽管尽管长度不一,但形状相似长度不一,但形状相似ABDC2.Pearson相关系数相关系数
(二)相似系数
(二)相似系数SPSS的的“分析分析”“相关相关”“距离距离”Measures对话框对话框定距尺度定距尺度定序尺度定序尺度定类尺度定类尺度三、系统聚类法三、系统聚类法聚合法聚合法分解法分解法通常分为两步:
先做出类别通常分为两步:
先做出类别距离谱系图,再根据谱系图距离谱系图,再根据谱系图的特点确定分类数并分类的特点确定分类数并分类Agglomerative系统聚类法基本步骤系统聚类法基本步骤步骤步骤步骤步骤11:
将:
将nn个样品各作为一类,共个样品各作为一类,共个样品各作为一类,共个样品各作为一类,共nn类:
类:
CC11、CC22、CCnn。
计算各类之间的距离,构成距离矩阵:
。
ddcicjcicj=d=dijij步骤步骤步骤步骤22:
找到距离最近的两类合并为一新类:
找到距离最近的两类合并为一新类步骤步骤步骤步骤33:
计算新类与当前各类的距离。
:
重复步骤重复步骤重复步骤重复步骤22、33,直至合并成一类为止,形成谱系图,直至合并成一类为止,形成谱系图,直至合并成一类为止,形成谱系图,直至合并成一类为止,形成谱系图根据根据根据根据谱系图谱系图谱系图谱系图确定如何分类确定如何分类确定如何分类确定如何分类单样本类,类与类之间的距离为样品距离单样本类,类与类之间的距离为样品距离类间距离类间距离类与类间距离类与类间距离类与类之间的距离类与类之间的距离1.1.最短距离法最短距离法(singlelinkage)(singlelinkage)2.2.最长距离法最长距离法(completelinkage)(completelinkage)3.3.中位数法中位数法(medianmethod)(medianmethod)4.4.类平均法类平均法(averagelinkage)(averagelinkage)5.5.可变类平均法可变类平均法(flexible-betamethod)(flexible-betamethod)6.6.质心法质心法(centroidmethod)(centroidmethod)7.Ward7.Ward离差平方和法离差平方和法(Wardsminimum-(Wardsminimum-variancemethod)variancemethod)AgglomerativeMethods:
各种不同方法的基本步骤相同,:
各种不同方法的基本步骤相同,只是类与类之间距离的计算方法不同。
只是类与类之间距离的计算方法不同。
(一)
(一)最短距离法最短距离法类与类之间的距离是两类间两两样品间的最短距离6个民族的粗死亡率与期望寿命哈萨克与藏族的距离最短,最先合并形成新类CL7新类CL7和其余四类的距离第二次合并新类和各类的距离新类和各类的距离第三次合并第四次合并最后合并成一类谱系图不显示实际距离,显示0-25的比例距离树状图冰柱图冰柱图12345融合在一起的为一类
(二)最长距离法
(二)最长距离法类与类之间的距离是两类间两两样品间的最长距离前例:
最长距离法第1次合并仍取最短欧式距离新类和各类的距离:
取最大值第2次合并新类和各类的距离:
取最大值第3次合并第4次合并最后合并例题例题5个品牌饮料的热量、咖啡因、钠含量及价格的个品牌饮料的热量、咖啡因、钠含量及价格的距离矩阵如下,请用最长距离法作出谱系图。
距离矩阵如下,请用最长距离法作出谱系图。
根据谱系图,这五个品牌饮料可以分为几类?
(三)中位数法(三)中位数法(medianmethod)最长距离夸大了类间距离,最短距离低估了类间距离。
介于两者间的距离即为中间距离KLJM(四)(四)类平均法类平均法(averagelinkagebetweengroup)SPSS作为默认方法,称为“组间联接”KLJM(五)质心(五)质心法法(centroidmethod)类与类间的距离用各自类与类间的距离用各自重心间的欧式距离表示重心间的欧式距离表示KLJM(六)(六)Ward最小方差法最小方差法(Wardminimumvariancemethod)源于方差分析。
类内离差平方和:
类中各样品到类重心(均值)的平方欧式距离之和。
基本思路:
两类合并后,离差平方和就会增加。
每次选择使离差平方和增加(SSMSSKSSL)最小的两类进行合并,直至所有的样品归为一类。
(七)各种系统聚类方法的统一(七)各种系统聚类方法的统一以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。
Lance和Williams于1967年将其统一为:
八种系统聚类法公式的参数八种系统聚类法公式的参数注意:
几种聚类方法获得的结果不一定相同注意:
几种聚类方法获得的结果不一定相同最最长长距距离离法法最短距离法最短距离法分类数的确定及类别的解释分类数的确定及类别的解释系统聚类法给我们提供了一个类别距离系统聚类法给我们提供了一个类别距离谱系,最终样本如何分类、分成几类需谱系,最终样本如何分类、分成几类需要我们自己根据研究的目的确定。
要我们自己根据研究的目的确定。
3类2类2类系统聚类的系统聚类的SPSS实现实现指定参与聚类的变量名和样品号指定参与聚类的变量名和样品号存放标识变量选择聚类类型“统计量统计量”聚类状态表相似矩阵类成员:
不显示类成员表不显示类成员表显示指定范围中显示指定范围中每一步类成员每一步类成员列出指定类列出指定类数的类成员数的类成员“图图”对话框对话框树状结构图冰柱图冰柱的方向显示聚类的每一步指定显示的聚类范围不生成冰柱图“方法方法”对话框
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 聚类分析 精品 文档