spss58聚类分析_精品文档PPT文档格式.ppt
- 文档编号:15484512
- 上传时间:2022-11-01
- 格式:PPT
- 页数:56
- 大小:1.53MB
spss58聚类分析_精品文档PPT文档格式.ppt
《spss58聚类分析_精品文档PPT文档格式.ppt》由会员分享,可在线阅读,更多相关《spss58聚类分析_精品文档PPT文档格式.ppt(56页珍藏版)》请在冰豆网上搜索。
把每个样品看成是把每个样品看成是m维维(变量的个数)空间的一个点,在(变量的个数)空间的一个点,在m维坐标系维坐标系中,定义点与点之间的某种距离,距离越近,中,定义点与点之间的某种距离,距离越近,其亲密程度越好;
其亲密程度越好;
2、对变量进行分类:
、对变量进行分类:
定义某种相似系数,性定义某种相似系数,性质越接近的变量,他们之间的相似系数越接近质越接近的变量,他们之间的相似系数越接近于于1(-1),彼此无关的变量,它们之间的相似),彼此无关的变量,它们之间的相似系数越接近于系数越接近于0。
二、聚类分析的数学解释二、聚类分析的数学解释
(一)聚类分析
(一)聚类分析当确定了样品或变量间的距离或相似系数后,就当确定了样品或变量间的距离或相似系数后,就要对样品或变量进行分类。
要对样品或变量进行分类。
1、层次聚类:
、层次聚类:
首先是在样品距离的基础上定义类首先是在样品距离的基础上定义类与类之间的距离,即首先将与类之间的距离,即首先将n个样品自成一类,然后个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离这个过程直到所有的样品归为一类与类之间的距离这个过程直到所有的样品归为一类为止,将这一过程作成图,称为聚类谱系图类为止,将这一过程作成图,称为聚类谱系图(HierarchicalDiagram);
);
2、迭代聚类、迭代聚类(快速聚类):
快速聚类):
将将n个样品初步分类,个样品初步分类,然后根据分类函数尽可能小的原则,对已分类别进然后根据分类函数尽可能小的原则,对已分类别进行调整,直到分类合理为止,这一过程称为调优法。
行调整,直到分类合理为止,这一过程称为调优法。
(二)层次聚类分析
(二)层次聚类分析层次聚类分析(系统聚类)(层次聚类分析(系统聚类)(HierarchicalCluster)是聚类分析中应用最广泛的一种,凡是具是聚类分析中应用最广泛的一种,凡是具有数值特征的变量和样本都可以采用层次聚类分析,有数值特征的变量和样本都可以采用层次聚类分析,选择不同的距离和聚类方法可以获得满意的数值分类选择不同的距离和聚类方法可以获得满意的数值分类效果。
效果。
1、层次聚类分析的步骤:
、层次聚类分析的步骤:
(1)聚类前首先对数据进行变换处理(选择相关性小且贡献大)聚类前首先对数据进行变换处理(选择相关性小且贡献大的指标,转化成无量纲的数据);
的指标,转化成无量纲的数据);
(2)聚类分析时先分成)聚类分析时先分成n类,计算样品之间的距离,并将距离类,计算样品之间的距离,并将距离最近的两个样品并成一类;
最近的两个样品并成一类;
(3)选择并计算类与类之间的距离,并将距离最近的两类合并,)选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于如果类的个数大于1,则继续,直到所有的样品并为一类为止;
,则继续,直到所有的样品并为一类为止;
(4)最后绘制层次聚类谱系图(树状图)。
)最后绘制层次聚类谱系图(树状图)。
2、数据变换处理(标准化处理)、数据变换处理(标准化处理):
(1)极差正规化(极差从)极差正规化(极差从0到到1):
):
从变量的数据中从变量的数据中找出最大和最小值,其差称为极差。
每一个原始数据找出最大和最小值,其差称为极差。
每一个原始数据减去变量的最小值,再除以极差,则得到极差正规化减去变量的最小值,再除以极差,则得到极差正规化数据(最大数为数据(最大数为1,最小数为,最小数为0);
(2)标准化变换(标准差为)标准化变换(标准差为1):
把数值标准化到标把数值标准化到标准差为准差为1(均值为(均值为0,方差为,方差为1);
3、距离:
、距离:
(1)dij=0
(2)dii=0(3)dij=dji(4)dij=dik+dkj欧氏距离欧氏距离欧氏平方距离欧氏平方距离切贝谢夫距离切贝谢夫距离布洛克距离布洛克距离明可斯基距离明可斯基距离用户自定义用户自定义4、相似系数、相似系数在对变量进行分类时,通常采用相似系数来表示在对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度。
变量之间的亲疏程度。
相似系数定义如下:
5、聚类方法常用的聚类方法有如下常用的聚类方法有如下7种:
种:
(1)最短距离法(最近邻元素)(最短距离法(最近邻元素)(NearestNeighbor):
两类的距离定义为一类的所有个体与另一类的所有两类的距离定义为一类的所有个体与另一类的所有个体之间的距离最小者。
个体之间的距离最小者。
(2)最长距离法(最远邻元素)(最长距离法(最远邻元素)(FurtherNeighbor):
两类的距离定义为一类的所有个体与另一类的所有两类的距离定义为一类的所有个体与另一类的所有个体之间的距离最大者。
个体之间的距离最大者。
(3)中间距离法(中位数聚类)中间距离法(中位数聚类)Medianclustering):
两类的距离定义采用界于最短距离和最长距离之间两类的距离定义采用界于最短距离和最长距离之间的中间距离(取三角形的中线)。
的中间距离(取三角形的中线)。
(4)重心法(质心聚类)(重心法(质心聚类)(Centroidclustering):
将两类的距离定义为两类重心之间的距离将两类的距离定义为两类重心之间的距离(5)类平均法类平均法(组内的联接)(组内的联接)(withingrouplinkage):
将两类的距离定义为两类元素两两之间的平均平方距离。
(6)可变类平均法可变类平均法(组之间的联接)组之间的联接)(Betweengrouplinkage)将类平均法和中间距离法进行组合,得到一个组合的距离。
将类平均法和中间距离法进行组合,得到一个组合的距离。
(7)离差平方和法(离差平方和法(Ward的方法)(的方法)(Wardsmethod):
利用方差分析的思想:
如果类分得合理,则同类样品之间的利用方差分析的思想:
如果类分得合理,则同类样品之间的离差平方和应当较小,类与类之间的离差平方和应当较大。
离差平方和应当较小,类与类之间的离差平方和应当较大。
(三)迭代聚类法(三)迭代聚类法(K-平均值聚类)平均值聚类)层次聚类法在聚类过程中需要存储距离矩阵,并且在每一步的层次聚类法在聚类过程中需要存储距离矩阵,并且在每一步的并类过程中都需要做很多计算,这样,当样本量很大时会需要较大的并类过程中都需要做很多计算,这样,当样本量很大时会需要较大的计算机内存空间和较长的计算时间。
迭代聚类法克服了层次聚类法的计算机内存空间和较长的计算时间。
迭代聚类法克服了层次聚类法的这两个缺点,具有占计算机内存小、速度快的优点,适用于大样本的这两个缺点,具有占计算机内存小、速度快的优点,适用于大样本的聚类分析。
聚类分析。
迭代聚类法的聚类过程分为以下四步:
(1)指定要形成的聚类数,对样本进行初始分类并计算每一类的重)指定要形成的聚类数,对样本进行初始分类并计算每一类的重心;
心;
(初始分类中心)初始分类中心)
(2)调整分类。
计算每个样本点到各类重心的距离,把每个样本点)调整分类。
计算每个样本点到各类重心的距离,把每个样本点归入距重心最近的那一类;
归入距重心最近的那一类;
(3)重新计算每一类的重心;
)重新计算每一类的重心;
(4)重复步骤()重复步骤
(2)一()一(3),直到没有样本点可以再调整为止。
),直到没有样本点可以再调整为止。
迭代聚类法的关键是选择初始分类,不同的初始分类用于同一数据迭代聚类法的关键是选择初始分类,不同的初始分类用于同一数据往往也会得出不同的结果。
往往也会得出不同的结果。
进行初始分类的方法分两种情况:
一是已知初始聚类中心;
二是未知进行初始分类的方法分两种情况:
二是未知初始聚类中心。
初始聚类中心。
(1)在已知初始聚类中心的情况下,按照距离最近的原则,把离初)在已知初始聚类中心的情况下,按照距离最近的原则,把离初始聚类中心最近的样本点归入一类,形成初始分类,然后计算每一类的重始聚类中心最近的样本点归入一类,形成初始分类,然后计算每一类的重心。
初始聚类中心通常是根据经验人为地进行选择,例如:
心。
根据以往的研究经验,选择每一类中有代表性的样本点作为初始聚根据以往的研究经验,选择每一类中有代表性的样本点作为初始聚类中心;
类中心;
将样本先用其他方法分类,将每一类的重心作为初始聚类中心。
可以使用数据文件中的前可以使用数据文件中的前k个无缺失值的样本点作为初始聚类中心。
个无缺失值的样本点作为初始聚类中心。
(2)在未知初始聚类中心的情况下,指定某种聚类方法对样本点进行)在未知初始聚类中心的情况下,指定某种聚类方法对样本点进行初始分类,一般的统计软件都有从原始数据中估计初始聚类中心,进行初初始分类,一般的统计软件都有从原始数据中估计初始聚类中心,进行初始分类的功能。
始分类的功能。
三、聚类分析在经管研究中的应用例1:
商厦分类
(一)层次聚类分析1、打开SPSS软件2、输入数据(商厦评分.sav)3、在SPSS中选定:
分析分类系统聚类4、选定平方欧氏距离5、输出“组之间的联接”法聚类谱系图6、对聚类谱系图进行分析Statistics聚类谱系图聚类谱系图冰柱图冰柱图三、聚类分析在经管研究中的应用三、聚类分析在经管研究中的应用例例2各地区居民生活水平指标:
经济生活质量指数经济生活质量指数教育生活质量指数教育生活质量指数健康生活质量指数健康生活质量指数居住生活质量指数居住生活质量指数按已知数据对按已知数据对30个省进行分类研究个省进行分类研究。
最短距离法最长距离法重心法组间连接法离差平方和法
(二)迭代聚类分析1、打开SPSS软件2、输入数据(e5-8-1)3、在SPSS中选定:
分析分类-k平均值聚类例如:
商厦分类。
例如:
利用利用K平均值聚类分析方法按照优秀(平均值聚类分析方法按照优秀(95分)、分)、良好(良好(85分)、合格(分)、合格(65)的总体水平进行分类。
)的总体水平进行分类。
已知初始分类中心时v构建初始分类中心文件注意:
注意:
初始分类中心文件的第一个变量必须是初始分类中心文件的第一个变量必须是cluster_,并且是数值型的,其他变量与要聚类数据文件中的变并且是数值型的,其他变量与要聚类数据文件中的变量相同,但不包括标识变量。
量相同,但不包括标识变量。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss58 聚类分析 精品 文档