书签分享收藏举报版权申诉 / 10

立即下载加入VIP,免费下载

当前位置：首页 > 党团工作 > 入党转正申请 > 聚类和判别分析.docx

聚类和判别分析.docx

文档编号：30341628
上传时间：2023-08-13
格式：DOCX
页数：10
大小：21.02KB

聚类和判别分析.docx

《聚类和判别分析.docx》由会员分享，可在线阅读，更多相关《聚类和判别分析.docx（10页珍藏版）》请在冰豆网上搜索。

聚类和判别分析.docx

聚类和判别分析

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*第九章聚类和判别分析SPSS（中文版）统计分析实用教程（第版）电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS（中文版）统计分析实用教程（第版）电子工业出版社*聚类和判别分析简介基木概念（）聚类分析聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量以这些统计量为划分类型的依据把一些相似程度较大的样本（或指标）聚合为一类把另外一些彼此之间相似程度较大的样本又聚合为一类。

根据分类对象的不同聚类分析可分为对样本的聚类和对变量的聚类两种。

（）判别分析判别分析是判别样本所属类型的一种统计方法。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*聚类和判别分析简介基木概念（）二者区别不同之处在于判别分析是在己知研究对象分为若干类型（或组别）并已取得各种类型的一批己知样本的观测量数据的基础上根据某些准则建立判别式然后对未知类型的样木进行差别分析。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*样本间亲疏关系的度量（）连续变量的样本间距离常用度量主要方法有欧氏距离（EucIidcanDistance）、欧氏平方距离（SquaredEuclidcanDistance）、切比雪夫距离（ChebychevDistance）、明可斯基距离（MinkowskiDistance）、用户自定义距离（CustomizeDistance）、Pearson相关系数、夹角余弦（Cosine）等。

（公式见教材表）（）顺序变量的样木间距离常用度量常用的有统计量（Chisquaremeasure）和统计量（Phisquaremeasure）o

具体计算公式参见节表。

聚类和判别分析简介SPSS（中文版）统计分析实用教程（第版）电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS（中文版）统计分析实用教程（第版）电子工业出版社*二阶聚类基本概念及统计原理（）基本概念二阶聚类（TwoStepCluster）（也称为两步聚类）是一个探索性的分析工具（）为揭示自然的分类或分组而设计是数据集内部的而不是外观上的分类。

它是一种新型的分层聚类算法（HicrarchicalAlgorithms），目前主要应用到数据挖掘（DataMining）和多元数据统计的交叉领域模式分类中。

该过程主要有以下几个特点：

分类变量和连续变量均可以参与二阶聚类分析该过程可以自动确定分类数可以高效率地分析大数据集用户可以自己定制用于运算的内存容量。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*二阶聚类基木概念及统计原理O统计原理两步法的功能非常强大而原理又较为复杂。

他在聚类过程中除了使用传统的欧氏距离外为了处理分类变量和连续变量它用似然距离测度它要求模型中的变量是独立的分类变量是多项式分布连续变量是正态分布的。

分类变量和连续变量均可以参与两步聚类分析。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*二阶聚类基木概念及统计原理（）分析步骤第步构建聚类特征树：

对每个观测变量考察一遍确定类中心。

根据相近者为同一类的原则计算距离并把与类中心距离最小的观测量分到相应的各类中去。

这个过程称为构建一个分类的特征树（CF）。

第步对聚类特征树的节点进行分组：

为确定最好的类数对每一个聚类结果使用Akaik判据（AIC）或贝叶斯判据（BIC）作为标准进行比较得出最后的聚类结果。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*二阶聚类SPSS实例分析【例】某机构为了调查学生性别和所学专业与毕业后初始工资的情况调查抽取了个学生的数据如表所示（其中“性别”代表男性代表女性“学科”代表农学代表建筑代表地质代表商务代表林学代表教育代表工程代表艺术）试根据样本指标进行聚类分析。

（数据参见教材P）第步分析：

由于自变量中不仅有连续属性也有分类变量故采用二阶聚类进行分析。

第步数据组织：

按表所示定义变量输入数据并保存。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*二阶聚类第步二阶聚类设置：

按“分析f分类f两步聚类”顺序打开“二阶聚类分析”对话框并按下图进行设置。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*二阶聚类第步主要结果及分析：

二阶聚类的模型概要和聚类质量情况从中可以看出此算法采用的是两步（二阶）聚类共输入个变量将所有个案聚成类。

聚类的平均轮廓值为（其范围值为〜值越大越好）说明聚类质量较好。

聚类个案情况图可以看出各类所占的比例情况SPSS仲文版）统计分析实用教程（第版）电子工业出版社*二阶聚类第步主要结果及分析：

各个案所属的分类号情况SPSS（中文版）统计分析实用教程（第版）电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS（中文版）统计分析实用教程（第版）电子工业出版社*K均值聚类基本概念及统计原理（）基木概念K均值聚（也称快速聚类）是由用户指定类别数的大样本资料的逐步聚类分析。

它先对数据进行初始分类然后逐步调整得到最终分类数。

分类变量和连续变量均可以参与两步聚类分析。

O统计原理如果选择了n个数值型变量参与聚类分析最后要求聚类数为k。

由系统首先选择k个观测量（也可以是用户指定）作为聚类的目标n个变量组成n维空间。

每个观测量在n维空间中是一个点。

K个事先选定的观测量就是k个聚类中心也称为初始类中心。

按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去形成第一次迭代形成的k类。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*K均值聚类根据组成每一类的观测量计算每个变量的均值每一类中的n个均值在n维空间中又形成k个点这就是第二次迭代的类中心。

按照这种方法迭代下去直到达到指定的迭代次数或达到中止迭代的判据要求时迭代就停止了聚类过程也就结束了。

（）分析步骤第步指定聚类数目k第步确定k个初始类中心第步根据距离最近原则进行分类第步重新确定k个类中心第步迭代计算。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*K均值聚类SPSS实例分析【例】测量名大学生对《高等数学》的心理状况和学习效果主要包括四个因素：

学习动机、学习态度、自我感觉、学习效果具体数据如下表所示。

试将该名学生分成类以分析不同心理状况下学生的学习效果。

编号学习动机学习态度自我感觉学习效果SPSS（中文版）统计分析实用教程（第版）电子工业出版社*K均值聚类第步分析：

由于己知分成类故可采用K均值聚类法。

第步数据组织：

按如上表的表头所示建立变量将“编号”变量的数据类型设为字符型（作为标识变量）。

第步快速聚类设置按“分析一分类一K均值聚类”顺序打开“K均值聚类分析”对话框将“学习动机”、“学习态度”、“自我感觉”、“学习效果”四个变量选入“变量”列表框。

将“编号”变量移入“个案标记依据”框中将“聚类数”设为。

其余“迭代”、“保存”和“选项”设置参见教材。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*K均值聚类第步主要结果及分析：

初始聚类中心表由于没有指定初始聚类中心列出了由系统指定的类中心。

与原数据比较发现它们分别是第、第和第号个案。

Cluster学习动机学习态度自我感觉学习效果SPSS（中文版）统计分析实用教程（第版）电子工业出版社*1＜均值聚类第步主要结果及分析:

迭代历史表由表可知第一次迭代后个类的中心点分别变化了和。

一共进行了次迭代达到聚类结果的要求（达到最大迭代次数）聚类分析结束。

SPSS（中文版）统计分析实用教程（第版）电子工业岀版社*K均值聚类最终聚类中心表如第类的学习动机值为学习态度值为自我感觉值为学习效果值为。

样本数情况可看出第类中分别含有个样木聚类学习动机学习态度自我感觉学习效果聚类有效缺失SPSS（中文版）统计分析实用教程（第版）电子工业出版社*1＜均值聚类分类保存情况查看数据文件可看到多出两个变量分别表示每个个案的具体分类归属和与类中心的距离。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类基木概念与统计原理（）基木概念系统聚类是效果最好且经常使用的方法之一国内外对它进行了深入的研究系统聚类在聚类过程中是按一定层次进行的。

具体分成两种分别是Q型聚类和R型聚类Q型聚类是对样本（个案）进行的分类它将具有共同特点的个案聚集在一起以便对不同类的样本进行分析R型聚类是对变量进行的聚类它使具有共同特征的变量聚在一起以便对不同类的变量进行分析。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类基本概念与统计原理（）统计原理系统聚类是根据个案或变量之间的亲疏程度将最相似的对象聚集在一起。

根据系统聚类过程的不同又分为凝聚法和分解法两种。

凝聚法的原理是将参与聚类的每个个案（或变量）视为一类根据两类之间的距离或相似性逐步合并直到合并为一个大类为止分解法的原理是将所有个案（或变量）都视为一类然后根据距离和相似性逐层分解直到参与聚类的每个个案（或变量）自成一类为止。

在层次聚类中度量数据之间的亲疏程度是极为关键的。

在衡量样本与样本之间的距离时一般使用的距离有EulcideanDistance>SquaredEuclideanDistance>切比雪夫距离、Block距离、明可斯基距离（Minkowshi）、夹角余弦（Cosine）等。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类基本概念与统计原理（）统计原理衡量样本数据与小类、小类与小类之间亲疏程度的度量方法主要有以下种：

最短距离法（NearestNeighbor）最长距离法（FurthestNeighbor）类间平均链锁法（BetweengroupsLinkage）类内平均链锁法（WithingroupsLinkage）重心法（CentriodClustering）中间距离法（McdianClustering）离差平方和（Ward'sMethod）o

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类SPSS实现举例【例】己知例儿童的血中血红蛋白、钙、镁、铁、镭、铜的含量如下表试对数据进行变量聚类分析。

ordercamgfemncuhemoglordercamgfemncuhemogl

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类第步分析：

根据题目要求需进行变量聚类分析（即R型聚类）故采用系统聚类分析中的R型聚类进行处理。

第步数据组织：

如上表定义七个变量:

"orders编号）、“ca”（钙）、“mg”（镁）、“fe”（铁）、“mn”（猛）、“cu”（铜）和“hcmogl”（血红蛋口）其中“order”为字符串型其余变量为数值型。

第步进行按变量聚类的设置：

按“分析一分类一系统聚类”打开“系统聚类分析”对话框将“ca”（钙）、“mg”（镁）、“fe”（铁）、“mn”（猛）、“cu”（铜）和“hemogl”（血红蛋白）几个变量选入“变量”列表框。

设置按“变量”分类并选择输出“统计量”和“图”以激活“统计量（S）…”和“绘制（T）…“两个按钮。

具体如下面图所示。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类第步主要结果及分析：

凝聚顺序表第步是第个变量和第个变量进行聚类变量间的距离系数为这个结果将在第步中用到第步是经过第步聚类后的变量和变量与变星进行聚类变量间的距离系数为这个结果将在第步中用到。

以此类推这个变量经过步聚类最终聚成一个大类。

阶群集组合系数首次出现阶群集下一阶群集群集群集群集SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类第步主要结果及分析：

系统聚类的冰柱图图的纵坐标表示聚类的数目我们从图的最下方看起从类逐渐到类、类、类最后聚成一个大类。

首先是“铜”和“猛”聚成一类其余每个变量各为一类。

第步再将“血红蛋白”聚到“铜”和“镭”一类中原先的个变量就变成了类。

以此类推经过步聚类最后将所有变量聚成了一个大类。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*系统聚类第步主要结果及分析：

系统聚类的树状图第步将“CU（铜）”和“mn（猛）”聚成一类第步将“hemogl（血红蛋白）”聚到“cu（铜）”和“mn（猛）”类中第步将“ca（钙）”和"mg（镁）”聚成一类。

以此类推最后聚成一个大类。

这与聚类顺序表和聚类冰柱图的分析结果是一致的。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS（中文版）统计分析实用教程（第版）电子工业出版社*判别分析基木概念与统计原理（）基本概念判别分析（DiscriminantAnalysis）是多元统计分析中用于判别样木所属类型的一种统计方法。

它要解决的问题是在一些己知研究对象用某种方法己分成若干类的情况下确定新的观察数据属于己知类别中的哪一类。

判别分析是应用很强的一种多元统计分析方法。

（）统计原理判别分析按判别组数来分有两组判别分析和多组判别分析按区分不同总体所用的数学模型来分有线性差别和非线性判别。

判别分析可以从不同的角度提出问题因此有不同的判别准则如费歇尔（Fisher）准则和贝叶斯（Bayes）准则。

判别函数的一般形式是SPSS（中文版）统计分析实用教程（第版）电子工业出版社步判别分析分析步骤第步计算特征值：

计算需要用到的一些反映样本的特征值比如均值、协方差矩阵等。

第步建立判别函数：

判别函数的一般形式如式建立判别函数就是要确定这些系数。

第步确定判别准则：

如费歇尔（Fisher）准则和贝叶斯（Bayes）准则。

第步检验判别效果：

验证判别函数用来进行判别时的准确度。

第步分类：

根据所建立的判别函数对待判样木进行分类。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*判别分析SPSS实例分析【例】下表是健康人（c=）、硬化症患者（c=）和冠心病患者（c=）三种人群的心电图的个指标（x〜x）数据其中有个样木是确定的分类另又测出个人的相关指标试根据确定分类的样本对这未确定的样木进行分类。

orderxxxxxcorderxxxxxc待定待定待定待定

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*判别分析第步分析：

由于部分样本已经有分类标记还有几个待分类样本。

这显然属于根据己知分类样本的信息对未分类样木进行分类的情况用判别分析进行处理。

第步数据组织：

建立个变量。

分别是“序号”、“X”、“X”、“X”、“X”、“X”和“C”均为数值型变量。

输入数据对第条〜条的类别“C”变量不填数据作为缺失值处理存盘并保存。

第步判别分析设置：

按如下图示进行设置SPSS（中文版）统计分析实用教程（第版）电子工业出版社*判别分析SPSS（中文版）统计分析实用教程（第版）电子工业出版社吝判别分析第步主要结果及分析：

分析案例处理摘要表表明共条记录己分好类的条有条需进行分类。

汇聚的变量之间相关矩阵表给出了这五个自变量之间的相关系数如变量“x”与变量“x”之间的相关系数为。

未加权案例N百分比有效排除的缺失或越界组代码至少一个缺失判别变量缺失或越界组代码还有至少一个缺失判别变量合计合计xxxxxCorrelationxxxxxSPSS（中文版）统计分析实用教程（第版）电子工业出版社*判别分析特征值表判别函数的显著性检验结果表由于本例中预测变量为个类别数为因此判别函数的个数为（即min（）=）o

判别函数的特征值越大表明该函数越具有区别力。

第一个判别函数的特征值为第二个为。

其中“到”表示两个判别函数的平均数在个级别间的差异情况。

“”表示在排除第一个判别函数后第二个函数在个级别间的差异情况。

从最后的显著性概率Sig来看其两个判别函数的效果并不十分显著函数特征值方差的累积正则相关性aaa分析中使用了前个典型判别式函数。

函数检验Wilks的Lambda卡方dfSig到SPSS仲文版）统计分析实用教程（第版）电子工业出版社*判别分析判别系数表函数xxxxxSPSS（中文版）统计分析实用教程（第版）电子工业岀版社*判别分析分类结果概述表从表中可以看出有条个案被成功分类。

己处理的己排除的缺失或越界组代码至少一个缺失判别变量用于输出中SPSS（中文版）统计分析实用教程（第版）电子工业出版社*判别分析分类函数系数表c健康硬化病冠心病xxxxx（常量）Fisher的线性判别式函数SPSS（中文版）统计分析实用教程（第版）电子工业岀版社*判别分析各类区域图及分类标记情况图这是以根据每个个案计算出的判别分数为坐标以典则判别函数为横轴以典则判别函数为纵轴所绘出的散点图。

可以看出在图中分出了三个区域在图中也标出了各类的中心（其中心用表示）。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*判别分析分类结果矩阵对角线显示的为准确预测的个数其余为错误预测的个数。

从该表可以看出己经分的个个案正确分类个错误分类个。

正确率还是比较高的。

根据这个个案为先验数据将待分类的个个案分别分入类的分别有个。

C预测组成员合计健康硬化病冠心病初始计数健康硬化病冠心病未分组的案例健康硬化病冠心病未分组的案例a己对初始分组案例中的个进行了正确分类。

SPSS（中文版）统计分析实用教程（第版）电子工业出版社*判别分析分类保存结果图SPSS（中文版）统计分析实用教程（第版）电子工业出版社*TheEnd