聚类分析快速聚类和变量聚类 上机指导.docx
- 文档编号:6070097
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:11
- 大小:196.39KB
聚类分析快速聚类和变量聚类 上机指导.docx
《聚类分析快速聚类和变量聚类 上机指导.docx》由会员分享,可在线阅读,更多相关《聚类分析快速聚类和变量聚类 上机指导.docx(11页珍藏版)》请在冰豆网上搜索。
聚类分析快速聚类和变量聚类上机指导
实验六聚类分析
——动态聚类和变量聚类
二、动态聚类法——FASTCLUS过程
动态聚类又称为逐步聚类,基本思想是,开始先粗略地分一下类(先选一批凝聚点,让样品向最近的凝聚点聚集,就得到初始分类),然后按照某种最优的原则修改不合理的分类,直到分得比较合理为止。
FASTCLUS过程的一般格式:
PROCFASTCLUSMAXCLUSTER=n|RADIUS=t
VARvariables;
IDvariable;
FREQvariable;
WEIGHTvariable;
BYvariables;
语句说明:
PROCFASTCLUS语句用来开始FASTCLUS过程,必须规定说明项MAXCLUSTER=或RADIUS=中的一个。
说明项和常用选项:
(1)MAXCLUSTER=n|MAXC=n:
指定所允许的最大分类数,缺省为100.
(2)RADIUS=t:
为选择新的“凝聚点”指定的最小距离准则。
当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t时,该观测可考虑用来作为新的“凝聚点”。
t的缺省值为0.
(3)DATA=SAS-data-set:
给出进行聚类的观测数据集的名字。
(4)OUT=SAS-data-set:
聚类结果保存都新的数据集中,包含VAR中变量,及新变量cluster和distance(观测与所属类间的距离)。
(5)CLUSTER=name:
规定在输出的数据集中用以指示观测属于哪一类的变量名字。
缺省为CLUSTER.
(6)DRIFT:
执行逐个修改法
(7)MAXITER=n:
指定重新计算类的凝聚点的最大迭代次数。
当n>0时,执行按批修改法。
缺省为1.
(8)DISTANCE:
要求输出类均值之间的距离
(9)LIST:
要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。
注意事项:
应用举例:
例2:
试用FASTCLUS过程对16个地区农民生活水平的调查数据(数据集d641)进行分类。
SAS程序:
procfastclusdata=d641out=out653maxc=4list;
varx1-x6;idgroup;
run;
maxc=4:
规定最大分类个数为4类
list:
要求列出分类结果。
out=out653:
指定生成名为out653的输出数据集,包含VAR中的变量,新变量cluster和新变量distance(观测与所属类中心的距离)。
主要输出结果:
动态聚类的初始凝聚点(数据不标准化)
动态聚类的分类结果(数据不标准化)
第一类:
北京、浙江
第二类:
上海
第三类:
河北、山西、黑龙江、山东、河南
第四类:
内蒙、辽宁、吉林、江苏、安徽、福建、江西
动态聚类产生的各类均值和标准差(数据不标准化)
以下SAS程序首先调用STANDARD过程对数据作标准化变化,然后用标准化变换后的数据进行动态聚类分析。
Procstandarddata=d641mean=0std=1out=sta653;
Varx1-x6;
/*将数据集d641中的变量x1-x6标准化,输出到数据集sta653中*/
Procfastclusdata=sta653out=out654maxc=4list;
Varx1-x6;idgroup;
Run;
主要输出结果:
动态聚类的初始凝聚点(数据标准化)
动态聚类的分类结果(数据标准化)
第一类:
北京第二类:
上海
第三类:
河北、山西、内蒙、山东、河南
第四类:
天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西
三、变量聚类——VARCLUS过程
VARCLUS过程的一般格式:
PROCVARCLUS语句及选项:
数据集选项:
(1)DATA=SAS-data-set:
指定要分析的数据集,数据集可以是通常的SAS数据集或是TYPE=CORR,UCORR(矫正过的相关系数矩阵),COV,UCOV等的数据集。
(2)OUTSTAT=SAS-data-ste:
生成一个输出数据集,包含均值、标准差、相关系数、类得分系数和类的结构。
(3)OUTTREE=SAS-data-set:
生成输出数据集,包含有聚类过程的树状结构信息,可用TREE过程画树状图。
确定分类个数的选项:
(1)MAXCLUSTERS=n|MAXC=n:
规定所要求的最大分类个数,缺省为变量个数。
(2)MINCLUSTERS=n|MINC=n:
规定所要求的最小分类个数,缺省从一个类开始试着按照选项PROPORTION=或者MAXEIGEN=进行分裂分类
(3)MAXEIGEN=n:
规定每一类第二特征值所允许的最大值,缺省,若没有规定选项PROPORTION=或MAXC=,且输入数据集为相关阵时,缺省值为1;若输入数据集为协方差阵时,缺省值为变量方差的均值。
该选项不能与CENTROID同时使用
(4)PROPORTION=n|PERCENT=n:
规定类分量必须解释的方差比例或百分比。
若指定选项CENTROID,缺省为0.75,否则为0
聚类方式选项:
(1)CENTROID:
使用重心分量而不是主分量,缺省为主分量法
(2)MAXITER=n:
规定最大迭代次数,若规定了CENTROID,缺省为1,否则,缺省为10
控制输出的选项:
(1)CORR|C:
只输出相关阵
(2)NOPRINT:
不要求打印输出
(3)SHORT:
不打印类结构,得分系数和类间相关阵
(4)SIMPLE|S:
打印均值和标准差
(5)SUMMARY:
只打印最后的汇总表
(6)TRACE:
列出在迭代过程中每个变量所归入的类。
应用举例(课本P260例6.7.1)
例3:
对305名女中学生测量8项体型指标:
X1为身高,X2为手臂长,X3为手肘长,X4为小腿长,X5为体重,X6为颈围,X7为胸宽。
表6.12是由3.5名中学生的观测数据计算得到的相关系数矩阵,试对8个体型指标分类。
SAS程序:
datad672(type=corr);
title'在中学生中测量八个体型指标的相关系数';
labelx1='身高'x2='手臂长'x3='上肢长'
x4='下腿长'x5='体重'x6='颈围'
x7='胸围'x8='胸宽';
input_name_$x1-x8;
_type_='corr';
cards;
x11.000.846.805.859.473.398.301.382
x2.8461.000.881.826.376.326.277.415
x3.805.8811.000.801.380.319.237.345
x4.859.826.8011.000.436.329.327.365
x5.473.376.380.4361.000.762.730.629
x6.398.326.319.329.7621.000.583.577
x7.301.277.237.327.730.5831.000.539
x8.382.415.345.365.629.577.5391.000
;
procprint;
title;
procvarclusdata=d672;run;
程序说明:
第一个VARCLUS过程没有规定聚类的方法,缺省时用主分量聚类分析法;且没有规定选项PROPORTION=或maxc=,故以MAXEIGEN=1确定分类个数。
VARCLUS过程的主要输出结果
上表输出主分量聚类分析的基本信息和分为一类时的汇总表.包括类的序号(cluster)、类内成员个数(members)、类内的总方差(clustervariation)、由类分量所解释的方差大小(variationexplained)、由类分量解释的方差占类内总方差的比例(proptionexplained)、类中第二特征值(secondeigenvalue).
由于MAXEIGEN=n缺省,且没有规定选项PROPORTION=或maxc=,故缺省值为1,由于输出结果中第二特征值为1.7710>1,所以一类要继续分为两类。
也可看proptionexplained,缺省值为0.75,此处小于0.75,故要继续分类。
出分为两类时的汇总表和
比率。
类时第一类和第二类的第二特征值分别为0.2361和0.4764,都小于1,故分类结束,最终分为两类。
下半部分给出有关
的信息:
OwnCluster为某变量与自己所在类的类分量之间相关系数的平方,值越大,说明该变量越应该被分到该类中;
NextClosest表示某变量与最接近类的类分量相关系数的平方,值越小,说明类分得越好;
1-
Ratio等于(1-
withOwnCluster)除以(1-
withNextClosest),值越小越好。
标准得分系数
标准得分系数表示由变量预测类分量的标准回归系数。
分类结构
分类结构给出的是每个变量同每个类分量之间的相关系数。
结果显示第一类中的变量与第一个类分量的相关系数较大,与第二个类分量的相关系数较小。
类分量之间的相关系数阵和分类总结表
上半部分为类间相关系数,两类建相关系数为0.44513,相关性较小。
procvarclusdata=d672maxc=8summaryouttree=o672;run;
proctreedata=o672horizontalgraphics;
run;
程序解释说明:
选项maxc=8规定最大分类个数为8;
VARCLUS过程使用选项outtree=o772,表示用谱系聚类方法,产生的输出数据集o772用于画谱系图;
选项summary限制只打印一张最大分类数为8(maxc=8)的汇总表;
TREE过程用于画谱系聚类图。
VARCLUS过程只输出1-8类分类结果的总结表。
8个变量的谱系聚类图
从谱系聚类图可以看出,8个体型指标变量分为两类比较合适。
第一类:
X1(身高),X2(手臂长),X3(手肘长),X4(小腿长),表示体型的高矮变量类。
第二类:
X5(体重),X6(颈围),X7(胸围),X8(胸宽),表示体型的胖瘦变量类。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析快速聚类和变量聚类 上机指导 聚类分析 快速 变量 上机 指导