SPSS操作方法聚类分析.docx
- 文档编号:24183117
- 上传时间:2023-05-25
- 格式:DOCX
- 页数:20
- 大小:151.22KB
SPSS操作方法聚类分析.docx
《SPSS操作方法聚类分析.docx》由会员分享,可在线阅读,更多相关《SPSS操作方法聚类分析.docx(20页珍藏版)》请在冰豆网上搜索。
SPSS操作方法聚类分析
实验指导之一
聚类分析的SPSS操作方法
系统聚类法
实验例城镇居民消费水平通常用下表中的八项指标来描述。
八项指标间存在一定的线性相关。
为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。
实验数据表2001年30个省。
市,自治区城镇居民月平均消费数据
x1人均粮食支出(元/人)x5人均衣着商品支出(元/人)
x2人均副食支出(元/人)x6人均日用品支出(元/人)
x3人均烟、酒、茶支出(元/人)x7人均燃料支出(元/人)
x4人均其他副食支出(元/人)x8人均非商品支出(元/人)
x1
x2
x3
x4
x5
x6
x7
x8
北京
天津
河北
山西
内蒙古
辽宁
吉林
黑龙江
上海
江苏
浙江
安徽
福建
江西
山东
河南
湖北
湖南
13.23
广东
广西
海南
四川
贵州
云南
西藏
陕西
甘肃
青海
宁夏
新疆
系统聚类法的SPSS操作:
1.从数据编辑窗口点击Analyze→Classify→HierachicalCluster,(见图1)
图1系统聚类法
打开层次聚类法对话如图2。
图2系统聚类法对话框
选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:
Cases对样品聚类(Q型;系统默认),
Variable对指标变量聚类(R型),本例选择。
在Display栏中选择默认的输出项。
2.点击Statistics按钮,打开对话框如图3.
图3Statistics对话框
Agglomerationschedule输出凝聚状态表(聚类进度表);本例选择。
Ploximitymatrix输出个体间的距离矩阵,本例选择。
ClusterMembership栏中显示每个观测量被分派到的类。
None不输出。
本例选择。
Simplesolution指定分类数,并输出样本所属类,单一解。
Rengeofsolution指定输出从m到n类的各样本所属类。
多个解。
选好后返回主对话框。
3.单击Method按钮,打开对话框如图4-1.
ClusterMethod:
选择聚类方法:
SPSS中提供7种聚类方法,分别是:
类间平均,类内平均,最短距离,最长距离,重心法,中值法,最小平方和法。
本例选择类间平均。
Measure栏:
对距离的测度方法选择
SPSS中提供了三种类型:
Interval等间距度量的变量(连续型),Counts计数型变量(离散型)和Binary二值变量。
Interval等间隔测度的变量方法包括:
Euclideandistance欧氏距离;
SquaredEuclideandistance欧氏平方距离;
Cosine夹角余弦(R型聚类);
PearsonCorrelation皮尔逊相关系数距离(R型聚类),本例选择此项。
Chebychev契比雪夫距离;
block距离;
Minkowski明氏距离;
Customized用户自定义距离--即变量绝对值的第p次幂之和的第r次根。
p与r由用户指定。
图4-1Method对话框
TransformValues栏,选择消除数量级差的方法(见图4-2),依次是:
None不作处理(系统默认);本例选择此项。
Zscores标准化处理;
Range-1to1各变量值除全距;
Range0to1各变量值减最小值后除全距;
Maximummagnitudeof1各变量值除最大值;
Meanof1各变量值除以均值;
Standarddeviationof1各变量值除以标准差。
图4-2Method对话框
4.单击Plots按钮,打开对话框如图5.
图5Plots对话框
Dendrogram表示输出树形图,本例选择此项。
Icicle表示输出冰柱图。
其中,
Allclusters表示输出聚类分析每个阶段的冰柱图;本例选择此项。
Specifiedrangeofcluster表示只输出某个阶段的冰柱图,输入从第几步开始到第几步结束,中间间隔几步。
Orientationk栏中指定如何显示冰挂图:
Vertical纵向显示,本例选择此项。
Horizontal横向显示。
图6SaveNewVariables对话框
5.单击Save按钮,打开SaveNewVariables对话框,如图6所示。
选择是否将聚类的结果以变量形式保存在数据文件中。
变量名为:
clun_m,其中n表示类数,m表示第m次分析。
ClusterMembership栏
None不输出
Simplesolution指定分类数,并输出样本所属类。
单一变量。
Rengeofsolution指定输出从m到n类的各样本所属类。
多个变量。
当选择结束后,在主对话框中点击OK,可得下面的输出表和图。
ProximityMatrix两两变量间距离矩阵(相关系数矩阵)
Case
MatrixFileInput
人均粮食支出(元/人)
人均副食支出(元/人)
人均烟、酒、茶支出(元/人)
人均其他副食支出(元/人)
人均衣着商品支出(元/人)
人均日用品支出(元/人)
人均燃料支出(元/人)
人均非商品支出(元/人)
人均粮食支出(元/人)
.000
.334
.197
.349
.319
人均副食支出(元/人)
.334
.000
.399
.716
.414
.835
人均烟、酒、茶支出(元/人)
.000
.533
.497
.033
人均其他副食支出(元/人)
.399
.533
.000
.698
.478
.313
人均衣着商品支出(元/人)
.497
.698
.000
.284
人均日用品支出(元/人)
.197
.716
.033
.478
.284
.000
.408
.710
人均燃料支出(元/人)
.349
.414
.408
.000
.399
人均非商品支出(元/人)
.319
.835
.313
.710
.399
.000
AverageLinkage(BetweenGroups)类间平均
AgglomerationSchedule凝聚状态进度表;
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
1
2
8
.835
0
0
2
2
2
6
.713
1
0
5
3
4
5
.698
0
0
4
4
3
4
.515
0
3
7
5
2
7
.407
2
0
6
6
1
2
.299
0
5
7
7
1
3
.004
6
4
0
凝聚状态进度表:
第一列(Stage)表示聚类的进度顺序;第二、三列(Clustercombine)表示每一步将哪两类合并;第四列(Cofficients)表示被合并的两类之间的距离;第五、六列(StageClusterFirstAppares)表示被合并的两类上一次合并分别是在哪一步形成的。
0表示被合并的类为单个样品。
最后一列(NextStage)表示每一步形成的新类将在哪一步参与下一次合并。
VerticalIcicle冰柱图
Numberofclusters
Case
人均衣着商品支出(元/人)
人均其他副食支出(元/人)
人均烟、酒、茶支出(元/人)
人均燃料支出(元/人)
人均日用品支出(元/人)
人均非商品支出(元/人)
人均副食支出(元/人)
人均粮食支出(元/人)
1
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
X
X
X
X
X
X
X
X
X
X
X
X
X
X
3
X
X
X
X
X
X
X
X
X
X
X
X
X
4
X
X
X
X
X
X
X
X
X
X
X
X
5
X
X
X
X
X
X
X
X
X
X
X
6
X
X
X
X
X
X
X
X
X
X
7
X
X
X
X
X
X
X
X
X
Dendrogram表示输出树形图(谱分析图)
******HIERARCHICALCLUSTERANALYSIS******
DendrogramusingAverageLinkage(BetweenGroups类间平均)
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
X22
X88
X66
X77
X11
X44
X55
X33
二:
K-聚类法的具体操作
以例为例,说明快速聚类法的操作过程。
1.在数据窗口单击Analyze→Classify→K-MeanCluster打开对话框(见图7)
图7K-MeansClusterAnalysis对话框
将变量选入Variables栏;
将标识变量选入LabelCases栏(可省略)
将分类数输入Numberof框(系统默认为2),本例中选择4.
Method栏聚类方法栏
Iterateandclassify(按K-means算法)叠代分类(系统默认)。
Classifyonly仅按初始类别中心点分类(不叠代)。
Centers类中心数据的输入与输出(可省略)
Readinitialfrom使用指定数据文件中的数据作为初始类中心(文件格式参考Writefinalas文件格式)
选择Writefinalas把聚类结果中的各类中心数据保存到指定的文件。
本例中选择系统默认项。
2.单击Iterate按钮,打开Iterate对话框如图8所示:
MaximumIterations限定K-Means算法的迭代次数,系统默认值10
ConvergenceCriterion-指定限定收敛标准,系统默认值为0。
Userunningmeans限定在每个观测量被分配到一类后即刻计算新的类中心,不选此项表示只有当全部样本的类分配完后再计算类中心,可以节省运算时间,所以一般情况下不选择此项。
本例中选择默认项。
图8Iterate对话框
3.单出Save按钮,打开Save对话框见图9.
ClusterMember在原数据文件中保存分类结果(本例选择)。
Distancefromclustercenter在原数据文件中保存各观测量距所属类中心间的欧氏距离。
图9Save对话框
4.单击Options按钮,打开Options对话框见图10。
Statistics栏
Initialclustercenters输出初始类中心。
ANOVAtable输出方差分析表
Clusterinformationforeachcase每个观测量的分类信息(分类结果和该观测量距所属类中心的距离等)
图10Options对话框
MissingValues栏
Excludecaseslistwise将出现在Variables变量表中变量带有缺失值得观测量从分析中剔除(系统默认)
Excludecasespairwise只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除,否则根据所有其他非缺失变量值把它分配到最近的一类中去。
全部选择完成后得到输出结果。
InitialClusterCenters初始类中心
Cluster
1
2
3
4
x1人均粮食支出(元/人)
x2人均副食支出(元/人)
x3人均烟、酒、饮料支出(元/人)
x4人均其他副食支出(元/人)
x5人均衣着支出(元/人)
x6人均日用杂品支出(元/人)
x7人均水电燃料支出(元/人)
x8人均其他非商品支出(元/人)
IterationHistorya迭代过程表
Iteration
ChangeinClusterCenters
1
2
3
4
1
.000
2
.000
.000
3
.000
.000
.000
.000
a.Convergenceachievedduetonoorsmallchangeinclustercenters.Themaximumabsolutecoordinatechangeforanycenteris.000.Thecurrentiterationis3.Theminimumdistancebetweeninitialcentersis.
ClusterMembership(聚类结果)
CaseNumber
地区
Cluster
Distance
1
北京
1
2
天津
3
3
河北
4
4
山西
4
5
内蒙古
4
6
辽宁
4
7
吉林
4
8
黑龙江
4
9
上海
1
10
江苏
3
11
浙江
1
12
安徽
4
13
福建
3
14
江西
4
15
山东
4
16
河南
4
17
湖北
4
18
湖南
3
19
广东
2
.000
20
广西
4
21
海南
4
22
重庆
3
23
四川
4
24
贵州
4
25
云南
4
26
西藏
3
27
陕西
4
28
甘肃
4
29
青海
4
30
宁夏
4
31
新疆
4
聚类结果中的第四列显示的是各样本与其所属类的中心之间的距离。
上述结果可通过“save”按钮设置,保存至原始数据文件中。
FinalClusterCenters类中心
Cluster
1
2
3
4
x1人均粮食支出(元/人)
x2人均副食支出(元/人)
x3人均烟、酒、饮料支出(元/人)
x4人均其他副食支出(元/人)
x5人均衣着支出(元/人)
x6人均日用杂品支出(元/人)
x7人均水电燃料支出(元/人)
x8人均其他非商品支出(元/人)
ANOVA方差分析表
Cluster
Error
F
Sig.
MeanSquare
df
MeanSquare
df
x1人均粮食支出(元/人)
3
27
.082
x2人均副食支出(元/人)
3
27
.000
x3人均烟、酒、饮料支出(元/人)
3
27
.003
x4人均其他副食支出(元/人)
3
27
.000
x5人均衣着支出(元/人)
3
27
.003
x6人均日用杂品支出(元/人)
3
27
.000
x7人均水电燃料支出(元/人)
3
27
.001
x8人均其他非商品支出(元/人)
3
27
.000
TheFtestsshouldbeusedonlyfordescriptivepurposesbecausetheclustershavebeenchosentomaximizethedifferencesamongcasesindifferentclusters.Theobservedsignificancelevelsarenotcorrectedforthisandthuscannotbeinterpretedastestsofthehypothesisthattheclustermeansareequal.
由输出结果知,8个变量指标中除了第一个变量外,其它指标对分类的贡献是显著的。
DistancesbetweenFinalClusterCenters最终各类中心之间的距离矩阵
Cluster
1
2
3
4
1
2
3
4
NumberofCasesineachCluster最终每类的样品个数
Cluster
1
2
3
4
Valid
Missing
.000
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 操作方法 聚类分析