书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 管理学 > 聚类分析步骤.docx

聚类分析步骤.docx

文档编号：8955664
上传时间：2023-02-02
格式：DOCX
页数：15
大小：120.06KB

聚类分析步骤.docx

《聚类分析步骤.docx》由会员分享，可在线阅读，更多相关《聚类分析步骤.docx（15页珍藏版）》请在冰豆网上搜索。

聚类分析步骤.docx

聚类分析步骤

以教材第五章习题8的数据为例，演示并说明聚类分析的详细步骤:

原始数据的输入:

丈件（D霸甸〔口锻国（蜀散惭直I转快（D分折（幻圈解〔⑤密坏賤序〔史Mt加内容（Q）SUM帮肋

S暗事？

*™S?

鮒*fflft韶亟蔚粤箱「专

21；衣甫

地区

食品

农看

燃料

住房

交適和通讯

娱乐朝育文化

1

北京

19033

4377

973

50.54

49,01

9.04

2

13520

35.40

10.47

U.1B

3643

3.94

3

河北

95.21

2283

9.30

22.44

2281

2.60

4

山西

10476

2511

6.40

9.89

16.U

325

5

内蒙占

123.41

27.63

8.94

12.53

23.99

2.27

6

辽宁

145,58

32.B3

1779

27.29

3S.09

3.47

7

吉林

159.37

3338

10.37

11.81

25.29

5.22

8

黒挖江

116.22

23.57

13.24

1376

21.75

阿

日

上海

221.11

33.54

12.53

115.65

60.82

5.89

W

江苏

114.98

29.12

1167

42.60

27.30

574

11

浙江

）69,92

3275

12.72

47.12

34.35

5.00

2

安渤

135,11

23.09

15.G2

235A

16.20

6.39

13

福建

144.92

21.2B

16.96

19.62

2175

6.37

14

U0.64

21.60

17.6J

19.19

15刃

4.9J

15

山东

115.84

3EJ26

12.20

33.60

3377

3.E5

16

河南

101;：

18

232G

8.46

20.20

20.50

4.30

11

.选项操作:

1.打开SPSS的“分析”-“分类”-“系统聚类”,

打开“系统聚类”对话框。

把“食品”、“衣着”等6变量输入待分析变量框；把“地区”输入“标注个案”；“分群”选中“个案”；“输出”选中“统计量”和“图”。

（如下图）

密Ife鸟駝£臭

*I必炮区

H-q

I1

E

曲前

输出

v熨计養y岡

相关说明:

（1）系统聚类法是最常用的方法，其他的方法较少使用。

（2）“标注个案”里输入“地区”，在输出结果的距离方阵和聚类树状图里会显示出“北京”、“天津”等，否则SPSS自动用“1”、“2”等代替。

（3）“分群”选中“个案”，也就是对北京等16个样本进行分类，而不是对食品等6个变量分类。

（4）必须选中“输出”中的“统计量”和“图”。

在该例中会输出16个地区的欧氏距离方阵和聚类树状图。

2.设置分析的统计量

打开最右上角的“统计量”对话框，选中“合并进程表”和“相似性矩阵”“聚类成员”选中“无”。

然后点击“继续”。

打开第二个“绘制”对话框，必须选中“树状图”，其他的默认即可

打开第三个对话框“方法”：

聚类方法选中“最邻近元素”；“度量标准”

选中“区间”的“欧氏距离”；“转换值”选中“标准化”的“Z得分”，并且

是“按照变量”。

度量祈准

+区町（LD：

Euclidean肚屈

7"T

计徹D；

卡方度豪

▼

二鼻細

^?

TEuclicteeri

■

转换佰

标醸他①：

e洛、

n按片薇

转换度晁

□

□国康苻脊on

□亶丽柝.度到0^1金曲日

在〔已|i|祁祎粧也：

|g|

打开第四个对话框“保存”，“聚类成员”选默认的“无”即可三•分析结果的解读：

按照SPSS俞出结果的先后顺序逐个介绍：

1.欧氏距离矩阵：

是16个地区两两之间欧氏距离大小的方阵，该方阵是应用各种聚类方法进行聚类的基础。

ProximityMatrix

Case

EuclideanDistance

1:

北京

2:

天津

3:

河北

4:

山西:

i：

内蒙古

6:

辽宁

7:

吉林

8:

黑龙江

9:

上海

10:

江苏

11:

浙江

12:

安徽

13:

福建

14:

江西

15:

山东

16:

河南

1:

北京

.000

3.839

6.289

6.223

5.831

4.734

4.691

4.793

3.131

4.300

3.404

5.251

5.339

5.981

4.681

5.821

2:

天津

3.839

.000

2.911

3.108

2.390

2.190

2.892

2.581

4.153

1.881

1.473

3.400

3.631

3.701

1.280

2.888

3:

河北

6.289

2.911

.000

1.134

1.324

3.493

3.789

2.515

6.544

2.328

3.420

2.992

3.304

2.979

1.961

.960

4:

山西

6.223

3.108

1.134

.000

1.318

4.051

4.040

2.606

6.803

2.620

3.638

3.276

3.665

3.420

2.482

.989

5:

内蒙古

5.831

2.390

1.324

1.318

.000

3.050

3.326

2.558

6.092

2.513

2.891

3.178

3.432

3.091

1.840

1.652

6:

辽宁

4.734

2.190

3.493

4.051

3.050

.000

1.800

2.764

4.700

2.677

1.984

3.060

2.955

2.902

1.881

3.662

7:

吉林

4.691

2.892

3.789

4.040

3.326

1.800

.000

2.052

5.247

2.619

2.215

2.146

2.088

2.110

2.565

3.606

8:

黑龙江

4.793

2.581

2.515

2.606

2.558

2.764

2.052

.000

5.797

1.290

2.470

1.406

1.843

2.041

1.887

1.972

9:

上海

3.131

4.153

6.544

6.803

6.092

4.700

5.247

5.797

.000

4.936

3.519

5.834

5.826

6.191

4.986

6.402

10:

江苏

4.300

1.881

2.328

2.620

2.513

2.677

2.619

1.290

4.936

.000

1.917

1.922

2.321

2.567

1.330

1.880

11:

浙江

3.404

1.473

3.420

3.638

2.891

1.984

2.215

2.470

3.519

1.917

.000

2.743

2.826

3.071

1.857

3.221

12:

安徽

5.251

3.400

2.992

3.276

3.178

3.060

2.146

1.406

5.834

1.922

2.743

.000

.650

1.086

2.613

2.508

13:

福建

5.339

3.631

3.304

3.665

3.432

2.955

2.088

1.843

5.826

2.321

2.826

.650

.000

1.025

2.824

2.913

14:

江西

5.981

3.701

2.979

3.420

3.091

2.902

2.110

2.041

6.191

2.567

3.071

1.086

1.025

.000

2.805

2.798

15:

山东

4.681

1.280

1.961

2.482

1.840

1.881

2.565

1.887

4.986

1.330

1.857

2.613

2.824

2.805

.000

2.041

16:

河南

5.821

2.888

.960

.989

1.652

3.662

3.606

1.972

6.402

1.880

3.221

2.508

2.913

2.798

2.041

.000

Thisisadissimilaritymatrix

2.合并进程表：

主要看前四列，现在以前三个步骤为例说明合并过程：

第一步，样本12和

样本13合并，此时系数为0.650;第二步，样本3和样本16合并，此时系数为0.960;第三步，样本3（实际上是第二步样本3和16组成的新类）和样本4合并，此时系数为0.989;以此类推。

AgglomerationSchedule

Stage

ClusterCombined

Coefficients

StageClusterFirstAppears

NextStage

Cluster1

Cluster2

Cluster1

Cluster2

1

12

13

.650

0

4

2

3

16

.960

0

u

3

4

.989

2

0

7

4

12

14

1.025

1

0

cw

5

2

15

1.280

0

8

6

8

10

1.290

0

8

7

3

5

1.318

3

0

12

8

2

8

1.330

5

6

cw

9

2

12

1.406

8

4

1C

10

2

11

1.473

9

0

12

11

6

7

1.800

0

13

12

2

3

1.840

10

7

13

2

6

1.881

12

11

15

14

1

9

3.131

0

15

1

2

3.404

14

13

0

3.冰柱：

左侧是分组数目，上侧是被分组的样本，样本之间由等距的间隔分开，间隔被填充的，说明相邻两样本合并为一组，没有被填充就不被合并。

按照此规则，首先从下往上看，当分为15类时，只有样本13和12合并了，其余的各自是一类；当分为10类时，从左到右依次是（7）,（6）,（5）,（4，16,3）,（11）,（14,13,12）,（10,8）,（15,2）,（9）,

（1）;其他的分组数目时以此类推。

（该冰柱的分组数目有2.5、7.5、12.5等含有半组的情况，不需要掌握。

）

s」*sn-u苫

4.树状图:

Dendrogram

+；+=^+++：

*=（!

^+^^*+*++p|f+HIERARCHTCALCLUSr

D&tidiogramusingSingleLinkage

RescaledDistanceClusherComtune

LabelHum.4

安徽12+

福律13-+十

江西14+

天津24+|

L1J东15T|-J+

慝龙江6+丨I

江苏to+iI

浙江Li十

河北3亠+I|

河南16+H+|■+-b

山西4+H十II

内蔬古5+II

辽宁614|

吉林7+|

北京1"^+

_g°—■—卜

这是分类结果最后的树状图，把整个分类情况一目了然地呈现出来了。

最上面的是标尺，数字0-25是大致按照距离比例重新标定的数值，不影响对分类结果的观察与结论。

解读此图的方法是：

每个样本的右侧都是虚线，虚线的端点处是“+”，说明该样本在此和另一个样本或者组（它也有上下相对齐的“+”）合

并为一类。

女口：

安徽和福建在对应标尺1附近时合并为一类，之后与江西在标尺数值4附近合并为一类。

天津、山东、黑龙江、江苏四个样本的“+”看起来好

像是统一对齐的，其实不是，实际情况是：

天津和山东在1.280（欧氏距离）处

对齐，黑龙江和江苏在1.290（欧氏距离）处对齐。

总说明：

1.聚类分析从数学上讲不是很严谨，所以采用不同的统计量和采取不同的聚类方法，聚类结果可能有较大的差异。

但是只要整个分析过程没有错误就是完整正确的，聚类结果都是认可的。

（本例中，原始数据首先进行标准差标准化，再求欧氏距离方阵，聚类方法采取的是最短距离法。

）

2.聚类分析的最终结果自然是分类，除了SPSS输出的树状图，最好自己再做

出Word格式的分类表，具体分为几类，自己看情况而定。

譬如该例子就可以分为4类或5类。

3.聚类分析只是分类，并不能进行评判（如发展水平高低等），如要评判各样本应结合主成分分析、因子分析等方法共同进行。

其分类结果也不一定按照聚类分析的结果为准，可以结合主成分分析、因子分析的结果进行修正。

最短距离法具体计算方法及步骤

在系统聚类法中，最短距离法应用比较广泛。

计算过程一般是首先对原始数据进行标准化处理，再计算初始欧氏距离矩阵，然后应用最短距离法聚类。

假设有6个样本的初始欧氏距离矩阵如下：

G1

G2

G3

G4

G5

G6

0

0.375

0

D（o）=0.483

0.776

0

1.749

1.596

1.926

0

1.516

1.336

1.662

0.501

0

1.972

1.743

2.154

0.693

0.589

0

（系统聚类法在聚类之前把每个样本看成一组，用G1,G2,….代替。

在该矩阵中，第i行和第i列都代表第i组，在左侧括号的外面应该自上到下依次是G1,G2，…,G6,因为word中不好输入，所以省略了。

）

在初始距离系数矩阵的基础上，用最短距离法分类的具体步骤是：

1.在初始距离系数矩阵D⑼中，选出距离数值最小者，即di2=0.375，把第一类G1和第二类G2合并为一个新类G7,记为G7={G1，G2}。

再利用最短距离法计算新类G7与其他各类G3,G4,G5,G6的距离，得

d73=min{di3,d23}=min{0.483,0.776}=0.483

d74=min{di4,d24}=min{1.749,1.596}=1.596

d75=min{d15,d25}=min{1.516,1.336}=1.336

d76=min{d16,d26}=min{1.972,1.743}=1.743

形成距离系数矩阵D⑴

G7

G3

G4

G5

G6

0

0.483

0

D

（1）

1.596

1.926

0

1.336

1.662

0.501

0

1.743

2.154

0.693

0.589

0

2.在矩阵D

（1）中，选出距离数值最小者，即d73=0.483,这时G7和G3合并为一个新类G8,记为G8={G7,G3}。

再利用最短距离法计算新类G8与其他各类G4,G5,G6的距离，得

D84=min{d34,d74}=min{1.926,1.596}=1.596

D85=min{d35,d75}=min{1.662,1.336}=1.336

D86=min{d36,d76}=min{2.154,1.743}=1.743

形成距离系数矩阵D⑵。

G8

G4

G5

G6

0

⑵1.596

D（2

0

1.336

0.501

0

1.743

0.693

0.589

0

3.在矩阵D⑵中，选出距离数值最小者，即d45=0.501，这时G4和G5合并为一个新类G9,记为G9={G4,G5}。

再利用最短距离法计算新类G9与其他各类G8,G6的距离，得

D98=min{d48,d58}=min{1.596,1.336}=1.336

D96=min{d46,d56}=min{0.693,0.589}=0.589形成距离系数矩阵D（3）。

G8G9G6

0

D⑶1.3360

1.7430.5890

4.在矩阵D⑶中，选出距离数值最小者，即d69=0.589,这时G6和G9合并为一个新类G10，记为G10={G6，G9}。

再利用最短距离法计算新类G10与G8的距离，得

Di0,,8=min{d68,d98}=min{1.743,1.336}=1.336

形成距离系数矩阵D⑷。

G8G10

D⑷

0

1.3360

由矩阵D⑷可以看出，G8和G10在距离系数为1.336时合并成一类G11类。

记为G11={G8，G10}，至此聚类完毕。

最后绘出分类谱系图（草图）：

（左侧竖线是距离标尺，每格数值0.2,因不好标注，所以未标出。

谱系图中的短横线自下而上依次表示G7，G8，G9，G10，G11聚类时的数值，也应该标出。

）

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 聚类分析步骤

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：聚类分析步骤.docx
链接地址：https://www.bdocx.com/doc/8955664.html

聚类分析步骤.docx

热门标签