书签分享收藏举报版权申诉 / 18

立即下载加入VIP,免费下载

当前位置：首页 > 农林牧渔 > 林学 > 应用多元统计分析习题解答聚类分析Word下载.docx

应用多元统计分析习题解答聚类分析Word下载.docx

文档编号：20548229
上传时间：2023-01-23
格式：DOCX
页数：18
大小：45.56KB

《应用多元统计分析习题解答聚类分析Word下载.docx》由会员分享，可在线阅读，更多相关《应用多元统计分析习题解答聚类分析Word下载.docx（18页珍藏版）》请在冰豆网上搜索。

应用多元统计分析习题解答聚类分析Word下载.docx

K—均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的。

不同：

系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

具体类数的确定，离不开实践经验的积累；

有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K—均值法确定类数的参考。

5.6试述K均值法与系统聚类有何区别？

试述有序聚类法的基本思想。

K均值法的基本思想是将每一个样品分配给最近中心（均值）的类中。

系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

具体类数的确定，有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。

如果用X山,X⑵,…,Xg表示"

个有序的样品，则每一类必须是这样的形式，即X”）,X“+”「X『，其中1<

/<

«

且j<

n,简记为G,={H+1,…J}。

在同一类中的样品是次序相邻的。

一般的步骤是

（1）计算直径{D（i,j）}o

（2）计算最小分类损失函数{L[p（l,k）]}o（3）确定分类个数k。

（4）最优分类。

5.7检测某类产品的重量，抽了六个样品，每个样品只测了一个指标，分别为1,2,

3,6,9,11.试用最短距离法，重心法进行聚类分析。

（1）用最短距离法进行聚类分析。

采用绝对值距离，汁算样品间距离阵Dyqy

gi0

G210

由上表易知Dyw中最小元素是于是将G],G2,Gm聚为一类，记为G?

计算距离阵Dyiy

G70

G430

Gs630

G68520

Dyht中最小元素是二2于是将Gs聚为一类，记为Gg

计算样本距离阵DY2Y

。

钉—£

b—3

（2）用重心法进行聚类分析

计算样品间平方距离阵D'

yoy

易知D'

yqy中最小元素是于是将6,G2,G3聚为一类，记

为G?

计算距离阵D'

yiy

G4160

Gs4990

G6812540

注：

计算方法，其他以此类推。

D'

yiy中最小元素是°

256=4于是将G5,G&

聚为一类，记为Gg

计算样本距离阵D2Y2Y

Gs64160

D2¥

2Y中最小元素是于是将聚为一类，记为Gg

因此,

5.8下表是13个上市公司2001年的一些主要财务指标，使用系统聚类法和K—均值法分别对这些公司进行聚类，并对结果进行比较分析。

公司

编号

净资

产收

益率

每股

净利

润

总资

产周

转率

资产负

债率

流动

负债

比率

产

净利润

增长率

总资产

11.09

0.21

0.05

96.98

70.53

1.86

-44.04

81.99

2

11.96

0.59

0.74

51.78

90.73

4.95

7.02

16.11

3

0.03

181.99

100

2.98

103.33

21.18

11.58

0.13

0.17

46.07

92.18

1.14

6.55

-56.32

5

-6.19

0.09

43.3

82.24

1.52

-1713.5

-3.36

6

10

0.47

0.48

68.4

86

4.7

-11.56

0.85

7

10.49

0.11

0.35

82.98

99.87

1.02

100.23

30.32

8

11.12

1.69

0.12

132.14

0.66

4454.39

-62.75

9

3.41

0.04

0.2

67.86

98.51

1.25

-11.25

-11.43

1.16

0.01

0.54

43.7

1.03

-87.18

-7.41

11

30.22

0.16

0.4

87.36

94.88

0.53

729.41

-9.97

12

8.19

0.22

0.38

30.31

2.73

-12.31

-2.77

13

95.79

-5.2

0.5

252.34

99.34

5.42

9816.52

-46.82

14

16.55

0.93

72.31

84.05

2.14

115.95

123.41

15

24.18

0.79

56.26

97.8

4.81

-533.89

-27.74

解:

令净资产收益率为XI,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下：

a）系统聚类法：

1.在SPSS窗口中选择Analyze-*Classify-*HierachicalCluster.调出系统聚类分析主界面，并将变量X1-X8移入Variables框中。

在Cluster栏中选择Cases单选按钮，即对样品进行聚类（若选择Variables,则对变量进行聚类）。

在Display栏中选择Statistics和Plots复选框，这样在结果输出窗口中可以同时

得到聚类结果统讣量和统汁图。

图5.1系统分析法主界面

2•点击Statistics按钮，设置在结果输出窗口中给岀的聚类分析统计量。

我们选择Agglomerationschedule与ClusterMembership中的Rangeofsolution2-4,如图5.2所示，点击Continue按钮，返回主界面。

（其中，Agglomerationschedule表示在结果中给出聚类过程表，显示系统聚类的详细步骤；

Proximitymatrix表示输出各个体之间的距离矩阵；

ClusterMembership表示在结果中输出一个表，表中显示每个个体被分配到的类别，Rangeofsolution2-4即将所有个体分为2至4类。

）

3.点击Plots按钮，设置结果输出窗口中给出的聚类分析统讣图。

选中Dendrogram

复选框和Icicle栏中的None单选按钮，如图5.3,即只给出聚类树形图，而不给出冰柱图。

单击Continue按钮，返回主界面。

图5.2Statistics子对话框图5.3Plots子对话框

4.点击Method按钮，设置系统聚类的方法选项。

ClusterMethod下拉列表用于指定

聚类的方法，这里选择Between-groupinkage（组间平均数连接距离）；

Measure栏用于选择对距离和相似性的测度方法，选择SquaredEuclideandistance（欧氏距离）：

图5.4Method子对话框图5.5Save子对话框

5.点击Save按钮，指定保存在数据文件中的用于表明聚类结果的新变量。

None表示

不保存任何新变量；

Singlesolution表示生成一个分类变量，在其后的矩形框

中输入要分成的类数：

Rangeofsolutions表示生成多个分类变量。

这里我们选择Rangeofsolutions»

并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量，分别表明将样品分为2类、3类和4类时的聚类结果，如图5.5。

点击Continue*返回主界面。

6.点击0K按钮，运行系统聚类过程。

聚类结果分析：

下面的群集成员表给出了把公司分为2类，3类，4类时各个样本所属类别的悄况，另外，

从右边的树形图也可以直观地看到，若将15个公司分为2类，则13独自为一类，其余的为一类；

若分为3类，则公司8分离出来，自成一类。

以此类推。

表5.1各样品所属类别表

图5.6聚类树形图

b）K均值法的步骤如下：

1.在SPSS窗口中选择Analyze-*Classify-*K-MeansCluster.调出K均值聚类分析主界面，并将变量X1-X8移入VariablesIS中。

在Method框中选择Iterateclassify,即使用K-means算法不断计算新的类中心，并替换旧的类中心（若选择Classifyonly,则根据初始类中心进行聚类，在聚类过程中不改变类中心）。

在NumberofCluster后面的矩形框中输入想要把样品聚成的类数，这里我们输入3,即将15个公司分为3类。

（Centers按钮，则用于设置迭代的初始类中心。

如果不手工设置，则系统会自动设置初始类中心，这里我们不作设置。

2.点击Iterate按钮，对迭代参数进行设置。

MaximumIterations参数框用于设定

K-means算法迭代的最大次数，输入10,ConvergenceCriterion参数框用于设定算法的收敛判据，输入0,只要在迭代的过程中先满足了其中的参数，则迭代过程就停止。

单击Continue,返回主界面。

图5.8Iterate子对话框

3.点击Save按钮，设置保存在数据文件中的表明聚类结果的新变量。

我们将两个复

选框都选中，其中Clustermembership选项用于建立一个代表聚类结果的变量，默认变量名为qcl_l：

Distancefromclustercenter选项建立一个新变量，代表各观测量与其所属类中心的欧氏距离。

单击Continue按钮返回。

图5.9Save子对话框

4.点击Options按钮，指定要计算的统计量°

选中Initialclustercenters和

Clusterinformationforeachcase复选框。

这样，在输出窗口中将给出聚类的初始类中心和每个公司的分类信息，包括分配到哪一类和该公司距所属类中心的距离。

单击Continue返回。

图5.10Options子对话框

5.点击0K按钮，运行K均值聚类分析程序。

聚类结果分析:

以下三表给出了各公司所属的类及其与所属类中心的距离，聚类形成的类的中心的各变量值以及各类的公司数。

由以上表格可得公司13与公司8各自成一类，其余的公司为一类。

通过比较可知，两种聚类方法得到的聚类结果完全一致。

5.9下表是某年我国16个地区农民支出情况的抽样调查数据，每个地区调查了反映每人平均生活消费支出情况的六个经济指标。

试通过统计分析软件用不同的方法进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。

地区

食品

衣着

燃料

住房

交通和

通讯

娱乐教

育文化

北京

190.33

43.77

9.73

60.54

49.01

9.04

天津

135.2

36.4

10.47

44.16

36.49

3.94

河北

95.21

22.83

9.3

22.44

22.81

2.8

山西

104.78

25.11

6.4

9.89

18.17

3.25

内蒙

128.41

27.63

8.94

12.58

23.99

2.27

辽宁

145.68

32.83

17.79

27.29

39.09

3.47

吉林

159.37

33.38

18.37

11.81

25.29

5.22

黑龙

江

116.22

29.57

13.24

13.76

21.75

6.04

上海

221.11

38.64

12.53

115.65

50.82

5.89

江苏

144.98

29.12

11.67

42.6

27.3

5.74

浙江

169.92

32.75

12.72

47.12

34.35

安徽

135.11

23.09

15.62

23.54

18.18

6.39

福建

144.92

21.26

16.96

19.52

6.73

江西

140.54

21.5

17.64

19.19

15.97

4.94

山东

115.84

30.26

12.2

33.6

33.77

3.85

河南

101.18

23.26

8.46

20.2

20.5

4.3

令食品支出为XI,衣着支出为X2,燃料支出为X3,住房支岀为X4,交通和通讯支出为X5,娱乐教育文化支出为X6,用spss对16各地区聚类分析的步骤如5.8题，不同的方法在第4个步骤的Method子对话框中选择不同的Clustermethodo

1.Between-groupinkage（组间平均数连接距离）

上表给出了把全国16个地区分为2类、3类和4类时，各地区所属的类别，另外从右边的树形图也可以直观地观察到，若用组间平均数连接距离将这些地区分为3类，则9（上海）独自为一类，1（北京）和11（浙江）为一类，剩余地区为一类。

2.Within-grouplinkage（组内平均连接距离）

若用组内平均数连接距离将这些地区分为3类，则9（上海）独自为一类，1（北京）独自为一类，剩余地区为一类。

3.Nearestneighbor（最短距离法）

若用最短距离法将这些地区分为3类，则9（上海）独自为一类，1（北京）独自为一类，剩余地区为一类。

4.Furthestneighbor（最远距离法）

若用最远距离法将这些地区分为3类，则9（上海）独自为一类，1（北京）和11（浙江）为一类，剩余地区为一类。

5.Centroidcluster（重心法）

若用重心法将这些地区分为3类，则9（上海）独自为一类，1（北京）和11（浙江）为一类，剩余地区为一类。

6.Mediancluster（中位数距离）

若用中位数距离法将这些地区分为3类，则9（上海）独自为一类，1（北京）和11（浙江）为一类，剩余地区为一类。

7.Wardmethod（离差平方和）若用离差平方和法将这些地区分为3类，则9（上海），1（北京）和11（浙江）为一类，2（天津）、6（辽宁）、7（吉林）、10（江苏）、12（安徽）、13（福建）和14

（江西）为一类，剩余地区为一类。

5.10根据上题数据通过SPSS统计分析软件进行快速聚类运算，并与系统聚类分析结果进行比较。

解：

快速聚类运算即K均值法聚类，具体步骤同5.8,聚类结果如下：

聚类的结果为9（上海）独自为一类，1（北京）、2（天津）、6（辽宁）、7（吉林）、

10（江苏）、11（浙江）、13（福建）和14（江西）为一类，剩余地区为一类。

5.11下表是2003年我国省会城市和计划单列市的主要经济指标：

人均GDPx,

（元）、人均工业产值兀（元）、客运总量兀（万人）、货运总量兀（万吨）、地方财政预算内收入兀（亿元）、固定资产投资总额％（亿元）、在岗职工占总人口的比例旺

（%）、在岗职工人均工资额兀（元）、城乡居民年底储蓄余额暫（亿元）。

试通过统计分析软件进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。

城市

3052

3067

59

200

37.

2531

644

31886

33168

3467

20

18.

1864

182

夭津

26433

43732

3507

934

石家庄

太原

呼和浩

特

沈阳

大连

长春

哈尔滨

南京

1184

1000

1230

104

15134

13159

49

416

9.5

1524

22.

1267

15752

15831

2975

33

197

660

13.

1411

18991

11257

3508

4155

21

255

1463

14.

1496

142

23268

15446

6612

81

557

1100

2108

1756

131

29145

27615

407

1089

12.

1387

18630

21045

6999

46

294

831

17.

1245

115

14825

7561

6458

9518

76

423

6386

89

227

21.

2730

605

46586

77083

7212

1679

1480

15.

2219

113

27547

43853

794

2134

1681

11.

2466

146

32667

49823

717

2493

1379

10.

2369

106

32543

47904

555

1390

10621

11714

6034

4641

36

245

8.3

359

1505

22281

21310

9680

8250

67

376

876

38.

1902

53590

93126

4441

3055

70

238

397

1391

14221

9205

5728

4454

31

210

483

1435

1602

23437

22634

5810

429

758

1466

1533

24705

35506

548

908

1070

1353

16674

14023

7847

66

373

杭州

F波

合肥

福州

厦门

南吕

济南

青岛

郑州

1188

1661

1373

128

21278

17083

80

623

1060

1063

1698

8873

60

434

705

2885

27

108

25.

2880

372

48220

55404

19183

34751

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 应用多元统计分析习题解答聚类分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：应用多元统计分析习题解答聚类分析Word下载.docx
链接地址：https://www.bdocx.com/doc/20548229.html

应用多元统计分析习题解答聚类分析Word下载.docx

热门标签