书签分享收藏举报版权申诉 / 24

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 物理 > 聚类分析与判别分析.docx

聚类分析与判别分析.docx

文档编号：5295308
上传时间：2022-12-15
格式：DOCX
页数：24
大小：136.34KB

聚类分析与判别分析.docx

《聚类分析与判别分析.docx》由会员分享，可在线阅读，更多相关《聚类分析与判别分析.docx（24页珍藏版）》请在冰豆网上搜索。

聚类分析与判别分析.docx

聚类分析与判别分析

1．聚类分析2

1.1问题描述2

1.2数据初步分析2

1.3层次聚类2

1.4结果解释3

1.5聚类结果的验证与进一步分析5

1.6最终的类别特征描述6

2．判别分析6

2.1问题描述6

2.2数据基本分析9

2.3判别分析9

2.4结果分析10

2.5判别效果的验证14

1．聚类分析

1.1问题描述

对16中饮料的热量、咖啡因、钠和价格四个变量作为数据进行聚类分析，希望通过聚类分析的方法将相似的饮料找出来，即将16种饮料划分为若干类别，从而更好的指导销售者制定销售计划，具体数据如下表1：

表1：

饮料数据

Number

calorie

caffeine

sodium

price

1

207.20

3.30

15.50

2.80

2

36.80

5.90

12.90

3.30

3

72.20

7.30

8.20

2.40

4

36.70

.40

10.50

4.00

5

121.70

4.10

9.20

3.50

6

89.10

4.00

10.20

3.30

7

146.70

4.30

9.70

1.80

8

57.60

2.20

13.60

2.10

9

95.90

.0

8.50

1.30

10

199.00

.0

10.60

3.50

11

49.80

8.00

6.30

3.70

12

16.60

4.70

6.30

1.50

13

38.50

3.70

7.70

2.00

14

.0

4.20

13.10

2.20

15

118.80

4.70

7.20

4.10

16

107.00

.0

8.30

4.20

1.2数据初步分析

首先对数据进行初步的考察，对各个指标做简单描述性统计分析。

表2：

DescriptiveStatistics

N

Minimum

Maximum

Mean

Std.Deviation

热量

16

.00

207.20

87.1000

60.90961

咖啡因

16

.00

8.00

3.5500

2.49212

钠

16

6.30

15.50

9.8625

2.72271

价格

16

1.30

4.20

2.8563

.96331

ValidN（listwise）

16

从表2中可以看出4个指标的量纲基本不同，尤其以热量和价格的差距最为明显，显示了数据量纲间有很强的差异性。

为消除不同变量大小对聚类结果的影响，有必要在聚类分析前对数据进行标准化处理。

1.3层次聚类

在SPSS中，实现层次聚类的过程步骤如下：

Analyze-Classify-HierarchicalCluster：

Variables:

caloriecaffeinesodiumprice

Labelcaseby:

Number

Plots:

Dendrogram

Method:

ClusterMethod:

WardsMethods

TransformValues:

Standardize:

ZScores

Save:

ClusterMembership:

Rangeofsolutions:

3-8

在Method中，默认选择的是不对数据进行标准化，但在此例子中，采用ZScores方法对数据进行标准化。

1.4结果解释

层次聚类输出的聚类过程表（表3），它说明层次聚类过程中的每一个步骤是如何进行的，一般来讲，步骤数为参加聚类的数据条数减1，在这里是15步。

表3的第1列列出了聚类过程的步骤号，第2列和第3列列出了在某一步骤中哪些饮料参与了合并，例如在第一步中，饮料5和饮料6首先被合并在一起。

第4列列出了每一聚类步骤的聚类系数，这一数值表示被合并的两个类别之间的距离大小。

第5列和第6列表示参与合并的饮料是在第几步中第一次出现的，0表示第一次出现在聚类过程中。

第7列表示在这一步骤中合并的类别，下一次将在第几步中与其他类别再进行合并。

要注意，在聚类过程的描述中，往往一个记录号已经不单单代表的是一个记录，而是一个类别。

表3：

AgglomerationSchedule

Stage

ClusterCombined

Coefficients

StageClusterFirstAppears

NextStage

Cluster1

Cluster2

Cluster1

Cluster2

dimension0

1

5

6

.233

0

4

2

12

13

.645

0

10

3

8

14

1.436

0

7

4

5

15

2.428

1

0

11

5

4

16

3.455

0

12

6

3

11

4.716

0

11

7

2

8

6.479

0

3

13

8

7

9

8.547

0

10

9

1

10

11.316

0

12

10

7

12

15.000

8

2

13

11

3

5

18.847

6

4

14

12

1

4

26.599

9

5

15

13

2

7

35.262

7

10

14

2

3

45.703

13

11

15

1

2

60.000

12

14

0

聚类过程表中大部分内容并不是通常要关注的对象，因为在大部分实际应用中，并不关心聚类的具体过程。

但是当需要判断数据应该分成多少类别时，聚类系数这一列却有着很好的参考价值。

事实上，可以根据该系数的变化来判断数据应该被分成多少类，当两个相邻步骤系数变化远大于前面相邻步骤变化时，便可以大致确定应该将聚类过程进行到哪里的类别数是较为合适的。

在这个例子中，11步时聚类系数为18.847，比第10步大了3.847，而在12步时聚类系数为26.599，比第11步大了近8，从统计意义上来说聚类过程结束于第12步是合理的；同时在13,14,15步时，聚类系数同样比前一步骤大了很多，这说明数据被分成5类、3类或是2类都是合理的，当然，这种方法只是起到一个参考作用，真正数据应该分成多少类，还是需要分析者根据自己实际问题综合进行判断。

层次聚类产生的最重要的结果就是谱系图，通过谱系图可以非常直观地看出整个聚类过程和结果。

在谱系图中，聚类的全过程以直观的方式表现出来，它把类间的最大距离算做相对距离为25，其余的距离均换算成与之相比的相对距离大小。

图形的左边代表进行聚类的对象或是事物，而对象或者类别的合并则通过线条连接的方式来表示，在这个例子中，对应的是这些饮料编号列在结果的最左边，而在结果的上部列出的是类别见的相对距离，通过观察这个结果，可以将这些饮料分为若干个类别。

图1：

谱系图

下面两种比较典型的聚类方案，分别聚成5类和3类。

表4：

聚类方案

Case

5Clusters

3Clusters

1:

1

2:

2

3:

3

4:

4

1

5:

5

3

6:

6

3

7:

7

5

2

8:

8

2

9:

9

5

2

10:

10

1

11:

11

3

12:

12

5

2

13:

13

5

2

14:

14

2

15:

15

3

16:

16

4

1

1.5聚类结果的验证与进一步分析

为了确定分成多少个类别合适，并且为各个类别命名，还需要对聚类结果进行进一步的分析。

在进行聚类的过程中，总是理想化的希望每个类别包含的对象是差不多相等的，但是从以上的分析可以看出，这几乎是不可能的，于是找出尽可能等分的分类就是通常确定类别数目的原则之一。

当把16种饮料分为3-8类时各类的饮料个数如表5所示：

表5：

各类的饮料总数

1

2

3

4

5

6

7

8

WardMethod（8）

1

3

2

3

2

1

2

WardMethod（7）

2

3

2

3

2

WardMethod（6）

2

3

2

3

4

WardMethod（5）

2

3

5

2

4

WardMethod（4）

4

3

5

4

WardMethod（3）

4

7

5

从上表中，可以看出分成3类、4类、5类都是合适的，但考虑类别不能过少，并且每类的总数分布应该趋于正态分布，因此选择分成5类是相对合理的。

在确定的分成多少个类别以及每个类别中含有多少种饮料后，接下来最关心的就是各个类别间是否有显著差异，以及各个类别具有怎样的特征，可以应用SPSS中Means过程计算各个类别的描述统计量和各个类别中4个变量是否有显著差异的方差分析表，结果如表5和表6所示：

表6：

Report

Mean

WardMethod（5）

热量

咖啡因

钠

价格

1

203.1000

1.6500

13.0500

3.1500

2

31.4667

4.1000

13.2000

2.5333

3

90.3200

5.6200

8.2200

3.4000

4

71.8500

.2000

9.4000

4.1000

5

74.4250

3.1750

8.0500

1.6500

Total

87.1000

3.5500

9.8625

2.8563

从表7中可以看出，各个类别热量、咖啡因、钠、价格等4个变量上都是有显著差异的，且这种差异存在统计意义。

表7：

ANOVATable

从表6中可以看出，各类之间的F检验在=0.05的置信区间下，都是有显著差异的，聚类效果明显。

1.6最终的类别特征描述

综合以上的分析，将16种饮料分为5类，并且总结出各个类别的特征如下：

第1类：

含高热量。

热量要明显高于其他类别，包括第1、10两种饮料。

第2类：

含钠成分高，价格一般。

该类饮料含钠成分要明显高于其他类别，包括第2、8和14种饮料。

第3类：

咖啡因含量高，含钠成分偏高，价格也偏高，包括第3、5、6、11、15种饮料。

第4类：

咖啡因含量低，价格高的饮料。

该类饮料的咖啡因含量明显低于其他类别，同时价格要明显高于其他类别，包括第4、16种饮料。

第5类：

价格低。

该类饮料的价格要明显低于其他类别，包括第7、9、12、13种饮料。

2．判别分析

2.1问题描述

我们希望用一套打分体系来描绘企业的状况，该体系对每个企业的一些指标（变量）进行评分。

这些指标包括：

企业规模（is），服务（se），雇员工资比例（sa），利润增长（prr），市场份额（ms），市场份额增长（msr），流动资金比例（cp），资金周转速度（cs）等等。

另外，有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。

我们希望根据这些企业的上述变量的打分和它们已知的类别（三个类别之一：

group-1代表上升，group-2代表稳定，group-3代表下降）找出一个分类标准，以对没有被该刊物分类的企业进行分类。

该数据有90个企业（90个观测值），其中30个属于上升型，30个属于稳定型，30个属于下降型。

这个数据就是一个“训练样本”，具体如表8所示：

表8：

data

group

is

se

sa

prr

ms

msr

cp

cs

1

43.2

0

8.5

214.1

23.2

95.4

15.4

8.6

1

42.2

0.1

14.4

61.8

15.4

47.5

22.6

9.1

1

2

0.1

10.7

248.2

14.5

53.9

18.9

8.7

1

34.4

0.2

14.2

123.8

21.3

62.4

12.9

8.2

1

31.8

0

5.8

268.1

2.8

60.1

24.9

9.4

1

22.7

0.2

12

153.5

3.4

97.2

27.9

8.7

1

41.8

0.1

14.8

140.3

1.8

53.6

12.2

8.4

1

37.8

0.2

15.4

197

8.9

73.8

25.9

9.4

1

24.6

0.1

14.8

95.8

24.2

69.9

21.3

7.7

1

22

0.2

15.8

256.7

10.6

32.9

26.9

9.3

1

18

0.2

7.4

271.9

17.5

96.1

10.8

7.2

1

11.9

0

15.8

162

12.2

55.5

13

7.1

1

41.7

0.1

15

175.5

19.3

35.3

24.1

7.8

1

19.3

0.1

12.1

217.7

8.8

89.2

14.4

8.2

1

43.2

0.3

7.2

131.9

8.2

46

12.2

9.3

1

13.4

0.2

11.3

161.5

18.2

68.3

13.8

9.4

1

26

0.2

11.6

185.9

12.8

76.7

24.8

7

1

22

0.1

15.1

190

11.7

59.8

29.8

7.1

1

7.2

0

15

64.8

22.9

80.7

24.1

7

1

8.2

0.2

8

115.1

9.6

32.6

15.5

8.9

1

9.6

0.1

15.2

78.3

13.1

40.4

14.2

9.4

1

12

0.2

6.5

175.2

13.6

66.9

10.1

8.1

1

33

0.3

13

121

24.5

74.9

12.3

7.5

1

29

0.2

18.8

94.1

1.3

94.7

24.7

9.2

1

40.4

0.3

13.2

167

5

45.6

25.6

9.7

1

22.5

0.2

19

117.5

24.7

70.5

10.3

7.6

1

26

0

6.4

93.2

4.8

93

26.4

8.7

1

40.8

0.2

14.4

291.8

9.9

34

14.9

8.9

1

0.6

0.3

9.7

225.9

21.7

77.7

26.3

8.5

1

33.6

0.2

9

57.9

2.7

50.6

26.7

7.6

2

51.9

0.5

37.4

10.2

36.4

3.5

7.3

6.7

2

54.8

0.5

38.2

25.9

26.6

18.4

14.3

7.3

2

64

0.4

59.7

16.6

25.9

13.3

13.9

6.5

2

37.9

0.3

21.3

-3.2

32.1

38.1

13.9

5.7

2

46.2

0.7

14.2

-8

17.9

49.5

15.8

6.5

2

74

0.6

59.7

61.5

15.8

11.6

8.4

5

2

55.4

0.3

15.3

11.2

23.2

25

8.5

5.6

2

65.9

0.3

42.6

-2.4

34.5

44.4

6.6

5.7

2

74.2

0.4

28.7

43.9

21.1

32.2

16.4

5.4

2

63.6

0.5

17.5

26.4

38.4

14.1

19.3

7.7

2

53.9

0.3

28

38.9

22.8

11.2

16.3

5

2

39.8

0.6

49.2

-8.2

17.7

25.8

7.8

6.2

2

63.7

0.2

42.3

12.3

20.6

22.7

14.5

6.2

2

47.2

0.5

24

41.4

32.3

38

16.4

7.3

2

66

0.5

47.4

-1.5

28

7

12.2

7.1

2

40.5

0.2

24.4

68.2

26.7

31.5

19

6.5

2

35.7

0.5

33.6

17.8

15

11.3

19.1

6.1

2

66.7

0.7

48.3

28.2

32.5

41.5

5.9

6.5

2

64

0.3

38.7

56.2

31.7

16

17.7

5.6

2

70.2

0.7

25.6

37.5

29.8

32.3

8.7

7.8

2

51.5

0.2

38.3

67.8

24.5

28.6

6.1

7.2

2

43.9

0.7

56.8

1.8

32.4

23.3

6.9

5.6

2

67.2

0.4

43.2

95.4

19.4

7.6

6

7

2

57

0.7

18.1

-4.8

28.1

46

9.5

7

2

51.2

0.5

19.6

89.3

22.8

4.1

17.9

6.9

2

57.2

0.6

25.5

66.5

19.3

47

7

2

69.7

0.6

39.3

88

16.1

35.4

15.4

5.3

2

36.3

0.3

10.7

25.2

38.4

8.3

6.2

5.6

2

43.7

0.5

46.4

82.5

19.5

13.1

6.7

7.4

2

67.1

0.6

51.9

98.3

20.7

2.5

10.2

5.3

3

72.9

0.6

75.4

7.7

37.8

7.2

9.2

2.2

3

82.9

0.6

61.3

-35.8

39.1

10.3

7.6

6.1

3

78.1

0.7

54.4

-10.9

47

1.7

8.9

1.2

3

82.3

0.9

62.9

-77

38.6

1

9.4

1.1

3

87.6

0.7

58.4

-88

38.6

-1.1

2.5

4.7

3

92.4

0.7

68.7

-51.7

49.2

-8.4

9.7

5.7

3

98.3

1

52.5

-34.7

46.8

7.6

8.1

5.2

3

94.3

0.9

51.6

-64.6

39.4

-2.3

5

3.1

3

69.5

0.8

51.2

-60.8

45.2

14.2

8.2

4.3

3

97.6

0.8

68

12.6

43

18.6

7.4

1.7

3

89.4

1

63.6

-35.1

32.4

12.5

3.3

1.6

3

66.7

0.8

73.7

-56.9

37

7.3

3.6

2.9

3

96.9

1

55

0.2

40.5

15.4

2.2

3.2

3

97.4

0.8

58.5

-11.4

33

-7.3

9.6

4.7

3

69.1

0.8

75.6

6.1

37.7

13.2

5.7

1.9

3

77.2

0.9

66

-12.2

48.6

16.4

2.3

3.4

3

82.6

0.9

58

7.2

30.4

4.4

2.1

2.2

3

95.1

0.8

63.5

-39.5

46.1

6.5

7.3

5.6

3

78.3

0.7

73.8

-9.6

48.2

11.1

8.7

5.3

3

65.2

0.5

79.3

-42.5

42.7

5.5

8.7

1.5

3

70.5

0.8

79.5

8.8

40.3

17.7

8.1

4.4

3

95.1

0.8

51.6

3

49.4

-1.6

6.2

4.1

3

81.6

0.9

54

-84

45.6

18.8

6.5

4.3

3

97.6

0.8

62.1

-24.2

30.7

12.1

5

4.8

3

92.9

0.7

64.5

-13.3

39.8

7.2

4.9

5.5

3

74

0.9

56.8

-98.9

41.9

-3.5

9.9

6.4

3

87.3

0.6

65

12.7

38.1

3.5

5.2

3.1

3

87.9

0.6

53.7

-82.6

46.3

-7.4

3

4.2

3

89.7

0.6

73.7

-17.8

34.1

-6.8

5.8

2.6

3

78.1

0.9

57.9

-4.1

32.3

-6.5

3.1

4.2

2.2数据基本分析

表9为所有变量做单因素的方差分析，其原假设是：

该自变量在各组总体之间没有差异。

从表最后的Sig值可见，很明显各组之间存在差异，因此这些变量对类间的判别是会起到作用的。

表9：

TestsofEqualityofGroupMeans

Wilks'Lambda

F

df1

df2

Sig.

服务

.205

168.241

2

87

.000

雇员工资比例

.179

199.700

2

87

.000

利润增长

.256

126.415

2

87

.000

市场份额

.256

126.148

2

87

.000

市场份额增长

.271

117.063

2

87

.000

流动资金比例

.441

55.040

2

87

.000

资金周转速度

.252

128.913

2

87

.000

企业规模

.190

185.828

2

87

.000

2.3判别分析

在SPSS中实现判别分析的过程步骤如下：

1）Analyze－Classify－Discriminant；

2）把group放入GroupingVariable，再定义范围，即在DefineRange输入1－3的范围。

然后在Independents输入所有想用的变量；但如果要用逐步判别，则不选Enterindependentstogethe

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 聚类分析判别分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：聚类分析与判别分析.docx
链接地址：https://www.bdocx.com/doc/5295308.html

聚类分析与判别分析.docx

热门标签