聚类分析.docx
- 文档编号:5020101
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:12
- 大小:211.46KB
聚类分析.docx
《聚类分析.docx》由会员分享,可在线阅读,更多相关《聚类分析.docx(12页珍藏版)》请在冰豆网上搜索。
聚类分析
合肥学院
2015-2016第二学期
《多元统计分析》课程论文
论文题目聚类分析
姓名陈毅
学号1307021036
专业数学与应用数学
(1)
成绩
2015.5
聚类分析
摘要:
本论文为了研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。
用南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据中,所有数据两两数据间距离的平均作为类间距离,使用聚类分析中的最长距离法,运用SAS软件,从而得出相应的数据,分析数据即确定了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。
关键词:
聚类分析最长距离法SAS软件分类
一、聚类分析理论
1、数据的变换方法
(1)中心变换
变换
称为中心化变换。
它是一种标准化处理方法,变换后数据的均值为0,而协方差阵不变,即协差阵为
,其中
。
中心化变换是一种方便地计算样本协差阵的变换。
(2)标准化变换
变换
称为标准化变换,变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据
与变量的量纲无关。
(3)对数变换
变换
称为对数变换,它可将具有指数特征的数据结构化为线性数据结构
此外,还有平方根变换,立方根变换等。
它们的主要作用是把非线性数据结构变为线性数据结构。
称变换
(4)极差标准化变换
称变换
称为极差标准化变换,变换后的数据,每个变量的样本均值为0,极差为1,且
,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量。
5.极差正规化变换
称变换
为极差正规化变换。
变换后的数据
;极差也为1,同时变换后的数据也是无量纲的量。
2、距离的定义
1.闵科夫斯基(Minkowski)距离
称
为闵科夫斯基距离。
(1)绝对值距离:
在上式中,当q=1时的一阶闵科夫斯基距离为
称它为绝对值距离。
(2)欧氏距离:
取
,就可以得到二阶闵科夫斯基距离为
称它为欧氏距离。
3、系统聚类法的思想
(1)定义样品间的距离(或相似系数)和类与类之间的距离;
(2)将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;
(3)然后将距离最近的两类合并,并计算新类与其他的类间距离,再按最小距离准则并类。
这样每次缩小一类,直到所有的样品都成一类为止。
这个并类过程可以用谱系聚类图形像地表达出来
4、系统聚类的步骤
(1)数据变换:
可以使用上节介绍的方法对数据进行变换。
数据变换目的是为了便于比较、计算上的方便或改变数据的结构。
选择试题样品间距离的定义(如欧氏距离)及度量类间距离的定义。
(2)计算n个样品两两间的距离,得样品间的距离矩阵
。
(3)一开始n样品各自构成一类,类的个数
个类:
,此时类间距离就是样品间的距离(即
)然后对步骤
执行并类过程(4)和(5).
(4)每次合并类间距离最小的两类为一新类,此时类的总个数k减少到1类,即
。
(5)计算新类与其他类的距离,得到新的距离矩阵,若合并后类的总个数k仍大于1,重复(4)和(5)步,直到类的总个数为1为止。
(6)画谱系聚类图。
(7)决定分类的个数及各类的成员。
二、问题提出与分析
现有南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据,请用聚类分析研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。
数据资料如下表所示:
观测站点
一月
二月
三月
四月
五月
六月
七月
八月
九月
十月
十一月
十二月
坎贝尔岛
9.5
9.7
9.1
8.0
7.1
4.9
5.9
5.8
4.8
6.5
7.5
9.1
Leeuwin
19.9
20.0
19.0
17.5
15.8
14.9
13.9
12.8
12.9
14.1
15.0
17.5
开普敦
19.6
20.8
16.1
18.9
13.9
11.8
11.1
11.5
12.0
15.9
17.4
20.9
查塔姆岛
13.3
14.8
13.6
12.0
10.9
9.4
7.5
8.9
9.6
10.2
12.3
12.8
克罗泽
10.6
11.2
8.6
6.6
4.7
3.9
3.1
2.9
2.6
3.7
4.8
6.0
戈夫岛
14.0
14.0
12.7
12.8
10.9
9.3
9.1
9.2
9.2
10.1
12.3
14.5
格瑞特威肯
4.9
5.7
4.9
2.8
-0.4
-0.8
-2.5
0.1
1.5
2.0
3.9
3.2
复活节岛
23.0
23.3
22.8
21.7
21.5
18.9
19.2
18.0
17.9
19.6
21.2
20.5
胡安费尔南德兹
17.5
17.3
16.5
15.4
14.9
13.4
12.8
11.6
12.5
14.2
16.9
17.3
凯尔盖朗
8.5
9.3
7.2
6.6
3.4
1.3
2.0
2.6
2.5
3.4
5.2
7.1
maatsuyker
15.1
16.4
15.1
13.4
11.1
9.3
9.1
8.1
8.8
10.1
10.9
13.7
麦夸里岛
8.1
8.0
7.3
6.0
5.6
4.4
4.5
4.5
2.5
4.3
4.9
7.0
玛丽恩岛
7.6
8.3
5.8
8.3
4.6
4.0
3.7
3.2
3.1
4.5
5.3
6.0
新阿姆斯特丹岛
17.4
17.4
15.8
15.9
13.5
12.5
11.0
11.3
11.2
11.1
12.9
15.7
皮特克恩岛
22.5
22.9
23.0
21.6
21.4
20.4
19.4
17.9
18.7
19.8
21.6
21.7
蓬塔阿雷纳斯
8.6
8.3
7.6
5.7
2.3
0.8
0.5
2.8
3.8
6.8
7.5
8.0
拉乌尔
22.4
21.9
22.0
20.7
19.0
18.8
16.1
17.2
17.2
18.2
19.1
20.2
白菜
23.5
24.7
24.1
23.3
21.4
19.0
18.4
17.9
18.9
20.1
20.9
21.7
拉罗汤加岛
25.8
25.8
26.2
26.3
24.5
23.4
23.0
22.0
23.1
23.7
24.4
25.6
斯坦利
8.2
8.2
7.6
5.9
3.0
2.5
1.6
3.1
4.6
5.7
6.8
7.2
https:
//legacy.bas.ac.uk/met/READER/temperature.html
该问题是聚类分析问题,实际中通常要解决以下问题:
(1)会对实际问题进行聚类分析;
(2)掌握SAS输出结果用于判别实际问题的数据分为几类最合适。
在本问题中,即用于判别南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。
三、模型建立
程序:
datajlfx;
inputgroups$x1-x12;
cards;
坎贝尔岛9.59.79.18.07.14.95.95.84.86.57.59.1
Leeuwin19.920.019.017.515.814.913.912.812.914.115.017.5
开普敦19.620.816.118.913.911.811.111.512.015.917.420.9
查塔姆岛13.314.813.612.010.99.47.58.99.610.212.312.8
克罗泽10.611.28.66.64.73.93.12.92.63.74.86.0
戈夫岛14.014.012.712.810.99.39.19.29.210.112.314.5
格瑞特威肯4.95.74.92.8-0.4-0.8-2.50.11.52.03.93.2
复活节岛23.023.322.821.721.518.919.218.017.919.621.220.5
胡安费尔南德兹17.517.316.515.414.913.412.811.612.514.216.917.3
凯尔盖朗8.59.37.26.63.41.32.02.62.53.45.27.1
maatsuyker15.116.415.113.411.19.39.18.18.810.110.913.7
麦夸里岛8.18.07.36.05.64.44.54.52.54.34.97.0
玛丽恩岛7.68.35.88.34.64.03.73.23.14.55.36.0
新阿姆斯特丹岛17.417.415.815.913.512.511.011.311.211.112.915.7
皮特克恩岛22.522.923.021.621.420.419.417.918.719.821.621.7
蓬塔阿雷纳斯8.68.37.65.72.30.80.52.83.86.87.58.0
拉乌尔22.421.922.020.719.018.816.117.217.218.219.120.2
白菜23.524.724.123.321.419.018.417.918.920.120.921.7
拉罗汤加岛25.825.826.226.324.523.423.022.023.123.724.425.6
斯坦利8.28.27.65.93.02.51.63.14.65.76.87.2
;
procclusterdata=jlfxmethod=compseudo
cccouttree=Bjlfx;
varx1-x12;
idgroups;
proctreedata=Bjlfxhorizontalgraphics;
title'数据不变换、使用最长距离法的谱系聚类图';
run;
输出结果一:
输出结果二:
输出结果三:
结果分析:
输出结果一为12个聚类变量的协方差阵的特征值等信息。
从输出结果二可以看出:
准则支持分为二类和三类;伪F统计量支持分为三类;伪t方统计量支持分为二类和三类。
综合分析,认为用最长距离法20个站点分为三类较合适。
从输出结果三可以看出分为三类的结果:
{坎贝尔岛,克罗泽,凯尔盖朗,麦夸里岛,玛丽恩岛,蓬塔阿雷纳斯,斯坦利,格瑞特威肯}
{Leeuwin,胡安费尔南德兹,开普敦,查塔姆岛,戈夫岛,maatsuyker,新阿姆斯特丹岛}
{复活节岛,皮特克恩岛,白菜,拉乌尔,拉罗汤加岛}
四、总结
通过南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据进行聚类分析,我得到了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为三类最合适这一结论。
详细地说,即从以上分析可以看出,
的准则支持分为二类和三类;伪F统计量支持分为三类;伪t统计量支持分为二类和三类。
综合分析,认为用最长距离法20个站点分为三类较合适。
分为三类的结果为:
{坎贝尔岛,克罗泽,凯尔盖朗,麦夸里岛,玛丽恩岛,蓬塔阿雷纳斯,斯坦利,格瑞特威肯}
{Leeuwin,胡安费尔南德兹,开普敦,查塔姆岛,戈夫岛,maatsuyker,新阿姆斯特丹岛}
{复活节岛,皮特克恩岛,白菜,拉乌尔,拉罗汤加岛}
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析