聚类分析Word格式.docx
- 文档编号:19022023
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:12
- 大小:232.70KB
聚类分析Word格式.docx
《聚类分析Word格式.docx》由会员分享,可在线阅读,更多相关《聚类分析Word格式.docx(12页珍藏版)》请在冰豆网上搜索。
12
13
14
15
16
17
18
19
座高
92
97
85
96
88
98
95
90
93
胸围
78
94
82
80
83
86
87
77
81
84
91
腰围
76
75
69
71
70
73
74
手长
20
领围
41
35
39
34
33
36
32
肩宽
44
43
48
46
47
42
臂围
31
23
30
22
27
25
28
26
24
袖长
57
56
59
55
62
60
54
63
三、模型假设与约束:
1.19个被调研者均是在同样的姿势下被量取尺寸
2.19个被调研者的身体均健康,不存在驼背等影响尺寸异常的疾病
3.表中数据库存在误差,但不存在错误
四、符号说明:
设有矩阵A
表示A矩阵的第i行,
表示A矩阵的第j列;
表示矩阵A第j列指标的平均值;
表示矩阵A第i行第j列的元素;
表示矩阵A第i行到第j行的距离;
五、建模前准备:
在数据矩阵中,共有n个样品x1,x2,…,xn(列向),p个指标(行向)。
聚类分析有两种类型:
按样品聚类或按变量(指标)聚类。
表1数据库表
样品
指标
聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。
按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。
Step1n个样品开始时作为n个类,计算两两之间的距离,构成一个对称距离矩阵:
此时,Dpq=dpq;
Step2选择D(0)中的非对角线上的最小元素,设这个最小元素是Dpq。
Gp,Gq分别表示两个类,设它们分别含有
个样品此时,Gp={xp},Gq={xq}。
将Gp,Gq合并成一个新类Gr={Gp,Gq}。
在D(0)中消去Gp和Gq所对应的行与列,并加入有新类Gr与剩下的其它未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵D
(1),它是n-1阶方阵;
Step3从D
(1)出发重复Step2的作法得D
(2),再由D
(2)出发重复上述步骤,直到n个样品聚为1个大类为止;
注意:
在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制聚类谱系图。
数据库表的矩阵
标准化处理
标准化数据阵
样品分类
用样品点之间的距离来衡量各样品之间的相似性程度(或靠近程度)。
设
是样品
之间的距离,
(1)欧氏距离
(2)马氏距离
其中
指标分类
相关系数阵
六、模型建立与求解:
原始数据矩阵
其转置矩阵
1.标准化处理
矩阵Y的标准化数据矩阵
尺寸指标分类
求欧式距离
欧氏距离矩阵
Columns1through10
021.23688.544018.735016.431717.748224.000024.61715.099014.1774
21.2368024.00006.928212.20667.48339.21956.082819.157210.7703
8.544024.0000020.688217.464221.494224.433625.86507.810216.5529
18.73506.928220.6882014.24787.21119.32749.110416.76318.8318
16.431712.206617.464214.2478013.964215.362314.628713.784012.6886
17.74827.483321.49427.211113.9642011.180311.000015.71626.6332
24.00009.219524.43369.327415.362311.180305.656921.307312.2066
24.61716.082825.86509.110414.628711.00005.6569022.271112.6886
5.099019.15727.810216.763113.784015.716221.307322.2711011.6190
14.177410.770316.55298.831812.68866.633212.206612.688611.61900
10.723813.711310.954511.66199.949911.916415.198715.84307.41627.6158
27.71288.888228.931013.453614.696914.59459.05546.324625.139616.7033
13.341724.228110.908722.472217.320523.643224.859625.298214.696919.5704
25.199210.099525.139612.569813.453614.00005.91616.082822.203613.9284
19.79909.434019.924910.53579.591712.36938.12408.000017.435610.7238
13.190910.148914.52587.28019.69549.848913.114913.114910.86288.1854
19.20947.483319.59597.746010.535710.39237.41626.708216.58318.8318
14.317816.613216.309513.114918.248310.954515.652517.804512.36936.9282
23.57977.141425.04008.062315.09979.74685.09905.291521.071311.3578
Columns11through19
10.723827.712813.341725.199219.799013.190919.209414.317823.5797
13.71138.888224.228110.09959.434010.14897.483316.61327.1414
10.954528.931010.908725.139619.924914.525819.595916.309525.0400
11.661913.453622.472212.569810.53577.28017.746013.11498.0623
9.949914.696917.320513.45369.59179.695410.535718.248315.0997
11.916414.594523.643214.000012.36939.848910.392310.95459.7468
15.19879.055424.85965.91618.124013.11497.416215.65255.0990
15.84306.324625.29826.08288.000013.11496.708217.80455.2915
7.416225.139614.696922.203617.435610.862816.583112.369321.0713
7.615816.703319.570413.928410.72388.18548.83186.928211.3578
019.261414.456815.874511.44555.744610.000011.045415.6525
19.2614028.03576.40319.899516.431710.440322.15857.8740
14.456828.0357024.799218.868016.852319.874620.904525.9230
15.87456.403124.799206.403114.45687.071118.60117.1414
11.44559.899518.86806.4031010.19804.123115.71628.4853
5.744616.431716.852314.456810.198008.185412.845212.8062
10.000010.440319.87467.07114.12318.1854014.21277.4162
11.045422.158520.904518.601115.716212.845214.2127015.6525
15.65257.874025.92307.14148.485312.80627.416215.65250
整数化处理
0
21
9
19
16
17
24
25
6
14
11
13
20
7
12
10
26
22
8
15
18
23
5
4
求最短距离
用[H,T]=dendrogram(Z)画出聚类图
聚类图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析