关于数理统计中系统聚类法的讨论概要.docx
- 文档编号:5030428
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:11
- 大小:60.86KB
关于数理统计中系统聚类法的讨论概要.docx
《关于数理统计中系统聚类法的讨论概要.docx》由会员分享,可在线阅读,更多相关《关于数理统计中系统聚类法的讨论概要.docx(11页珍藏版)》请在冰豆网上搜索。
关于数理统计中系统聚类法的讨论概要
286
中国卫生统计2005年10月第22卷第5期
关于数理统计中系统聚类法的讨论*
重庆医科大学数学教研室(400016
张世强
提要目的研究聚类分析中系统聚类法的某些聚类过程对聚类结果产生的干扰,寻找消除该干扰的聚类过程。
方法利用图论和模糊数学中的最大树聚类法为标准,对不同的聚类过程进行分析,找出系统聚类法中某些聚类过程给聚类结果带来的严重影响的原因。
结果给出能消除系统聚类法中某些聚类过程给聚类结果带来严重影响的统一的(指标或样品聚类过程。
结论统一的(指标或样品聚类过程消除了系统聚类法中某些聚类过程给聚类结果带来的严重影响;不但保留了系统聚类法中聚类过程的优点,而且还能挖掘出隐藏在原始数据中的有用信息。
关键词数理统计聚类分析系统聚类最大树聚类法
在使用系统聚类法进行聚类的过程中,不少文献均给出了多个聚类过程,导致出不同的聚类结果。
对于应选哪一个结果作为最优的结果或最符合实际情况的结果,不同文献给出了不同的解释。
本文以图论和模糊数学中的最大树法为标准,分析了系统聚类法中的各种聚类过程,发现无论是对指标聚类(R型聚类,还是对样品聚类(Q型聚类,均只有一种聚类过程不对原始信息产生干扰,而其余聚类过程均会增加干扰信息或丢失原始信息。
进一步将关于样品聚类和关于指标聚类的系统聚类过程统一起来,解决了聚类结果不确定问题,使聚类过程简单明了。
统一的聚类过程对于增强理解问题的实际背景,找出实际问题中隐藏的客观规律具有较重要的指导意义。
聚类分析原理
聚类分析(clusteranalysis这一多元统计方法根据实际需要可分为两种:
对样品集合进行聚类和对指标集合进行聚类。
其关键是找出能反映样品集合或指标集合之间亲疏关系的一种(或多种聚类统计量,然后依据其中最佳的一种聚类统计量的数值,用聚类法把样品集合或指标集合分成若干类。
1相似矩阵的构造
设对n个样品观察了m个指标,其原始数据如表1。
表1原始数据
样品A1A2An
指标
X1X11X21Xn1
X2X12X22Xn2
XmX1mX2mXnm
1~6
1
R=
r21rm1
1rm2
如对样品聚类(Q型聚类,构造的相似矩阵为:
Q=
q21qn1
2聚类过程
以对指标聚类(R型聚类为例,其聚类过程为:
(1取=1,把每个指标各作一类,m个指标共有m类。
(2取=max{rij},将具有相同的指标归并为一新类,如N={xt,xs}。
(3构造新的m-1阶矩阵。
在新的m-1阶矩阵中,新类(如N={xt,xs}与其余类如xw(wt,ws的聚类统计量的计算方法有
最大法rnw=max{rtw,rsw}
最小法rnw=min{rtw,rsw}加权法rnw=rtw+rsw
(4取=max{rij},将具有相同的指标归并为又一新类。
(5构造新的m-2阶矩阵。
在新的m-2阶矩阵中,该新类与其余类的聚类统计量的计算方法同步骤(3。
仿此继续进行聚类,直到所有指标均归为一类。
根据选取的聚类统计量的不同计算方法,可把聚类过程分为:
最大统计量法聚类过程;
最小统计量法聚类过程;
0qn2
根据表1中的原始数据,利用不同的聚类统计量,可分别构造出不同类型的相似矩阵。
如对指标聚类(R型聚类,构造的相似矩阵为:
*重庆医科大学科技基金资助(XB200221
ChineseJournalofHealthStatistics,Oct2005,Vol.22,No.5
287
加权统计量法聚类过程。
其中加权统计量法聚类过程因和的不同选取将变化多端,如选==1/2即为常用的平均统计量法聚类过程。
指标聚类过程的分析
1最大统计量法聚类过程
该聚类过程与图论中的最大树聚类法及模糊数学中的最大树聚类法一致,不会增加干扰信息或丢失原始信息。
例如:
对于3个指标的集合{xs,xt,xw},若构造的相关系数表为表2。
表23个指标{xs,xt,xw}的原始相关系数
xs
xsxtxw
100907
1008
10
xt
xw
利用3个指标{xs,xt,xw}的原始相关系数表2构造的树为:
xs09xt08xw;
利用3个指标{xs,xt,xw}按最小统计量法合并
后的相关系数表4构造的树为:
{xs,xw}08xt;
利用rsw=07恢复的树为:
xs07xw08xt(或xw07xs08xt;
恢复的树将xs与xw的统计量降低为07。
恢复的树与利用3个指标{xs,xt,xw}的原始相关系数表2构造的树不完全符合,即增加了干扰信息或丢失了原始信息。
3加权统计量法聚类过程
该聚类过程与最小统计量法聚类过程相同,亦会增加干扰信息或丢失原始信息。
对于上面3个指标{xs,xt,xw}的原始相关系数表2,最大统计量(最大相关系数为rst=09,加权统计公式rnw=rtw+rsw中的参数和选取==1/2。
按加权统计量法聚类过程,3个指标{xs,xt,xw}的原始相关系数表2可合并为表5。
表53个指标{xs,xt,xw}按加权统计量法合并后的相关系数
(xs,xt
(xs,xtxw
100075
100xw
对于上面3个指标{xs,xt,xw}:
最大统计量(最大相关系数为rst=09。
按最大统计量法聚类过程,3个指标{xs,xt,xw}的原始相关系数表2可合并为表3:
表33个指标{xs,xt,xw}按最大统计量法合并后的相关系数
(xs,xt
(xs,xtxw
1008
10xw
利用3个指标{xs,xt,xw}的原始相关系数表2构造的树为:
xs09xt08xw;
利用3个指标{xs,xt,xw}按最大统计量法合并后的相关系数表3构造的树为:
{xs,xt}08xw;
利用rst=09恢复的树为:
xs09xt08xw(或xt09xs08xw;
恢复的树与利用3个指标{xs,xt,xw}的原始相关系数表2构造的树完全符合。
2最小统计量法聚类过程
该聚类过程会增加干扰信息或丢失原始信息。
对于上面的3个指标{xs,xt,xw}的原始相关系数表2,最小统计量(最小相关系数为rsw=07。
按最小统计量法聚类过程,3个指标{xs,xt,xw}的原始相关系数表2可合并为表4。
表43个指标{xs,xt,xw}按最小统计量法合并后的相关系数
(xs,xw
(xs,xw10
xt
利用3个指标{xs,xt,xw}的原始相关系数表2构造的树为:
xs09xt08xw;
利用3个指标{xs,xt,xw}按加权统计量法聚类过程合并后的相关系数表5构造的树为:
{xs,xt}075xw;
利用rst=09恢复的树为:
xs09xt075xw(或xt09xs075xw;
恢复的树将xt与xw(或xs与xw的统计量降低为075。
与利用3个指标{xs,xt,xw}的原始相关系数表2构造的树不完全符合,即增加了干扰信息或丢失了原始信息。
样品聚类过程的分析
根据以上分析,对于样品聚类(Q型聚类,则应该使用最小统计量法进行聚类,才能避免增加干扰信息或丢失原始信息。
但若令R=I-Q后,亦可使用最大统计量法进行聚类。
实例分析
17
288
中国卫生统计2005年10月第22卷第5期
指标:
体重、肩宽、骨盆宽、小腿长、胸围、大腿围、上臂围和身高,用聚类分析法进行分类3。
表6是8个形
态指标间的相关系数。
表68个形态指标间的相关系数
体重
体重肩宽骨盆宽小腿长胸围大腿围上臂围身高
1000006268047110533308223074030601706833
肩宽10000059220337705803031610233705044
骨盆宽
小腿长
胸围
大腿围
上臂围
身高
100000212103267019060014204994
1000003505000000042008160
10000064130710104150
100000642502677
1000000046
10000
1按最大统计量法聚类过程进行聚类
该聚类过程与图论中的最大树聚类法及模糊数学中的模糊最大树聚类法一致,其聚类图如图1
。
为一类。
图2聚类图(加权统计量法,选==1/2
与聚类图1比较,聚类图2的聚类过程将骨盆宽
图1聚类图(按最大统计量法
根据聚类图1,当取=07时,可以将17岁男生的8个形态指标划分为4类。
其中体重、胸围、大腿围和上臂围为一类;小腿长和身高为一类;肩宽、骨盆宽各自为一类。
当取=068时,可以将17岁男生的8个形态指标划分为3类。
其中体重、胸围、大腿围、上臂围、小腿长和身高为一类;肩宽、骨盆宽各自为一类。
当取=062时,可以将17岁男生的8个形态指标划分为2类。
其中体重、胸围、大腿围、上臂围、小腿长、身高和肩宽为一类;骨盆宽自成为一类。
说明骨盆宽是一个较特殊的指标。
2按加权统计量法聚类过程进行聚类
选==1/2,此时加权统计量法聚类过程即为常用的平均统计量法聚类过程。
其聚类图如图2。
根据聚类图2,当取=065时,可以将17岁男生的8个形态指标划分为4类。
其中体重、胸围、大腿围和上臂围为一类;小腿长和身高为一类;肩宽、骨盆宽各自为一类。
此时和聚类图1的划分相同。
当取=059时,可以将17岁男生的8个形态指标划分为3类。
其中体重、胸围、大腿围和上臂围为一类;小腿长和身高为一类;肩宽和骨盆宽为一类。
和聚类图1的划分开始出现不同。
当取=038时,可以将17岁男生的8个形态指标划分为2类。
其中体重、胸围、大
;这个较特殊的指标的信息丢失了。
根据解剖学的知
识,骨盆宽确实是个与其他指标相关度不大的指标。
从表2中的相关系数的数值亦可看出这一点。
例2牙槽弓的形态特征需用22个指标才能全面描述,现测量了609副牙槽弓的形态指标值。
表7是22个指标间的相关系数。
表中各相异指标间的相关系数取两位小数,然后乘以1001,3。
试用系统聚类法将牙槽弓形态特征的22个指标进行聚类。
1按最大统计量法聚类过程进行聚类
该聚类过程与图论中的最大树聚类法及模糊数学中的模糊最大树聚类法一致,其聚类结果亦相同。
根据表7数据绘制聚类图,当取适当的数值时,可以将牙槽弓形态特征的22个指标划分为3类。
类:
(12,13,15,16,17,18,19,20;类:
(1,2,3,4,5,11,21;类:
(6,7,8,9,10,14,22。
根据解剖学知识,第类指标(12,13,15,16,17,18,19,20表明上下牙槽弓大部分的长度与深度;第类指标(1,2,3,4,5,11,21主要反映上牙槽弓的宽度;第类指标(6,7,8,9,10,14,22主要反映下牙槽弓的宽度。
从临床角度看,此聚类结果是合理的。
2按最小统计量法聚类过程进行聚类
该聚类结果与图论中的最大树聚类法及模糊数学中的模糊最大树聚类法的聚类结果不一致。
ChineseJournalofHealthStatistics,Oct2005,Vol.22,No.5
289
表722种指标间的相关系数
01
010*********
182********38363323444640284241535240399036
021*********
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
189********4539134044214141626346455634
184********42053137183737545643434131
12632343940001521122726374032352422
180********2421683931282435364189
184********23484035302846433671
188********303936313051483352
184********3937303153523141
1091823052424252641422124
14633292827141620236926
187********7650535323
1215964828456594320
150********273180
191575679784344
1605882834333
17962554826
154624923
1693934
14035
137
1
根据表7数据绘制聚类图,当取适当的数值时,可以将牙槽弓形态特征的22个指标划分为4类。
类:
(1,2,12,13,15,16,17,18,19,20,21;类:
(6,14,22;类:
(11;
类:
(3,4,5,7,8,9,10。
比较最大统计量法聚类结果和最小统计量法聚类结果,显然前者的聚类结果比后者的聚类结果更清晰些。
不少文献亦发现了最大统计量法聚类结果与最小统计量法聚类结果之间的差异,但未意识到是某些聚类过程添加或丢失信息造成了聚类结果的不同1,3。
故提出的建议是:
在实践中可采用几种不同的定义,得出几种不同的结果,然后根据实际情况选择一种合适的方案。
这样一来,就带有非常明显的主观因素。
如例1,一般会选择聚类图2,因为该聚类图将原始数据较清晰地分成了3类2。
但该聚类过程将骨盆宽这个较特殊的指标的信息丢失了,从解剖学角度看,将男生的肩宽和骨盆宽指标合为一类不太恰当。
结论
通过上面的分析,可知在所讨论的三种统计量法中,对于指标聚类(R型聚类,只有最大统计量法不会增加干扰信息或丢失原始信息。
而对于样品聚类(Q型聚类,令R=I-Q后,其聚类过程类似于指标聚类(R型聚类。
于是在系统聚类法中,可将对样品集合进行聚类和对指标集合进行聚类的过程统一起来,均采用最大统计量法进行聚类。
这样不但消除了系统聚类法中某些聚类过程给聚类结果带来的严重影响,
1
保留了系统聚类法中聚类过程的优点,解决了聚类结果不确定的问题,而且对于增强理解问题的实际背景,挖掘出隐藏在原始数据中的有用信息和找出实际问题中隐藏的客观规律具有比较重要的意义。
StudyoftheSystemClusterinMathematicalStatisticsZhangShiqiang,DepartmentofMathematics,ChongqingMedicineUni-versity(400016,Chongqing
AbstractObjectiveTostudythedisturbancecreatedbysome
clusterprocedureswithinthesystemclustermethodinclusteranalysisandfindclusterprocedureremovingthedisturbance.MethodsTousetheMaximumtreeclustermethodinthegraphtheoryandtheFuzzymathemat-icstofindtheseriousdisturbancecreatedbysomeclusterprocedureswithinthesystemclustermethod.ResultsGivingonlyclusterprocedureremov-ingthedisturbancewithinthesystemclustermethod.ConclusionTheonlyclusterprocedurecanremovetheseriousdisturbancecreatedbyotherclusterprocedureswithinthesystemclustermethod.Itcannotonlyremaintheadvantageofclusterprocedureswithinthesystemclustermethodbuta-lsocanmineusefulinformationhiddenintheoriginaldata.
KeywordsMathematicalstatistics,Clusteranalysis,Sys-temcluster,Maximumtreecluster
参考文献
1郭祖超主编.医用数理统计方法.北京:
人民卫生出版社.第3版,1998,515-524.
2蒋知俭主编.医学统计学.北京:
人民卫生出版社,1997,300-305.3史秉璋,杨琦.医用多元分析.北京:
人民卫生出版社,1990,166-185.4曹素华主编.实用医学多因素统计方法.上海:
上海医科大学出版社,1998,151-160.
5金丕焕主编.应用统计方法.上海:
上海医科大学出版社,1993,290-293.
6倪宗瓒主编.医学统计学.北京:
人民卫生出版社,1990,223-226.
7张世强.非线性生物模型回归参数计算的一个新方法及应用.重庆医科大学学报,2003,28(6:
754-757.
8张世强.曲线回归的拟合优度指标的探讨.中国卫生统计,2002,19(1:
9-11.
9张世强主编.医学高等数学.北京:
科学出版社,2001,325-334.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 数理统计 系统 聚类法 讨论 概要