聚类分析-基因芯片.ppt
- 文档编号:2637281
- 上传时间:2022-11-04
- 格式:PPT
- 页数:47
- 大小:3.07MB
聚类分析-基因芯片.ppt
《聚类分析-基因芯片.ppt》由会员分享,可在线阅读,更多相关《聚类分析-基因芯片.ppt(47页珍藏版)》请在冰豆网上搜索。
第六章聚类分析v6.1引言v6.2距离和相似系数v6.3系统聚类法v6.4动态聚类法6.1引言v判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。
判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。
聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。
v聚类分析根据分类对象不同分为Q型和R型聚类分析。
6.2距离和相似系数v相似性度量:
距离和相似系数。
v距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。
v样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。
变量的测量尺度v通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。
v间隔尺度变量:
变量用连续的量来表示,如长度、重量、速度、温度等。
v有序尺度变量:
变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。
v名义尺度变量:
变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。
v本章主要讨论具有间隔尺度变量的样品聚类分析方法。
v距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有v当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。
最常用的标准化处理是,令其中和分别为第个变量的样本均值和样本方差。
二、相似系数v聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。
v变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。
v相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。
v聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。
相似系数一般需满足的条件v
(1),当且仅当和是常数;
(2),对一切;(3),对一切。
最常用的两个相似系数v相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。
v由距离来构造相似系数总是可能的,如令这里为第个样品与第个样品的距离,显然满足定义相似系数的三个条件,故可作为相似系数。
v距离必须满足定义距离的四个条件,所以不是总能由相似系数构造。
高尔(Gower)证明,当相似系数矩阵为非负定时,如令则满足距离定义的四个条件。
6.3系统聚类法v系统聚类法是聚类分析诸方法中用得最多的一种。
v基本思想是:
开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。
常用的系统聚类方法v一、最短距离法v二、最长距离法v三、中间距离法v四、类平均法v五、重心法v六、离差平方和法(Ward方法)一、最短距离法v定义类与类之间的距离为两类最近样品间的距离,即最短距离法的聚类步骤v
(1)规定样品之间的距离,计算个样品的距离矩阵,它是一个对称矩阵。
v
(2)选择中的最小元素,设为,则将和合并成一个新类,记为,即v(3)计算新类与任一类之间距离的递推公式为最短距离法的聚类步骤v在中,和所在的行和列合并成一个新行新列,对应,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作。
v(4)对重复上述对的两步得,如此下去直至所有元素合并成一类为止。
v如果某一步中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。
二、最长距离法v类与类之间的距离定义为两类最远样品间的距离,即v最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。
v递推公式:
v最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。
三、中间距离法v类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。
v以上我们对例6.3.1采用了多种系统聚类法进行聚类,其结果都是相同的,原因是该例只有很少几个样品,此时聚类的过程不易有什么变化。
一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。
从下面例子中可以看到这一点。
v从这三个树形图来看,只有Ward方法较好地符合了我们的实际聚类要求,它将31个地区分为以下三类:
v第类:
北京、浙江、上海和广东。
这些都是我国经济最发达、城镇居民消费水平最高的沿海地区。
第类:
天津、江苏、云南、重庆、河北、新疆、山东、湖北、四川、湖南、福建、广西、海南和西藏。
这些地区在我国基本上属于经济发展水平和城镇居民消费水平中等的地区。
第类:
山西、甘肃、内蒙古、辽宁、黑龙江、吉林、青海、宁夏、安徽、贵州、河南、陕西和江西。
这些地区在我国基本上属于经济较落后地区,城镇居民的消费水平也是较低的。
v如果分为五类,则广东和西藏将各自为一类。
单调性v令是系统聚类法中第次并类时的距离,如果一种系统聚类法能满足,则称它具有单调性。
这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。
v最短距离法、最长距离法、可变法、类平均法、可变类平均法和离差平方和法都具有单调性,但中间距离法和重心法不具有单调性。
类的个数v如果能够分成若干个很分开的类,则类的个数就比较容易确定;反之,如果无论怎样分都很难分成明显分开的若干类,则类个数的确定就比较困难了。
v确定类个数的常用方法有:
1.给定一个阈值T。
2.观测样品的散点图。
3.使用统计量。
包括:
统计量,半偏统计量,伪统计量和伪统计量。
6.4动态聚类法v动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。
类的个数k可以事先指定,也可以在聚类过程中确定。
选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。
v动态聚类法有许多种方法,本节中,只讨论一种比较流行的动态聚类法k均值法。
k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。
k均值法的基本步骤v
(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。
v
(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。
v(3)重复步骤
(2),直至所有的样品都不能再分配为止。
v最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。
经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。
例6.4.2v对例6.3.3使用k均值法进行聚类,聚类前对各变量作标准化变换,聚类结果如下:
第类:
北京、上海和浙江。
第类:
广东。
第类:
天津、江苏、福建、山东、湖南、广西、重庆、四川和云南。
第类:
河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、江西、河南、湖北、海南、贵州、陕西、甘肃、青海、宁夏和新疆。
第类:
西藏。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 基因芯片