多元分析.docx
- 文档编号:23209312
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:45
- 大小:620.47KB
多元分析.docx
《多元分析.docx》由会员分享,可在线阅读,更多相关《多元分析.docx(45页珍藏版)》请在冰豆网上搜索。
多元分析
研究生课程考核试卷
(适用于课程论文、提交报告)
科目:
多元数据统计分析教师:
姓名:
学号:
专业:
应用统计学类别:
(学术、专业)
上课时间:
2016年1月至2016年05月
考生成绩:
卷面成绩
平时成绩
课程综合成绩
阅卷评语:
阅卷教师(签名)
重庆大学研究生院制
肝癌细胞的分类与预测
摘要
我国是全球肝癌发病率最高和病死人数最多的国家,仅我国的肝癌人数就占到全球的35.4%,肝癌疾病已成为世界人类共同的敌人,肝癌是指发生于肝脏的恶性肿瘤,据调查,其中90%为肝细胞癌(HCC),其他病理类型有胆管细胞癌(ICC)和混合型肝癌等,肝癌俗称“癌中之王”,是临床上最可怕的疾病之一,所以怎么准确的判别一个肿瘤细胞或癌细胞是良性或恶性的就变得尤为重要。
临床上面对肿瘤细胞的甄别就是通过微型手术将患者身体内的病变细胞进行细针抽吸活检,即利用一根空心针从肿块中提取细胞的一小部分,然后临床医生在显微镜下检查细胞,从而确定肿块可能是恶性的还是良性的。
本文利用数理统计中的几种分类判别方法来判别和预测一个癌细胞是良性的还是恶性的。
从而在临床上给医生自己的决定提供更强的理论支持。
本文首先对肝癌的背景知识加以介绍,其次叙述了统计学技术在医学上应用的一些研究现状,另外对癌细胞的良性和恶性的分类方法进行了各种详细的介绍。
通过了几种主要的方法,如聚类分析方法、判别分析方法、近邻分类方法(kNN)、决策树方法和回归等方法,研究了针对癌细胞良性和恶性的分类问题,然后针对不同的方法进行了各自不同的评价。
最后,综合对比各种不同的分类与预测结果情况,给出了针对癌细胞分类的最准确最优的方法。
最后结合当前统计技术在当今医疗行业的应用情况,给当今医疗行业和统计学者们提出了一些相应的意见和建议。
关键词:
肝癌细胞分类预测聚类判别紧邻分类决策树分类
第1章癌细胞的判别预测以及研究现状
1.1肝癌的分类
癌细胞(cancercell)是人身体内一种变异的细胞,癌细胞是产生癌症的病源,癌细胞与正常的细胞具有三个显著不同特征:
无限增值性,可转移和易转移性和无限增殖并破坏正常的细胞组织结构决定了其具有致命性的破坏性。
癌细胞一旦在人体内产生就很难以消灭。
大量的科学证明,癌细胞在转移和增殖的过程中会遇到很多的困难,首先要经过十几次的变异,然后要克服细胞间的黏附作用脱离出来,并改变形状穿过致密的结缔组织,成功逃逸后,癌细胞将通过微血管进入血液,并且在血液中还会遭到白细胞的攻击。
接下来的癌细胞将通过微血管进入一个新的器官,在这里癌细胞面临着非常恶劣的环境,有些细胞经过数次的分裂后死亡,还有些癌细胞保持着休眠的状态,其存活率只有亿分之一。
存活下来的癌细胞能够再生和定值成为化验和手术临床中可以发现的“肉眼可见转移细胞”,随着转移的发展,癌细胞挤走了正常的细胞,有些情况下癌细胞还能吞噬正常的细胞,久而久之癌细胞就破坏了器官的功能,最后使得患癌症的病人致命。
肝脏是人体内最大的化工厂,承担着消化、解毒、分泌等重要功能。
我们一日三餐吃进去的营养物质都必须依靠肝脏进行加工代谢,才能满足人体生命活动的需要。
肝脏还是人体内最大的解毒器官,体内产生的毒物、废物,吃进去的毒物、有损肝脏的药物等,都必须依靠肝脏来解毒。
全球约有3.5亿乙肝病毒感染者,我国就占了9300万,而且这个数字还在以每年10万的速度不断增加着。
更令人担忧的是,我国肝癌的发病率和乙肝病毒感染率有着密切的关系,临床中85%~90%的肝癌都与原发性肝癌有关。
肝癌是指发生于肝脏的恶性肿瘤,包括原发性肝癌和转移性肝癌两种,人们日常所说的肝癌多指原发性肝癌。
原发性肝癌是临床上最常见的恶性肿瘤之一。
当下,肝癌在全球的发病率都呈上升趋势。
世界卫生组织发表的《全球癌症报告2014》显示,中国新增癌症病例高居世界第一位,其中肝癌的新增病例和死亡人数均居世界首位。
成为死亡率仅次于胃癌、肺癌的第三大恶性肿瘤。
因此如何将肝癌细胞很好的分类,以及对产生的肝癌细胞进行预测成为当下很具有研究价值的课题,正确的将肝癌细胞进行分类将有助于医生对症下药,针对良性的肝癌细胞只需要临床上的手术将发生病变的细胞切除掉就可以解决掉,此时癌细胞还没有进行扩散,癌细胞只在病变的周围没有进入到血液的循环系统,切除病变的癌细胞就可以将全身的病变细胞彻底清除。
对于恶性的癌变细胞,由于恶性的癌细胞是肿瘤基础上进行的变化,是肿瘤细胞的后期状况,所以恶性的癌细胞已经进行了扩散,已经进入到了血液的循环系统,已经不是一小部分的癌变,因此此时就需要进行更深层次的治疗,放疗和化疗是当前应用非常广的两种方法,通过此两种方法能将身体内部分散的癌细胞逐步的杀死,但是在杀死癌细胞的同时也伴随着大量的正常细胞也被杀死。
因此目前世界上还不存在一种能彻底根治癌症的方法。
所以我们对癌症的前期的治疗就变得很重要了,因此,如何准确及时快速的判别癌细胞是良性的还是恶性的就变得非常的重要。
1.2肝癌的研究现状
机器学习能够自动识别分类或者是预测癌细胞,因此针对该研究将对医疗系统提供相当大的益处,自动化的过程很可能提高检测过程的效率,从而可以让医生在诊断上花更少的时间,而在治疗疾病上花更多的时间,并且在本文中,通过采用不同的统计推断方法之间的比较能够更深层次的提高预测判别的精度与准确度。
目前针对我国医学方面的研究,临床上主要通过对病变位置的检测和实验来确定病情的状况,很少采用统计上面的检验方法来确定病情的发展状况。
因此医学上面的统计知识或者是数学知识的应用是一个很大的缺口。
能够寻找到这方面的文献是少之又少。
最经典的要属孟德尔的遗传杂交实验,从数学和统计的角度解决了动植物之间的遗传问题。
樊江平,钟理认为诊断癌症的关键是检测肿瘤分子标志物,按照标志物的物质基础,肿瘤分子标志物可以分为DNA、RNA和蛋白质等几类重要的物质。
蔡武成,赵寿元认为逆转病毒癌细胞主要是因为他们能够诱导失控的细胞增殖,此外,日益增多的证据提示原癌细胞编码的蛋白质可能在细胞分化之中,尤其在神经元和造血肝细胞的分化中起作用。
王春雷学者提出了一种改进距离的多组权局部线形嵌入算法,并引进了该算法和聚类算法在基因表达数据分析中的应用,在此基础上提出了一种基于流形学习的癌症基因表达数据聚类分析方法。
通过分析癌症基因表达数据的流形分布特点,把流形学习和聚类的方法相结合。
白天学者将算法应用到癌症亚分型问题中,通过对癌症患者的分子生物学属性和临床属性的联合聚类分析,将TCGA脑癌数据库中的癌症患者分成4个亚分型,并通过患者的生理指标验证了分型的有效性。
朱尔一,王小如,邓志伟应用多元多项式扩展增维和逐步回归变量压缩技术以及PLS方法处理,得到了病人与正常人分类极为清晰的二维判别图。
据此可将头发用作癌症临床诊断中的分析样品以取代血液样品黄燕虹学者应用SVM分类通过多种降维方法的比较以及SVM参数的合理设置,可以取得较高的癌症诊断精度。
以上不同种方法的应用不仅提高了医生在各种疾病诊断中的精度与准确度,并且也通过不同种诊断方法的应用,提升了整个临床行业的诊断技术水平。
第2章对肝癌分类的几种方法研究
2.1聚类分析
聚类依据是根据某种距离计算方法将不同的事物按照距离的远近聚为不同的类,或者是将数据或者变量分到不同的类或者簇这样的一个过程,所以同一个簇或者类中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
聚类,分析所使用方法的不同,常常会得到不同的结论。
不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
2.1.1聚类分析的特征
聚类分析是一种简单快捷的分类方法,与其它种方法比较其具有以下几种特性。
1、聚类分析简单、直观。
2、聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;
3、不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;
4、聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变、量对最终的解都可能产生实质性的影响。
5、研究者在使用聚类分析时应特别注意可能影响结果的各个因素。
异常值和特殊的变量对聚类有较大影响当分类变量的测量尺度不一致时,需要事先做标准化处理。
2.1.2聚类分析几种分类
计算聚类——距离指标D(distance)的方法非常多:
按照数据的不同性质,可选用不同的距离指标。
欧氏距离(Euclideandistance)、欧氏距离的平方(SquaredEuclideandistance)、曼哈顿距离(Block)、切比雪夫距离(Chebychevdistance)、卡方距离(Chi-Squaremeasure)等,不同种的距离相对应着就会产生一种聚类方法。
具体那一种聚类的方法比较好,这要根据不同的问题来看,不同的问题其最优的方法往往是不同的,但是根据经验来说欧氏距离方法一般会好于其它种方法。
2.2判别分析
判别分析是用以判断个体所属群体的一种统计方法,判别分析通常都要设法建立一个判别函数,然后利用此函数来进行批判,判别函数主要有两种,即2线性判别函数(LinearDiscriminantFunction)和典则判别函数(CanonicalDiscriminateFunction)
在研究肝癌的问题中,我们可以取一批良性患者和恶性患者的癌细胞的p个指标值,利用这两类数据建立一个判别函数,并求出相应的临界值,这时对于需要诊断的人也有相应的p个指标值,再将这p个指标值带入判别函数并求其得分,再依据临界值就可以判别一个细胞是良性的还是恶性的。
2.2.1判别分析几种分类
判别分析依据其原理和测量距离的方法的不同可以分为几种不同的方法。
贝叶斯判别法(Bayes),贝叶斯判别法的思想和贝叶斯估计的思路是一样的,即假定对研究的对象有一定的认识,这种认识常用先验概率来描述,当我们取得一个样本后,就可以用样本来修正已有的先验概率分布,得出后验概率分布,再通过后延概率分布进行各种统计推断。
费歇(Fisher)判别是按照类内的方差尽量的小,类间的方差尽量大的准则来求判别函数的,费歇尔判别法,费歇尔判别法的基本思想是投影,即将表面上不容易分类的数据通过投影到某一方向上,使得投影后类之间得以分离的一种判别方法。
距离判别法,设有两个具有相同协方差阵的总体X1和X2,均值的向量都为mu1与mu2,对于一个给定的样本X要判断它是来自于哪个总体(或者说要判断该样本属于哪个总体),一个直观的想法就是分别计算X与两个样本的距离,若X距离第一个总体的距离近那么X就属于第一类,若X距离第二个总体的距离近那么X就属于第二个总体。
2.3近邻分类法(KNN)
近邻分类就是把未标记的案例归类为与他们最相似的带有标记的案例所在的类,虽然近邻分类的想法思路很简单,但是近邻分类在某些问题上表现的很强大。
一般来说,近邻分类特别适用于特征和目标类之间的关系众多、复杂、用其他方式极难理解,但是具有相似类的项目又是非常的近似。
换个说法也就是说,如果一个概念很难定义,但当你看到它时你知道它是什么,那么这时候近邻分类可能就是不错的方法。
2.3.1KNN算法
KNN算法开始于一个分成几个类别的案例所组成的训练集,类别由名义变量来标记。
假设我们有一个由未标记的案例构成的测试数据集,除去分类标记外,测试数据集和训练数据集有相同的特征。
对于测试数据集中的每一个记录,KNN确定训练数据集中与该记录“相似度”最近的k条记录,其中k是一个预先指定的整数,未被标记的实例被分配到k个近邻中占比最大的那个类中。
现在考虑一个二维的变量特征,我们考虑一个西红柿是属于水果类还是属于蔬菜类的问题
图2.1几种食物的甜度和脆度图
由于上述的15种食物中的每一种的分类都是比较的明确,上面的五种属于水果类的食物,下面的五类属于高蛋白质类食品,而右边的五类食物属于水果类的食物,将其分类如下图所示:
图2.2几种食物的分类图
这里我们应用欧式距离计算西红柿(tomato)与任一种食物之间的距离,我们从距离最短的两种食物从上到下排列,排列结果如下表所示:
表2.1西红柿与各类食物之间的距离关系图
ingredient
switness
crunchiness
foodtype
distancetothetomato
orange
7
3
fruit
squt((6-7)^2+(4-3)^2)=1.4
grape
8
5
fruit
squt((6-8)^2+(4-5)^2)=2.2
nuts
3
6
protein
squt((6-3)^2+(4-6)^2)=3.6
greenbean
3
7
vegetable
squt((6-7)^2+(4-3)^2)=4.2
注:
tomato的甜度和脆度分别是6和4
为了将西红柿归类为蔬菜、蛋白质、或者是水果,先将西红柿归类到离它最近的食物类型开始,当k=1时,西红柿距离橙子(orange)的距离1.4最近,因为橙子是一种水果,因此这里我们把西红柿归类于水果。
当k=3时候,因为3个近邻中有两个都是水果,所以西红柿再次被归类为水果。
确定分类的好坏,有时候取决于选择的k值得大小,有时候k值得选择也是很重要的。
2.4决策树分类法
决策树算法以树形结构建立模型。
类似流程图。
该模型本身包含一系列逻辑决策,带有表明根据某一属性做出决策的决策节点,从这些节点引出的分支表示可做出的选择。
数据的分类从节点开始,根据特征值遍历树上的各个节点数,数据采用的是一个漏斗形的路径,它将每一条记录汇集到一个节点上,在叶节点为该记录分配一个预测值。
决策树是一种递归的划分的探索方法,因为它利用特征值将数据分解成具有相似类的较小的子集,从代表整个数据的节点开始,该算法选择最能预测目标类的特征,然后这些案例将被划分到这一特征的不同值的组中,这一决定形成了第一组树枝。
该算法继续分而治之其它节点,每次选择最佳的候选特征,直到达到停止的标准。
决策树面临的第一个挑战就是需要确定根据哪个特征进行分割,我们以一种方式来寻找分割数据特征的特征值,即分区中主要包含源于一个单一类的案例。
如果一组数据中只包含一个单一的类,那么这些类被认为是纯的。
有许多不同的度量纯度的方法,它们可以用来确定分割的标准。
第3章对肝癌分类及预测的实证研究
3.1变量的选择
人体中各种细胞形态多样,那是因为有细胞骨架的存在,这些是靠基因的选择性表达产生特定的细胞骨架,从而维持细胞的特殊形态。
而癌细胞的变异失去了这些控制细胞骨架结构的基因的表达,细胞无法维持正常的形态,就在最基本表面张力的物理原理的作用下变成了球形。
癌细胞的特征似乎和细胞核的形状和大小有关,所以根据临床上面的临床医生和癌细胞病变的机理和原因,我们将癌细胞的形态特征和良性和恶性联系到了一起,这与临床上用显微镜检测观察细胞的外观来判别癌细胞是良性的还是恶性的有共同之处,所以我们选择能反应其特征的十个外观特征来作为判别预测是否为癌细胞的基本依据。
■半径(Radius)
■质地(Texture)
■周长(Perimeter)
■面积(Area)
■光滑度(Smoothness)
■致密性(Compactness)
■凹度(Concavity)
■凹点(Concavepoints)
■对称性(Symmetry)
■分形维数(Fractaldimension)
根据变量的名称,我们发现这些变量的特征大都反应细胞核的形状和大小,从一个癌症医师那里我们可以得知这些变量的特征都是和癌细胞的良性和恶性的分类联系到一块的,所以我们选择的数据变量如下表所示:
表3.1变量选择展示表
diagnosis
radius
texture
perimeter
area
smoothness
……
dimension
B
12.32
12.39
78.85
464.1
0.1028
……
0.05955
B
10.6
18.95
69.28
346.4
0.09688
……
0.06491
B
11.04
16.83
70.92
373.2
0.1077
……
0.0634
B
11.28
13.39
73
384.8
0.1164
……
0.06072
B
15.19
13.21
97.65
711.8
0.07963
……
0.05544
B
11.57
19.04
74.2
409.7
0.08546
……
0.06267
B
11.51
23.93
74.52
403.5
0.09261
……
0.0657
M
13.81
23.75
91.56
597.8
0.1323
……
0.07421
B
10.49
19.29
67.41
336.1
0.09989
……
0.06481
B
11.06
14.96
71.49
373.9
0.1033
……
0.06907
M
20.59
21.24
137.8
1320
0.1085
……
0.06222
B
12.25
17.94
78.27
460.3
0.08654
……
0.06228
B
13.14
20.74
85.98
536.9
0.08675
……
0.0602
B
13.05
19.31
82.61
527.2
0.0806
……
0.05501
M
19.59
25
127.7
1191
0.1032
……
0.05391
B
14.59
22.68
96.39
657.1
0.08473
……
0.06147
B
15.71
13.93
102
761.7
0.09462
……
0.05723
B
12.67
17.3
81.25
489.9
0.1028
……
0.05984
M
20.09
23.86
134.7
1247
0.108
……
0.07469
……
……
……
……
……
……
……
……
M
15.28
22.41
98.92
710.6
0.09057
……
0.06317
B
14.53
13.98
93.86
644.2
0.1099
……
0.06121
M
21.37
15.1
141.3
1386
0.1001
……
0.06183
在这里的表中diagnosis的值有B和M两种,这里的值分别表示肿块是良性的和恶性的。
在这里我们经过鉴别的是有357个肿块是良性的,有212个肿块是恶性的。
并且这里的diagnosis值是我们分类和预测结果的主要判别依据。
我们选择的数据是包含569个样本和每个样本具有十个特征变量的数据集。
3.2多元变量的描述性特征
从上面的表格来看,在十个变量中,有些变量的的取值比较小,一般在10一下的数字如smoothness、compactness、concavity、points、symmetry、dimension几个变量,
但是有些变量就取值稍微大一点如area、texture、perimeter、radius等几个变量,这里我们首先看这些变量的一些描述性统计量如下表所示:
表3.2各变量的描述性统计量
summary
texture
perimeter
area
smoothness
concavity
points
Min.
9.71
43.79
143.5
0.05263
0
0
1stQu.
16.17
75.17
420.3
0.08637
0.02956
0.02031
Median
18.84
86.24
551.1
0.09587
0.06154
0.0335
Mean
19.29
91.97
654.9
0.09636
0.0888
0.04892
3rdQu.
321.8
104.1
782.7
0.1053
0.1307
0.074
Max.
39.28
188.5
2501
0.1634
0.4268
0.2012
上表可以看出,前三个变量的数值特征都比较大,后三个变量的数值特征都比较小,甚至达到了1以下。
这时要是研究变量的图形展示的话就要将变量1标准化或者是将变量利用正态变换公式将变量进行正态变换,变换之后的变量的差别就不会很大,这样就能在同一幅图中展示不同变量的变化情况。
所以这里我们将变量进行正态性变换。
用前20个样本的数据画出十个变量的星图如下图所示:
图3.1样本量量的星图
星图中的每一个角都表示一个变量,而角的长度表示变量的取值的大小,从上面的图像中可以看出对于这二十个样本中的每一个值,有些变量的额取值都比较大,有些变量的取值都比较小,这与变量的本身的性质有关系,一般都比较小的那一类变量他们的方差的取值都比较小。
图3.2样本的调和曲线图
从调和曲线图上来看,无论是恶性癌细胞还是良性的癌细胞其每个细胞的每个变量都具有相同的走势情况,这就使得人们很难利用自身的肉眼来判断一个细胞的所属种类,因此从统计学的角度来研究细胞的分类问题就显得非常的重要。
3.3用聚类分析方法判别预测癌细胞的种类
聚类分析依据不同的距离的度量方法将数据或者变量分到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,不同簇间的对象具有很大的差异性。
对癌细胞进行聚类分析时候,我们还选择10个能反应癌细胞良性与恶性的特征变量为依据来进行聚类,这里我们选择“最长距离法”、“类平均法”和“离差平方和”来度量聚类的距离分别进行聚类。
得到的最终结果如下图所示:
图3.3最长距离法聚类图
从上图的聚类结果来看,聚类的结果不是很理想,这里大体上讲569个样本癌细胞分成了三大类,聚类图的最左边的143个样本量归属于单独的两类,右边的一大类属于单独的一类,这里的情况是右边的单独的一大类中又分成了两小类,左边的一小类含有几乎所有的B类细胞,右边的一小类中几乎含有所有的M类细胞。
而在聚类图的左边的两类中既含有B类细胞又含有M类细胞。
图3.4类平均法聚类图
由类平均法聚类的结果来看,整体上没有将B类的细胞和M类的细胞彻底的分开,这类的聚类的结果不理想,这里我们可以不以考虑。
图3.5离差平方和法聚类图
在离差平方和距离的聚类图中,我们可以清楚的看到,该种方法完美的将两种癌症细胞区别开来,从从图上来看,所有的癌细胞被区分成了两大类,最左边的一类属于B类细胞,分到这里的细胞一共有362个其中有334个是良性的28个是恶性的。
被分到M类的细胞中一共有207个其中真正的恶性的细胞有184个,有23个是良性的M类细胞,从这里来看聚类分析的聚类正确率为(334+184)/569=91%
即若一个未知的细胞放到这里进行聚类则被正确分类的概率是0.91,从绝对数上来说也是一种非常不错的分类方法。
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。
K
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 分析