使用旋转森林分类癌症汇编.docx
- 文档编号:27475340
- 上传时间:2023-07-01
- 格式:DOCX
- 页数:23
- 大小:1.71MB
使用旋转森林分类癌症汇编.docx
《使用旋转森林分类癌症汇编.docx》由会员分享,可在线阅读,更多相关《使用旋转森林分类癌症汇编.docx(23页珍藏版)》请在冰豆网上搜索。
使用旋转森林分类癌症汇编
使用旋转森林分类癌症
【摘要】我们处理使用新提出的多个分类器系统(MCS)的微阵列数据集为基础的癌症分类,为旋转森林。
尽我们所知,这是第一次旋转森林已经应用于微阵列数据集的分类。
在旋转森林的框架,需要一个线性变换方法对项目数据到新的特征空间中的每个分类器,并
然后将基分类被训练在不同的新的空间,以提高基分类的两个精度,并在分集集成系统。
主成分分析(PCA),非参数判别分析(NDA)和随机突起(RP)的施加以特色在原有旋转林改造。
在本文中,我们使用独立成分分析(ICA)作为一种新的转型。
关键词:
癌症分类科幻阳离子;DNA微阵列数据集;多个分类器系统(MCS);旋转森林;线性变换方法
1.介绍
与微阵列技术的发展,它是POS-sible对于那些诊断和分类某些特定的易拉罐核证减排量直接基于DNA微阵列数据集。
到现在为止,越来越多的新的预测,分类音响阳离子和集群技术正被用于微阵列数据的分析。
为例如,戈卢布等。
[1]利用最近邻方法分类科幻ER方法的急性髓细胞淋巴瘤分类科幻阳离子(AML)和急性白血病淋巴瘤(ALL)的儿童。
和一些研究已经报道了关于微的应用分子分类科幻阳离子阵列基因表达数据分析癌症。
简言之,微阵列实验导致之间TU-MORS分子变化的一个更完整的理解,并因此以一音响仪,更可靠的分类音响阳离子。
如何有史以来,微阵列数据集的一个特征是,收集的肿瘤样本的数目趋于比基因的数量要少得多。
也就是说,对于前者的数目往往是几十或几百的量级,而微阵列数据集通常包含数千个基因的每个芯片上。
同时,芯片的数据集通常包含每个芯片上数千个基因。
因为它是一个典型的“大P,小N”的问题[4],对于基因表达数据分析中英法fi古老而EF-fective方法仍然是一个挑战。
目前各种算法和数学模型已经提出了用于管理,分析和interpre-塔季翁微阵列数据集。
和许多研究人员仍在致力于不同的线性或非线性CLAS-SI网络阳离子系统的设计。
然而,应当指出,一个单一的分类音响阳离子系统不能总是导致高分类音响阳离子精度。
相反,多个分类器系统(MCS)被证明是在许多网络连接的视场更加精确和鲁棒比优异的单一分类器[5]。
虽然MCS的微阵列数据集分类科幻阳离子应用仍然是一个新的科幻场,最近的一些不同的MCS已经提出来处理微阵列数据分类音响阳离子问题。
例如,Dettling等。
[6]用于肿瘤分类科幻阳离子的修订提升算法,拉莫净人。
[7]采用随机森林可以同时解决这两个基因的筛选和分类音响阳离子问题,彭[8]专为微阵列数据集预测的SVM集成系统。
旋转森林是新近提出的合奏系统[9]。
相比与提出的合奏系统,如袋更改[10],助推[11],随机森林[12],它是更加健壮,因为它总是可以提高精度个别分类器,并在合奏的同时尽我们的知识的多样性,还存在着没有任何文件讨论旋转森林的应用程序的芯片集的预测至今。
旋转森林是建立了一套决策树。
对于每一个树,从原始训练集合中提取的引导样品通过构造新的训练集。
然后将新的训练集的特征集被随机分成一些子集,这些转化在dividually线性变换方法因此,一个完整的功能集与重建中乐团每个树全部转化功能。
由于轴的旋转小可以构建一个完整的不同的树,合奏系统的多样性可以通过改造来保证。
最后,所有的树木的输出由平均规则融合。
在文献[9,13],主成分分析(PCA),非参数判别分析(NDA)和随机突起(RP)的被采纳作为转化方法。
其中,可以发现,基于PCA的旋转森林表现最好的。
当施加旋转森林到微阵列数据集分类音响阳离子,很直观地注意到,独立分量分析(ICA)是一种更有前途的候选与其它的线性变换方法相比。
事实上,ICA变换方法已应用于微阵列数据集的分析取得了巨大成功,许多基于ICA的方法已经被提出来处理微阵列数据最近。
例如,Liebermeister施加ICA到基因表达数据,用于导出一个线性模型基于隐变量[14];
Lee等人。
[15]投影微阵列数据转换成统计上独立的组件(IC)的具有线性和非线性的ICA,结果发现ICA优于其它学习算法;Zhang等人。
[16]提取的一组对应于基于ICA的临床使用的一组生物标志物的正常和肿瘤组织中特定网络连接Ç诊断模式。
因此在本文中,ICA也部署为线性变换方法,其以旋转森林的性能贡献将与其他的转化方法进行比较。
为了验证旋转森林的性能,它使用两个公知的微阵列数据集,即评估,乳腺癌数据集[3]和前列腺癌的数据集[17]的分类音响阳离子性能对不同的MCS.The比较是有两种广泛进行部署方法:
Bagging[10]和Boosting[11]。
本文的其余部分安排如下。
在第2节中,旋转森林的框架进行详细说明。
第3节介绍来选择合适的基因分类科幻阳离子滤波器方法,在第4节,实验结果和应的讨论被证实。
第5节总结本文有几个结论。
2.方法
2.1。
旋转森林的描述
MCS是机器学习和模式识别一个活跃的研究科幻场。
一个英法ficientMCS包括准确和多样化的基础分类音响器。
即,在一个健壮的MCS使用的碱分类音响器要高,分类音响阳离子精度和避免重合误差。
以这种方式,一个样品misclassi科幻由基分类器编将由他人被校正,所以熔融输出比最佳个体分类器的更准确。
无收益将融合的分类音响器产生相同的输出时,可以实现。
通常用于在MCS.每个基分类器的精确度的差异的冲突是,更准确的基分类音响器是,下它们之间的差异是。
因此,许多方法已被提出来achievethe的多样性和准确性之间的MCS的设计折衷[5]。
然而,旋转森林能避免这种困境,建立精确的和多样化的基本分类音响器外汇基金ficiently。
其框架被描述如下。
设X是训练样本集,Y是相应标签和F是功能集。
假定有N个训练样本和n个特征中的阵列数据集,则X是N×n矩阵。
让是集合类标签
从其中Y取值。
假设该功能集是随机分成K个子集与近似大小,有L个决策树在旋转森林,这是由表示
,此处,L和K分别是应事先确定的两个参数。
训练单个分类器D所设定的处理有以下步骤:
第1步:
分离˚F成K脱节的子集随机。
假设每个功能子集包含M=N/K的功能。
第2步:
让FBE第j个特征进行训练分类器ð子集,X是数据集X的每个子集在F.的特点,一个类的非空子集选自X随机。
然后对象的引导子集绘制的数据集的75%的大小,以形成一个新的训练集,其记为X在此之后,线性变换被操作上
以产生在基质中的系数
由系数记
各X的大小是M×1
步骤3:
构造一个稀疏旋转矩阵R用矩阵C所获得的系数,具体如下:
R的列应按照原特征的序列被重新安排,并且重新排列的旋转矩阵是由R.表示接着对分类器的转化训练集D是XR。
这样一来,所有的分类音响器将被训练并行的方式。
在分类科幻阳离子阶段,给定一个测试样本x,令d(xR的)是由分类器迪到x属于j类的假设产生的概率。
那么置信一类是计算出来的平均相结合的方法:
和x被分配给类具有最大置信音响应受。
旋转森林的成功在于通过线性变换子集构建旋转矩阵的应用。
作为旋转是有价值在旋转森林的多样性,如在文献分析[10],一个有效的和英法ficient转化方法是重要的,以旋转矩阵,所以变换方法会影响网络连接最终分类音响阳离子精度。
在实验中,我们发现PCA给出最佳结果与NDA和RP[13]相比较。
但作者没有考虑另一个有前途的线性变换方法,即,ICA,它在许多方面上的PCA更大的优势。
首先,它提供了一个更好的数据,从而可以更好地识别,其中数据集中在n维空间的模型。
其次,可以科幻十二次一个不必然正交基,其可以重建比PCA更好的噪声的存在的数据。
最后,它是在数据的高阶统计敏感,而不仅仅是协方差矩阵[18]。
因此,当与芯片处理的数据集,ICA转型比PCA更有效。
基于这样的考虑,ICA被本文采用,并且它的英法fi效率将与在实验中的其他转化方法进行比较。
在旋转森林,PCA和ICA变换对数据集的过程的框架内是相似的。
当一个数据集是由PCA/ICA,所有的主成分(PC机)的转换/集成电路保持保留的歧视性信息。
改造后的轴被最佳地旋转。
相反,科幻nding良好判别能力方向,旋转为主有助于分类音响器的多样性的产生,而不削弱个人分类音响器。
以这种方式,多样性和准确性的问题可以同时解决。
此外,稀疏的RP方法引入与在文献[13]中良好的性能。
用这种方法,大小为n的稀疏变换矩阵×n被内置式。
(1)通过随机取样从standardnormal分布~N(0,1)的非零元素。
据报道,良好的结果与此反相方法[13]获得的,因此,除了PCA和ICA的,这种方法也被采用在本研究比较。
2.2。
该滤波器的方法进行基因选择
在一个典型的微阵列数据集,有数以千计的基因特性。
然后,如果旋转森林被施加到微阵列数据集直接进行分类,与成千上万尺寸的旋转矩阵,需要为每个树,这大大增加了计算复杂度。
作为基因只有一小部分是在实践中的兴趣,要求降维技术,以确保肿瘤样品可通过几个重要的基因被表示。
为了实现这一目标,三个不同的滤波器的方法是在此使用:
两个sample-statistic方法中,信噪比(SNR)的方法[19]和互信息(MI)的基础方法[20]。
这些方法是基于对基因重要性评估不同的原则。
的前两个方法是基于某种程度的相关性的,而最后是基于功能和类之间的经验的MI。
用不同的方法,不同的特征子集将被建造,然后即使在同一分类器被用于不同的结果将被获得。
这样的不同的滤波器的方法的应用将被用于验证旋转森林的稳健性。
3.实验结果
我们运用旋转森林到两个著名的癌症数据集:
乳腺癌的数据集和前列腺癌的数据集。
该网络首先数据集包括从谁开发转移内部网络46妇女的数据已经年和51谁仍然无病中的网络连接已经几年,随着表达水平的24188个基因。
相应分类音响阳离子任务是亚临床转移的存在分类。
所述第二数据集包括59个非肿瘤前列腺和77前列腺肿瘤样品,与表达水平为12600个基因。
相应分类音响阳离子的任务是在正常和肿瘤样品分类。
在实验中,两个数据集进行预处理音响首先在[21]中提出的方案,并且所有实验是基于对训练和测试集的原始分割。
详细地说,有78个训练样本,并在乳腺癌数据集19的测试样品和102的训练样本和35个测试样品中的前列腺癌的数据集,分别。
为了比较,套袋[10]和Boosting[11]也被施加到两个微阵列数据集。
这里,快速独立分量分析[22]采用实施ICA变换,和基分类器对于每个MCS距离WEKA库[23]J48决策树。
在所有的实验中,可以发现,该实验结果接近使用任一修剪或未修剪的树作为碱分类器,所以只使用修剪树的结果显示在此处。
修剪算法J48的置信值设定为25%的在所有实验中的默认。
表1示出的前100个基因的三个滤波器的方法中选择的标识。
假发现率(FDR)是一个功能强大的标准来挑选与基因差异表达,这是提出了文献[24]。
在此,用于分析所选择的基因的统计冗余。
要选择这些顶级的100个基因,相应的FDR率设定为相对高的水平,如表1所列。
如此看来,还存在这些子集的一些多余的基因。
然而,这些高FDR率仍然可以接受的,因为本研究的主要目的是与大量的基因测试旋转森林的性能。
由相应的顶部的基因而获得的单一的决定树的分类音响阳离子结果示于图。
1.从这张图,可以发现,对于这两种癌症数据集最高准确度只是略微高于0.5,即,比随机猜测仅稍好,与此同时,最坏的精度两个数据集比0.5低得多。
所以决策树远未准确分类器时,直接施加到两个数据集。
乳腺癌数据集
SNR
t–test
前列腺癌的数据集
SNR
t检验
很明显,旋转森林的性能将是具有不同数目的分割部分(K)的不同。
但比较由设置K为10,20和25获得的结果时,分别发现在不同条件下的结果稍有不同,并且没有一个参数采取明显的优势。
所以之间没有一致的关系分类科幻阳离子准确性和K,这也指出了[13]。
此处K被设定为10在所有实验中,这需要在实验中至少计算成本不同于许多方法,在我们所有的实验中,没有明确的关系已被特征的数量和分类音响阳离子精度在旋转森林的应用程序之间找到。
乳腺癌数据集的典型结果示于图。
2,这是基于对10棵与10个独立运行的合奏获得。
从图。
2,我们可以第二科幻,最好的分类科幻阳离子结果不与100个基因获得。
Andwhen超过50个基因被部署时,结果通常是良好而稳定使用所有滤波器的方法。
基于ICA变换获得的平均精确度是最高的与那些由PCA和反相得到比较的最低标准偏差。
如此看来,ICA转型更强劲的旋转森林。
类似的结论是对前列腺数据集部署多个基本分类音响器的旋转森林或测试时,也招来
。
总之,分类音响阳离子准确性不会总是当更多的功能部署增加。
但是,当功能集的大小足够大,其结果将是稳定的,所有的转化方法。
这样的功能集的大小被设定为100,在下面的实验中,这导致在10特征中的每个特征的子集。
虽然它不是为旋转森林的最佳参数,如图所示。
2,结果仍然满足,这证明旋转森林是具有不同尺寸的合奏robust.The平均结果示于图3.从图。
3,可以发现,当施加到相同的微阵列数据集,每一个整体方法的性能差别很大不同的滤波器的方法。
而随着集合规模的增大,平均分类科幻阳离子精度不断上升,除了运用套袋前列腺数据集。
当直接施用于前列腺数据集,所述在合奏每棵树的SI网络阳离子精度约为或低于0.5甚至更低。
如套袋是基于所有基分类音响器“输出端的融合,其性能由弱碱分类音响器抑制,套袋的平均精度将即使有碱分类音响器的数量的增加而降低。
与套袋相比,增压达到更好的效果,通常在多个基本分类音响器部署。
究其原因是因为它的学习算法强制分类连接器专注于misclassi网络由前分类音响。
当从平均分类科幻阳离子的准确性,Bagging在大多数情况下,执行最差。
助推只得到使用MI滤波器法大合奏尺寸乳腺癌数据集的
最高分数。
相比之下,旋转森林做得好时大概只有10或20个碱基网络分类器进行了部署。
而它的性能更好,更好地与集合规模的增加。
该主要原因旋转森林的成功改造方法的应用。
在实验中,可以发现,对于所有的线性变换方法中,单个的精度树将接近或者比两个数据集的70%,甚至更高。
所以旋转森林的基础分类音响器比装袋和Boosting更好。
此外,由于由旋转策略保证的多样性,该合奏系统比一个碱基分类器更精确。
其结果是,与合奏尺寸的增加,该分类音响阳离子精度不断上升。
在一般情况下,旋转林表现最好用两个数据集所有滤波器方法优势明显。
有人还发现,不同的特征选择方法,旋转森林的表现会有所不同转化方法。
当MI和tstatisti
基于滤波器方法应用,ICA旋转森林的性能一般比其他两种转型方式较好。
但随着SNR滤波器的方法,没有三个转化方法了明显的优势,为两个数据集。
基于此观察,可以得出结论,这些转化方法导致关闭performances.But基于ICA的旋转森林进行通常是最好的,这证明ICA时与微阵列数据集,处理比PCA和RP的更灵敏.
文献[25]提出了成对多样性的措施被广泛部署,以评估的对分类音响器,而校正的机会,这被命名为kappa统计之间的协议的水平。
给定两个分类音响器,D和D,为C级的问题,k是去网络上定义一个应急矩阵M是大小的c×C。
该矩阵的元素,m表示为其中D定为第i个类和D被标记为第j类的数据的比例。
D键D之间的协议是由计算
是,这两个分类音响器同意的概率,并且“ABC”是“同意逐机会”,这是由下式给出
K=1,只有当网络分类器产生相同的类标签。
如果k=0,则分类音响ersare完全独立并且两个分类音响器的协议等于所期望的机会。
并更希望当k<0时,它是“负的依赖”。
在这种情况下,当一个分类器发生故障,其他有超过随机机会修正它。
对的L-分类音响器的合奏,有(L-1)×L/2双分类音响器D和d。
对于一个卡伯误差图,x轴是第k为一对,而y轴是平均个体误差,这是由E=(EE)/2,其中E和E是计算D键D,分别的错误率。
作为k的一个小的值表示合奏之间更好的多样性,和E的一个小的值表示较好的性能,理想的合奏的图应是音响LLED在左下角的点。
当绘制卡伯误差的图表,可以发现旋转森林通常与每个变换方法的图是严重重叠和之间的距离质心是小的。
代替绘图的卡伯误差点云在同一曲线图对于每个数据集是这样,一个三维直方图与密度下方情节是用来说明由每个MCS获得的结果的分布。
图4示出用于乳腺癌的数据集用叔-statistics滤波器方法的卡伯误差图。
由于每个合奏包括100分类音响器,其结果与10不知疲倦测试吊灯运行,有49500点的科幻居雷什。
为了清楚地说明的结果,不同的MCS的质心绘于图4(f)中,这表明旋转森林更精确但比Bagging和Boosting少多样。
和比较从图的结果时。
很明显,该基地分类音响器是不够准确,因为最低的平均成对误差只能达到0.37,最高为约0.44。
虽然个人网络分类器不够好,这些分类音响器的英法ficient融合仍然会导致良好性能,如图所示。
3。
它应该是学习图时指出。
图4和图3(c),似乎越AC-策展基本分类音响器的,更高的平均准确的科幻最终合奏将是。
然而,它并非总是如此寻址其他滤波器的方法获得的结果时。
从图。
4,可以发现,基于反相和ICA旋转林可导致更高的成对的精度与基于旋转森林的PCA相比。
类似的结论可以得出当比较其他滤波器方法的结果。
表2示出的最佳分类音响阳离子精度的结果为两数据集具有不同的滤波器方法时,合奏尺寸从1变化到100。
在原始研究,对乳腺癌的数据集,包括三个步骤监督分类音响阳离子方法被部署来选择70个基因,然后将其用于构建聚类分类器用于分类音响阳离子[3];对于前列腺癌的数据集时,SNR滤波器方法被部署来构建-4-基因和16基因基于K-NN的模型,分别,然后将其训练和对原始和归一化数据集[17]进行测试。
为了比较的目的,从最初的研究中获得的结果也列。
从表2中,有趣的是,科幻第二,虽然套袋的平均结果和Boosting不够好,他们仍然可以达到很高的分类科幻阳离子精度有时。
然而,它们的结果并不比最好原始结果在所有情况下更好。
与此相反,旋转森林导致在所有情况下用更少的碱分类音响器的最佳效果。
再次,基于ICA旋转森林得到一个小集合规模的最好成绩,通常,这是一致给出above.At同时观察,应该指出的是,在本研究中所用的基因组仍处于相对高的FDR水平。
因此可以预期,当音响滤波的过程被仔细控制以获得基因组在较低FDR等级,分类音响阳离子精度可进一步提高。
4.结论
在本文中,我们采用旋转森林,以解决芯片数据分类科幻阳离子问题。
在此合奏方案中,旋转矩阵构造有变换功能,使得样品是在一个新的轴线分类音响编辑。
以这种方式,一组不同的和准确的树木获得构建一个健壮的旋转森林。
在最初的研究中,PCA和RP被部署到了转型。
除了他们,另外一个英法ficient变换方法,ICA,也被用来在这里项目特点。
在实验中,叔-statistics,信噪比和MI基于滤波器的方法被部署来选择基因的一小部分科幻rstly。
然后,旋转森林所选择的子集被操作。
为了评价旋转森林,套袋的性能,并也适用于比较增压技术。
实验结果表明,旋转森林是一个强大的方法,微阵列分类音响阳离子,这通常会导致最高的精度,尤其是对于小尺寸的合奏。
此外,ICA基于旋转森林是一个新的,更强大的方法与PCA或RP比较。
兴趣冲突声明无申报。
参考[1]T.R.Golub,D.K.Slonim,P.Tamayo,C.Huard,M.Gaasenbeek,
J.P.Mesirov,H.Coller,M.L.Loh,J.R.Downing,M.A.Caligiuri,
C.D.Bloomfield,E.S.Lander,Molecularclassificationofcancer:
class
discoveryandclasspredictionbygeneexpressionmonitoring,Science
286(1999)531–537.
[2]U.Alon,N.Barkai,D.A.Notterman,K.Gish,S.Ybarra,D.Mack,
A.J.Levine,Broadpatternsofgeneexpressionrevealedbyclustering
analysisoftumorandnormalcolontissuesprobedbyoligonucleotide
arrays,Proc.Natl.Acad.Sci.USA96(1999)6745–6750.
[3]L.J.van’tVeer,H.Dai,M.J.VanDeVijver,Y.D.He,A.A.M.Hart,M.
Mao,H.L.Peterse,K.VanDerKooy,M.J.Marton,A.T.Witteveen,G.J.
Schreiber,R.M.Kerkhoven,C.Roberts,P.S.Linsley,R.Bernards,S.H.
Friend,Geneexpressionprofilingpredictsclinicaloutcomeofbreast
cancer,Nature415(2002)530–536.
[4]M.West,BayesianFactorRegressionModelsinthe‘Largep,Smalln’
Paradigm,BayesianStat.7(2003)723–732.
[5]L.I.Kuncheva,CombiningPatternClassifiers:
MethodsandAlgorithms,
Wiley,NewYork,2004.
[6]M.Dettling,P.Bu˝hlmann,Boostingfortumorclassificationwithgene
expressiondata,Bioinformatics19(9)(2003)1061–1069.
[7]D.U.Ramo˝n,A.D.A.Sara,Geneselectionandclassificationof
microarraydatausingrandomforest,BMCBioinformatics7(2006).
[8]Y.Peng,Anovelensemblemachinelearningforrobustmicroarraydata
classification,Comput.inBiol.Med.36(2006)553–573.
[9]J.J.Rodriguez,L.I.Kuncheva,C.J.Alonso,RotationForest:
anew
classifierensemblemethod,IEEETrans.PatternAnal.Mach.Intell.28
(2006)1619–1630.
[10]L.Breiman,Baggingpredictors,Mach.Learn.24(1996)123–140.
[11]Y.Freund,R.E.Schapire,Adecision-theoreticgeneralizationofon-line
learningandanapplicationtoboosting,J.Comput.Syst.Sci.55(1997)
119–139.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 使用 旋转 森林 分类 癌症 汇编