关于DNA序列分类问题的模型_精品文档.pdf

文档编号：3177708
上传时间：2022-11-19
格式：PDF
页数：7
大小：184.17KB

《关于DNA序列分类问题的模型_精品文档.pdf》由会员分享，可在线阅读，更多相关《关于DNA序列分类问题的模型_精品文档.pdf（7页珍藏版）》请在冰豆网上搜索。

关于DNA序列分类问题的模型_精品文档.pdf

第31卷第1期2001年1月数学的实践与认识MATHEMATICSINPRACTICEANDTHEORYVol131No11Jan.2001sequences.ThesecondistheperiodicpropertyoftheDNAsequences.Thethirdisthatamountofinformationofthesequences.Byusingthismethod,weclassifythenaturesequencesandartificalsequences.Atlast,weanalyzethecharacteristicinthismodelandconsiderthegeneralizationofthismodel.关于DNA序列分类问题的模型冯涛,康吉吉雯,韩小军指导老师:

贺明峰（大连理工大学,大连116024）编者按:

本文以统计方法提取样本特征,以之作为BP神经网络的输入,用MATLAB中相应算法进行训练.然后用于解决本分类问题,得到了较准确的结果.本文提取特征时考虑较为全面,在此基础上正确地运用了神经网络方法,发挥了神经网络适用于非线性问题、具有自适应能力的优点.思路清楚,文字简练.摘要:

本文提出了一种将人工神经元网络用于DNA分类的方法.作者首先应用概率统计的方法对20个已知类别的人工DNA序列进行特征提取,形成DNA序列的特征向量,并将之作为样本输入BP神经网络进行学习.作者应用了MATLAB软件包中的NeuralNetworkToolbox（神经网络工具箱）中的反向传播（BackpropagationBP）算法来训练神经网络.在本文中,作者构造了两个三层BP神经网络,将提取的DNA特征向量集作为样本分别输入这两个网络进行学习.通过训练后,将20个未分类的人工序列样本和182个自然序列样本提取特征形成特征向量并输入两个网络进行分类.结果表明:

本文中提出的分类方法能够以很高的正确率和精度对DNA序列进行分类,将人工神经元网络用于DNA序列分类是完全可行的.1问题重述（略）DNA序列由四个碱基A、T、C、G按一定规律排列而成.已知所给人工序列1-10属于A类,11-20属于B类.本题中,我们的主要工作有两个:

1）提取A、B两类特征;2）以所提取A、B两类特征为依据,把20个人工序列及182个自然序列分为A、B两类（可能存在同时不具有A、B两类特征,不能归为A、B中任一类的序列）.在本题中,先以序列1-20为依据,提取出A、B两类序列的统计特征,然后运用神经网络中的BP网络对未知序列进行了分类识别.2模型建立的理论依据神经网络是近年来发展的一种大规模并行分布处理的非线性系统1,其主要特点有:

1）能以任意精度逼近任意给定连续的非线性函数;2）对复杂不确定问题具有自适应和自学习能力;3）具有较强的容错能力和信息综合能力,能同时处理定量和定性的信息,能很好地协调多种输入信息的关系.传统的分类识别方法,对于一般非线性系统的识别很困难,而神经网络却为此提供了一1995-2006TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.个强有力的工具.它实质上是选择了一个适当的神经网络模型来逼近实际系统.目前,在神经网络中应用最多的是BP网络.对于具有n个输入节点,m个输出节点的BP网络,输入到输出的关系可以看作是一个n维欧式空间到m维欧式空间的映射,F:

RnRm,这一映射是高度非线性映射.K.T.Funahashi于1989年证明了这样的一个定理2:

如果BP网络隐层节点可以根据问题的不同作相应的配置的话,那么用三层的激励函数为双曲线正切型的BP网络,可以以任意精度逼近任意连续函数.这一定理保证了BP网络在分类识别问题中的可用性.将复杂系统看作是一个黑箱,以实测输入,输出数据为学习样本,送入BP网络,网络通过样本进行学习,在学习过程中,网络的权值不断地修改3,使输入到输出的映象逐渐与实际对象的特性相逼近,但网络输出的整体误差E小于给定的标准时,整个网络便模拟出实际系统的外部特性.实际分类识别问题中,输入空间一般是多维欧式空间,我们可以计算空间中点与点的欧式距离,并根据这些距离知道哪些样本互相靠得近,哪些样本相距甚远,也就是说在输入空间中存在着一个距离度量,只要输入模式接近于某个输出模式,由于BP网络所具有的联想记忆能力,则网络的输出亦会接近学习样本的输出.3模型的基本假设1）假设碱基序列的特征值包括以下两个内容:

（1）单个碱基在序列中的数量特征,即A,T,C,G四种碱基在序列中的含量;

（2）特征碱基串在序列中的数量特征（包括双字符碱基串和三字符碱基串）.2）由于给定的已知碱基序列是从DNA全序列中随机截取出来的,因此无法确定序列的起始位,无法从序列中辨认出氨基酸.假设在对DNA序列分类时,是从碱基层次上进行分类,而不是从氨基酸层次上分类.4模型的建立与求解4.1提取A、B两类的特征经过计算,我们提取出A、B两类的统计特征（a）和（b）,具体方法如下:

特征（a）:

单个字符出现的频率.特征（a）对应基本假设1中的第1条对1-20每个人工序列,我们统计出单个字符A、T、C、G出现的频率Pi,Pi=Ti?

（SM+1）,i=A,T,C,GS为序列长度,M为字符长度（这里,M=1）,Ti为每个序列中i出现的次数.序列1-20特征（a）的数值如下:

（略）特征（b）:

特征字符串出现的频率.特征（b）对应基本假设1中的第2条通过对序列1-20种A、T、C、G四字母的不同组合（如两两组合,三三组合,四四组合）出现频率的分析,可以知道:

对于双字符串和三字符串,均出现了数种多次出现较有规律的组合形式,而对于四四组合及更长的组合,字符串重复出现的频率小,分散度大,未得出较有规律的组合方式.我们认为:

充分统计并分析序列1-20种双字符串及三字符串出现的规律已能较为全面地认识序列中的局部相关性及A、B两类的特征差异.因此,只对序列1-20种的双、三字符串进行统计分析,找出特征双字符串,特征三字符串.721期冯涛等:

关于DNA序列分类问题的模型1995-2006TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.以下是以提取特征三字符串为例介绍统计算法:

第一步确定各字符串的优先权重三字符串共有64种可能排列方式,对这些三字符串进行初次排列,确定优先权重.以A类序列1为例,aggcacggaa.gcttgg.1）指针指向第一个字符a,向后数两个字符,第一个出现的三字符串是agg,记录agg.2）指针向后移一个字符,第二个出现的三字符串是ggc.3）以此类推,记录到该序列中最后一个三字符串（tgg）（特别的,如果相邻两个字符串完全相同,只纪录一次）.同理可得序列2-10种所有出现的三字符串,最后把A类中所有这些三字符串按其出现频率大小进行排序,出现频率多的字符串优先权重就大.第二步选出特征字符串,对字符串进行二次排序,找出特征字符串.仍以A类序列1为例:

aggcacggaa1）先考虑前5个字符,aggca,其中包含了3个三字符串:

agg,ggc,gca,按第一步所得的三字符串优先权重的大小,确定这3个字符串中有一个为特征字符串（如果ggc在前10个序列中出现的频率比agg和gca大,那么在本例中就选ggc,而不考虑第一个字符a）.2）再把指针移至特征字符串后的第一个字符（本例中移向a）重复

（1）操作.以此类推,直至找出A类序列1-10种所有特征字符串.我们采用分类统计的方法进行排序,B类的操作方法同A类.第三步把A、B两类的所有特征字符串进行排序,计算出每个特征字符串在两类序列（1-20）中出现的总次数.如果小于5次,认为此字符串不能体现A、B两类的特征差异,不予考虑.这样,统计出1-20中出现频率较大的特征三字符串（共21种）,他们在每个序列中出现的频率为:

33该字符串在本序列中出现的次数?

（SM+1）,这里,M=3）统计特征二字符串时,采取类似的方法,得出15个特征二字符串:

他们在每个序列中出现的频率为:

23该字符串在本序列中出现的次数?

（SM+1）,这里,M=3）.4.2网络输入与输出变量的选取及处理选取网络的输入变量时,如输入变量过少,能引起建模不充分,过多的输入变量会降低网络的学习速度,延长收敛时间,使模型的输入输出关系过于复杂.结合本题的实际情况,我们提出两套输入变量选取方案.方案1输入每个序列中单字符及特征三字符串出现的频率（共25个输入变量）方案2输入每个序列中单字符及特征双字符串出现的频率（共19个输入变量）如果要同时考虑单字符,特征双、三字符串出现的频率共需40个输入变量,模型过于复杂.因此,暂不考虑这种方案.规定:

A类序列的期望输出值为-1,B类为1.这样,通过观察BP网络的输出值,可以直观地判断未知序列的类别.4.3BP网络的结构与参数BP网络的结构与参数决定着网络学习的效果和分类识别的精度.其中,输入、输出节点数由实际问题决定,本题中输出节点为1个.需要选择的是网络的激发函数,隐层数及各层隐节点数.对方案1、2,各构造网络1、2与之相对应.对于这两个网络,均选用三层BP网络,各层82数学的实践与认识31卷1995-2006TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.激发函数均为双曲线正切函数（函数值在-1+1之间变化）.R.PLippmann研究中指出4:

对于任给K个实数值样本,有2K+1个隐节点的三层网络可以记忆它们,这个隐单元的激发函数可以是任何渐近函数.基于这一结论,我们根据样本集的规模,选隐层节点数N=5,这样可使网络有能力记忆全体样本,不至于在学习过程中丢失前面的学习过的样本的信息.4.4网络的训练及检验在已知类别序列120中,取A类前7个序列（17）和B类前7个序列（1117）作为训练样本集Strain,序列810、1820作为检验样本集Stest对网络1:

25-5-1及网络19-5-1进行训练,给定样本总体误差标准为10-5.当网络学习收敛于给定的标准后,用检验样本集进行分类检验,考察其分类识别的准确性.网络1、2的初始权值均为-012+012之间的随机数.学习算法采用了两种改进措施相结合的BP算法,即变周期和变步长相结合的方法,用以提高网络的收敛速度.在网络1开始训练时,学习率取019（网络2取110）,惯性系数取016（网络2取为017）,修正周期T取101随着误差E的减少,网络不断逼近对象的输出特性,此时,逐渐减少及,增大T,直至网络收敛于给定的标准.训练达到稳定时,两个网络对训练样本集的学习速率曲线如图1（a）和图2（a）（略）,此时对检验样本的检验结果如图1（b）和图2（b）（略）:

图1（a）和图2（a）,网络1进行了303步,网络2进行了241步的学习后,就达到了精度要求,均学习速率较快,效率较高.图1（b）和图2（b）,如果允许误差为10%,那么此时网络1对检验样本分类的准确性为9813%,网络2为9417%,命中率均为100%,我们将检验集加入到训练集中,得组合集Strain+test.网络用此集进行学习.收敛后,网络1、2可对未知序列进行分类识别了.5结果及分析511对人工序列2140的分类我们应用MATLAB软件包中的神经网络工具箱（BP网络）对未知序列进行分类.我们发现:

若以高于019和低于-019作为分类标准,两个BP网络的命中率相同,但输出函数值不等,网络1的输出值与期望值更接近.这种情况出现的原因是:

网络2中输入变量较网络1少,在样本集个数相同的情况下,建模不够充分;双字符串的组合形式较三字符串少,因此,采用特征三字符串能能更好的体现序列中片段的相关性.经过反复训练、检验、分类,我们发现:

网络1较网络2学习速度快,对未知序列