主流可变剪切软件识别原理Word文档格式.docx
- 文档编号:15182902
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:8
- 大小:387.81KB
主流可变剪切软件识别原理Word文档格式.docx
《主流可变剪切软件识别原理Word文档格式.docx》由会员分享,可在线阅读,更多相关《主流可变剪切软件识别原理Word文档格式.docx(8页珍藏版)》请在冰豆网上搜索。
1.外显子跳读(图1A)即在进行序列剪切时会跳过一个外显子。
2.互斥外显子(图1B)即进行序列剪切时存在两个外显子,二者选一进行剪切。
3.内含子保留(图1C)即剪切时不剪切内含子。
4.可变5’供体(图1D)即剪切上游长度不定的外显子。
5.可变3’受体(图1E)即剪切下游长度不定的外显子。
需要完整的转录注释文件,而是使用ASMs局部化搜寻可变剪切位点,这种局部化能够减少样品间相应的ASMs模块比较复杂度。
DiffSplice首先会融合所有样品的RNA-seq序列进行图谱拼接重组,预测所有类型的转录及可变剪切事件。
软件将外显子使用节点代替,若两个外显子节点间有reads覆盖则连接这两个节点。
然后会自动识别基因组区域相应的ASMs,每一条拼接序列都相当于单入口单出口的子图,不同的子图会产生分歧,这种分歧在不同子图进行比对时就会被识别为可变剪切位点。
转录组图谱拼接有两种方法,一种是根据基因组比对进行拼接,另一种是根据RNA-seq进行从头拼接。
接下来会使用ESG(表达权重拼接图谱)对ASMs进行识别,其中每个ASMs被定义为单条子图拼接图谱,其中小的ASMs会嵌入更大的ASMs子图谱中。
图3DiffSplice原理
DSGseq:
采用负二项式(NB)模型化阅读外显子,并且提出NB统计数值来检测两组样品基因中的全部外显子的不同剪切方式,这种方法是基于外显子而开发的新途径。
其他大部分的检测可变剪切的软件第一步都会将所有可变剪切类型进行评估,然后进行可变剪切类型的比例计算,这种机制往往会检测到许多额外的假阳性的可变剪切。
而DSGseq直接使用外显子来检测可变剪切类型,它不需要剪切类型组成的信息,也不需要剪切类型的表达量。
当两组样品进行比对时,外显子出现中部缺失的现象判定为内含子保留,两个外显子之间增加单一位置外显子为外显子跳跃,两个外显子之间增加多个位置外显子为外显子互斥,外显子5’或3’长度不同为可变供体或可变受体。
图4DSGseq原理
RNAexpress:
是一款界面友好、计算效率较高和计算方式灵活的新型注释软件,它不依赖其他主流的注释文件,能够有效的识别转录本与基因组及转录特征。
相较于其他只关注识别可变剪切的软件,RNAexpress功能更加强大,它能够识别一些非编码的长短链RNA、新的转录起始位点、可变启动子、RNA编辑位点和编码转录本的过程。
RNAexpress可识别BAM格式文件,输出GTF格式文件。
该软件简单易懂,允许用户添加新的类模块来建立新的识别算法。
RNAexpress分析过程分为以下6个阶段,每个阶段都有独立的输出文件。
1.数据的输入及转化
2.样品融合
3.选择算法(可选择外部GTF比对)
4.进行比对
5.序列调取
6.阅读计数
图5RNAexpress处理流程
iReckon:
该软件概率论算法合并了诸如新型可变剪切类型、内含子保留、未剪切前体mRNA、多重映射reads等机制,能够同时评估和发现可变剪切类型。
该软件使用了正则最大希期望值算法来发现及量化低表达量的新型可变剪切类型。
软件的工作流程分为三个步骤,首先软件会识别所有的可变剪切类型,然后根据识别的可变剪切类型重新排列reads,最后根据预测的可变剪切类型的丰度进行重建。
SplicingGraph:
是一款对鉴别真假可变剪切位点高度灵敏的软件,它能够在装配好的基因通路中捕捉单一结构,每个外显子相当于一个节点被内含子连在一起,不同内含子长度显示内含子有时不会被剪切,内含子之间有无节点或几个节点显示有内含子跳跃或选择性剪切事件,而这种紧密的结构使可变剪切更加简易,该软件还支持基因家族的可变剪切比对。
SplicingGraph是基于Sircah的基础上进行优化的软件,它增强了Sircah基于EST数据的可变剪切侦测能力,扩展了统计学、蛋白质和RNA-seq的预测数据包。
图6SplicingGraph原理
SplicingViewer:
是一款可以对可变剪切进行检测、注释和可视化的软件。
简而言之分为三个步骤(图7A)来深度测定RNA-seq数据的可变剪切。
首先,依据注释基因组使用read校准软件(MAQ,BWA,Bowtie,SOA2)校正短reads,SAMtools将映射成功的结果输出为SAM/BAM格式文件(图7B),继续使用GATK对已经公布的基因进行深度覆盖(图7C),未被映射到的reads会被用于接下来的剪切点校准。
然后,将已知基因模型及注释基因通过剪切位点原则(GT-AG,GC-AG,AT-AC)一起用于判定检测可能存在的剪切点(图7D)。
然后,那些未被映射的reads会被用于剪切位点的检测(图7E),判定标准为至少有两条reads覆盖到非重复匹配位点。
最后,所有的鉴定拼接位点与拼接位点信息注释可变剪切类型(图7F)。
图7SplicingViewer原理
Tophat:
该软件利用Bowtie将所有reads映射到参考基因组,未匹配的reads在接下来的步骤继续映射。
然后利用MAQ重新将匹配的reads比对到参考基因组,获得reads富集的基因组区域,称为岛序列即潜在的外显子。
软件继续将岛序列两端延长一定的侧翼序列来预测可变5’供体和可变3’受体,继续将临近的岛序列两两组合识别GT-AG结构寻找内含子结构。
软件通过IUM种子延长方法寻找覆盖潜在的剪切位点,种子序列确定为供体上游小段序列和下游受体小段序列,软件继续寻找覆盖到种子位点的序列进一步确定种子区域侧翼的外显子区域是否完全匹配,并同时检测剪切的内含子是否满足长度。
最后返回所有满足条件的剪切位点和组合方式。
图8TopHat原理
以上几种可变剪切软件都有各自算法及优点,相比于DSGseq、SplicingGraph、DiffSplice、AStalavisa、RNAexpress、iReckon等软件相对集中于只关注外显子或内含子及其他方面的算法,诸如SplicingViewer及Tophat这两个软件相比起来更加全面一些,而Tophat针对目前已发现的可变剪切类型都使用了专门的检测软件及方法,结果更为准确全面。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主流 可变 剪切 软件 识别 原理