生物信息学主要内容.docx
- 文档编号:8117413
- 上传时间:2023-01-28
- 格式:DOCX
- 页数:32
- 大小:1.33MB
生物信息学主要内容.docx
《生物信息学主要内容.docx》由会员分享,可在线阅读,更多相关《生物信息学主要内容.docx(32页珍藏版)》请在冰豆网上搜索。
生物信息学主要内容
第二章:
生物分子数据库
1.生物信息学涉及的数据库可大致分为二种:
初级数据库和二级数据库。
初
(一)级数据库贮存原始的生物数据,如DNA序列,由晶体衍射(Crystallography)获得的蛋白质结构等。
二级数据(衍生数据库)是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如真核生物启动子序列库EPD和蛋白质一般结构或功能模体(motif)数据库PROSITE。
2.核酸数据库:
(1)DNA序列构成了初级数据库的主体部分。
目前国际上有3个主要的DNA序列公共数据库:
EMBL,GenBank(NCBI)和DDBJ。
这3个大型数据库于1988年达成协议,组成合作联合体。
它们每天交换信息,并对数据库DNA序列记录的统一标准达成一致。
每个机构负责收集来自不同地理分布的数据,然后来自各地的所有信息汇总在一起,3个数据库共同享有并向世界开放,故这3个数据库又被称为公共序列数据库。
所以从理论上说,这3个数据库所拥有的DNA序列数据是完全相同的。
(2)第二个主要的初级数据源来自各种基因组计划。
一些基因组计划已经完成,如真核生物酵母,原肠生物和3个原核生物流感嗜血杆菌、和大肠杆菌等。
这些计划的大部分信息在EMBL中均可找到。
3.核酸序列数据库格式:
(1)每个序列由被称为平面文件的文本记录代表;
(2)GenBank/GenPept(usefulforscientists);FASTA(thesimplestformat);ASN.1(抽象语法符号)&XML(usefulforprogrammers)
(3)EMBL和GenBank数据库的主要内容和格式:
序列名称、长度、日期;序列说明、编号、版本号;物种来源、学名、分类学位置;相关文献作者、题目、刊物、日期;序列特征表;碱基组成;序列(每行60个碱基)【header,featuretable,sequence】
4.蛋白质数据库:
(1)蛋白质序列数据库:
SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像(mirror)站点。
SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。
TREMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。
(2)蛋白质结构数据库:
实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB中。
PDB是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。
(3)UniProt是UniversalProtein的英文缩写,是信息最丰富、资源最广的蛋白质数据库。
它由整合Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据而成。
它的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。
它包含了大量来自文献的蛋白质的生物功能的信息。
UniProtKB全称UniProtKnowledgebase(UniProt知识库)它是经过专家校验的数据集,主要由两部分组成:
UniProtKB/Swiss-Prot(包含检查过的、手工注释的条目)和UniProtKB/TrEMBL(包含未校验的、自动注释的条目)
UniProtKB/Swiss-Prot
高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。
有质量保证的数据才被加入该数据库!
UniProtKB/TrEMBL
该数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。
他能注释所有可用的蛋白序列。
在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。
它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。
UniParc
UniParc全称是UniProtArchive,他是一个综合性的非冗余数据库,他包含了所有主要的、公开的数据库的蛋白质序列。
由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次!
无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。
该数据库值含有蛋白质的序列信息,而没有注释数据。
5.比较和确定某一数据库中的序列与某一给定序列的相似性是生物信息学中最频繁使用和最有价值的操作。
本质上这与两条序列的比较没有什么两样,只是要重复成千上万次。
但是要严格地进行一次比较必定需要一定的耗时,所以必需考虑在一个合理的时间内完成搜索比较操作。
目前有二个最为常用的程序服务于未知序列的数据库相似性搜索,即BLAST和FASTA。
FASTA使用的是Wilbur-Lipman算法的改进算法,进行整体联配,重点查找那些可能达到匹配显著的联配。
虽然FASTA不会错过那些匹配极好的序列,但有时会漏过一些匹配程度不高但达显著水平的序列。
BLAST(BasicLocalAlignmentSearchTool,基本局部联配搜索工具)是基于匹配短序列片段,用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配。
BLAST(BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。
BLAST还能发现具有缺口的能比对上的序列。
(1)Blastp:
标准的蛋白序列与蛋白序列之间的比对
Blastp用于确定查询的氨基酸序列在蛋白数据库中找到相似的序列。
跟其它的Blast程序一样,目的是要找到相似的区域。
(2)PSI-BLAST:
敏感度更高的蛋白序列与蛋白序列之间的比对
Position-SpecificIterated(PSI)-BLAST,是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。
当你使用标准的Blastp比对失败时,或比对的结果仅仅是一些假基因或推测的基因序列时("hypotheticalprotein"or"similarto..."),你可以选择PSI-BLAST重新试试。
(3)PHI-BLAST:
模式发现迭代BLAST
PHI-BLAST,模式发现迭代BLAST,用蛋白查询来搜索蛋白数据库的一个程序。
仅仅找出那些查询序列中含有的特殊模式的对齐。
大多数研究目前都通过国际互联网Internet应用NCBI研制的BLAST程序(BasicLocalAlignmentSearchTool)来进行DNA和蛋白质序列相似性搜索。
用一组BLAST程序联配可以快速进行核酸和蛋白质序列库的相似性检索。
采用BLAST的基本算法编成了若干各不同的程序,分别使用特定的序列库和用于特定类型的输入序列。
BLASTN是在核苷酸序列库搜索核苷酸序列。
BLASTP是在蛋白质序列库中搜索氨基酸序列。
TBLASTN则可以在核酸序列库中搜索氨基酸序列,此时序列库在搜索之前要按所有6种读框即时翻译。
与此相反的一项分析则由BLASTX来完成,它要将所输入的核酸序列按所有6种读框翻译,然后再以之搜
索蛋白质序列库。
6.序列查询:
(1)索引号码:
索引号码是确定一条序列的标签,通常是由一段约4-10个数字和/或字符组成的编码。
每个索引号码与一个分子的序列记录相对应。
(2)序列查询实例:
查询步骤:
1.NCBI:
nucleotideblast;
2.Megablast:
找基因序列:
输入序列并提交,得到基因信息(基因名称、位置、索引号码、初步功能注释等);
3.获取蛋白质信息(该基因编码蛋白质的氨基酸数目、序列标识符等);
4.获取FLAST序列;
5.PHI-BLAST(用来查询序列中的特殊序列):
finddomain(序列中有保守域);
6.填入蛋白质的FASTA序列,提交,检测出该保守的功能结构域为BIR;
7.UniProt:
蛋白质数据库,在人中做BLAST搜索,得到Survivin的蛋白质信息和功能注释;
8.提交序列,在酵母中进行序列比对,得出人的Survivin在酵母中有同源物可能是BIR1;
9.PDB:
三级结构数据库,在PDB中查询该蛋白质的三级结构信息。
第三章:
双序列比对(通过一定的算法对两个DNA或者蛋白质序列进行比对分析,从而找出两者之间最大相似性匹配)
(一)基本原理和概念:
1.假设:
生命是单源的:
(1)地球上的所有生物体具有共同祖先;
(2)任意两个生物或序列具有共同的祖先。
2.进化理论:
(1)物种形成引起新物种的出现;
(2)物理隔离或者是遗传变异引起的分组导致物种的形成。
3.双序列比对结果的两方面意义:
1)反映不同物种在系统发育上的关系;
2)揭示蛋白质的哪一部分对其生物学功能可能是重要的;
3)提示功能、结构、进化上的关系。
4.Thealignment(对齐)isthefirststepinmanyevolutionaryandfunctionalstudies.
Errorsinalignmenttendtoamplify(放大)inlatercomputationalstages(计算阶段)
5.蛋白质比对:
通常比DNA比对具有更丰富的信息
1)20字符(20种氨基酸)相比于4字符(4种核苷酸),蛋白质比DNA所含信息更多
2)许多的氨基酸具有相似的生物物理性质;
3)DNA序列的许多改变不会改变对应的氨基酸;
4)确定同源序列的时间,蛋白质比对比DNA序列比对确定的时间更早(10亿年vs6亿年);
5)分析核苷酸编码序列时,研究其对应蛋白质序列更可取
6.但是在某些情况下,比较核苷酸序列比较合适:
1)确定DNA序列和DNA数据库中的序列的一致性时
2)研究DNA序列中的非编码区时
3)研究DNA的多态性(polymorphisms)时
4)其它情况
7.比对:
1)序列各个字符的对应关系。
2)比对是序列相似性的定性描述,什么部位相似?
什么部位
存在差别?
3)最优化比对揭示序列间最大相似程度,指出序列间根本差
异;
4)比对目的:
通过比对评估序列相似性和是否具有同源性。
8.序列比对中的字母表
1)4字符DNA字母表:
{A,C,G,T}
2)扩展的遗传学字母表或IUPAC编码
3)单字母氨基酸编码
4)以上字母表形成的子集
9.同源性(Homology):
两条序列有一个共同的祖先
1)直系同源(Orthologs)不同物种内的同源序列,来自于物种形成时的共同祖先基因
2)旁系同源(Paralogs)同一物种内的同源序列,是通过类似基因复制的机制产生的同源序列
10.一致性(Identity):
两条序列相同的程度
11.空位(Gaps),指序列比对中一个字符和空字符比对,表示插入或者删除事件;引入空位的效果是使两排列长度相等。
注:
空位的得分经常为负;突变导致插入或删除事件,空位出现比其长度更有意义。
空位罚分
•线性罚分:
d:
每次罚分的分数;g:
空位数
r(g)=-gd
•修正的罚分:
r(g)=-d-(g-1)e
d:
第一次罚分的分数;g:
空位数;e:
修正后的参数
12.打分矩阵:
给不同的氨基酸配对定义的一系列相似性分值。
1)含有N个元素,NxN阶矩阵(N=4或20);(i,j)代表第i行,第j列的元素的关系;i若可能突变为j,得分为正;否则,得分为负;级别显示了相近的程度;对称。
打分矩阵的重要性:
1)打分矩阵在所有的序列比对中都会被用到;2)打分矩阵的选择强烈影响分析结果;3)打分矩阵隐含着一个特殊的进化理论;Z
13.概率模型:
关注无插入或缺失比对;假设每个位置相对于其他位置都是独立的。
1)随机模型(不相关序列):
2)相关模型(相关序列)。
14.PAM(可接受点突变):
这个矩阵建立在进化的可接受点突变模型(PAM),假设一旦确定了两个序列的进化关系,氨基酸从A到B与从B到A突变可能性相同。
1)分值计算:
通过氨基酸A突变为B的概率除以A、B在蛋白质中出现的频率之积,得到相对替换频率,再以10为底取对数,得到两个氨基酸相似性分值。
2)分值的意义:
矩阵中大于0的单元所对应的两个残基发生突变的概率大,可以认为进化上保守替代;小于0的单元对应的两个残基发生突变的概率小,可以认为是随机产生的变异。
3)氨基酸容易被其它生化、物理特性相似的氨基酸替换
4)PAM1(1个PAM单位)被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)
5)PAMn是PAM1自乘n次
6)PAM250、PAM120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对
7)PAMMatrix假设:
氨基酸1突变为氨基酸2的概率与氨基酸2突变为氨基酸1的概率相同;尽可能地避免介导突变的发生,即1-2-3;每个点都是独立的,只取决于前一个状态;所有序列的氨基酸组成一致。
15.构建PAMMatrix:
(1)使一致性大于85%的序列排成一行匹配
1)减少不明确性质;2)减少一致变异和介导突变
(2)重建系统树,推断祖先序列
(3)计算可接受突变:
Aij是被观察到的突变i—j发生的次数
19.定义了一个时期:
1%的序列发生了变异,该变异可被自然界接受。
20.进化模型
(1)假设:
1)每个位置的变化是独立的;2)每个位置的突变可能性是相同的;3)进化无记忆。
(2)马尔科夫链:
M[∆]ab=P(Xt+∆=b|Xt=a)
21.BLOSUM矩阵(BlocksSubstitutionMatrix)
(1)模块替换矩阵,以序列片段为基础,它是基于蛋白质模块(Block)数据库而建立起来的
(2)在模块比对的每一列中,分别计算两两氨基酸的变化情况,来自所有模块的数值被用来计算BLOSUM矩阵
(3)矩阵后面的数字表示构建此矩阵所用的序列的相似程度,如BLOSUM62表示由相似度为62%的序列构建
22.Blosum矩阵(TheBlosummatrices)的特点:
1)Blosum矩阵用于在数据库中查找同源性序列时,效果比PAM矩阵好。
2)PAM以显式进化模型为基础;BLOSUM以隐式进化模型为基础;
3)PAM矩阵从1到250PAM两极距离太远,可能引起不准确;而Blosum直接从最同源的序列的区间排比获取匹配率,不考虑进化距离。
4)Blosum矩阵的突变数据来源于未加gaps的序列区间排比,相当于蛋白序列的保守区。
(Dayhoff模型假设PAM,蛋白质序列各部位进化的速率是均等的,统计了序列所有氨基酸位点,实际上保守区的进化速率显然低于非保守区。
Henikoff&Henikoff[Blosum]采用蛋白质家族中保守序列研究氨基酸间突变频率,不考虑进化关系,因此更适合寻找保守结构域,而PAM矩阵更适合揭示进化轨迹。
)
23.如何选择合适的评分矩阵
1)一般来说,在局部相似性搜索上,BLOSUM矩阵较PAM要好
2)当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵
3)对于数据库搜索来说一般选择BLOSUM62矩阵
4)PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域
24.构建BLOSUM矩阵:
1)统计突变;2)计算突变频率;3)得出突变概率矩阵;4)计算每个氨基酸残基的丰度;5)得到BLOSUM矩阵。
25.点阵分析:
(1)点阵(DotMatrix)分析是一种简单的图形显示序列相似性的方法。
沿X轴上序列1中的每一个单元(核苷酸或氨基酸)与沿Y轴的第二个序列中的每一个单元进行比较,相同的区域在点阵图中显示为由点组成的对角线,对角线之外零散的点为背景噪音。
(2)点阵分析的应用:
1)自身比对:
寻找序列中的正向或反向重复序列;蛋白质的重复结构域(domain);相同残基重复出现的低复杂区(LowComplexity);RNA二级结构中的互补区域等
2)对两条序列的相似性作整体的估计
(3)点阵分析的优缺点
1)优点:
直观性,整体性;点阵分析不依赖空位(gap)参数,可寻找两序列间所有可能的残基匹配;不依赖任何先决条件,是一种可用于初步分析的理想工具;点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分信号和背景标准的严格程度。
2)缺点:
不能很好地兼容打分矩阵;滑动窗口和预值的选择过于经验化;信噪比低;不适合进行高通量的数据分析。
26.动态规划算法(DynamicProgrammingAlgorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决
在生物学中应用的两种动态规划算法:
Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)
(1)全局序列比对:
1)两条序列可以在一个x-和y-轴的矩阵中得到比对;
2)如果序列一致,则可以得到一条通过对角线的路径;
3)寻找最佳的次路径,然后将它们加起来得到最好的得分,
这包括:
需要时插入空隙(gap)
允许保守替代
选择打分系统(简单的或复杂的)
4)Needleman-Wunsch算法可以保证得到最佳的比对
(2)局部序列比对:
局部比对的目标是寻找两序列最优比对区(子序列),不需要延伸到序列的两端;局部比对是数据库搜索是最常用的算法,在寻找序列之间的结构域时相当有用。
1)Smith-Waterman算法
1.设置一个矩阵,大小为(m+1,n+1)
2.矩阵中的值必须不小于0。
3.矩阵中的每个单元格的分值S是以下四者中的最大值:
1.算法的目的是寻找矩阵中的最大值,这代表了比对中的结尾处(羧基端)。
2.回溯过程从最大值的位置开始,沿着对角线向上向左直到碰到一个零分值的单元格。
3.算法需要的一个条件是随机匹配的期望分值为负,保证不相关的长序列不能得到高分值(大多打分矩阵满足此条)
27.序列比对的统计学分析
怎样判断两条序列在进化观点上来说是显著相关的
Morethan25%forproteins,70%fornucleotideswillbeconsideredashomologous
第四章:
序列相似性搜索
1.双序列比对要点总结:
(1)通过双序列比对可以描述序列相似程度
(2)PAM和BLOSUM打分矩阵提供了比对打分的基础,PAM10和BLOSUM80适合近相关的序列比对,而PAM250和BLOSUM30适合远相关序列的比对。
(3)两种比对方法:
全局(global)和局部(local)
2.BLAST:
基本局部比对搜索工具。
广泛应用于相似性搜索;
基于Smith-Watermanalgorithm算法;
局部对比;统计学显著性。
3.
(1)Input
一条查询序列
一个分子生物序列数据库
(2)Output
“命中”序列(hits)的列表,数据库中与查询序列局部相似的序列(由结果,可能推断出查询序列的一些未知功能)
每一条命中序列的统计学意
4.一次BLAST搜索的四个步骤
(1)选择序列(查询序列);输入查询序列,BLAST网页搜索接受的格式:
FASTA格式、NCBI索引号(Accessionnumbers)、GIs(GenBankIdentifier);也可以是单纯的序列或序列的一部分(复制、粘贴),也可以从本地文件上传。
1)FASTA格式以一个标识符大于号紧跟着的一行对序列的描述,后面是序列数据。
一般推荐每行序列数据不超过80个字符;
2)在FASTA格式中间不允许空行,查询序列可以大小写;
3)BLAST可以识别和忽略序列字符中的数字,可以“-”表示空位,支持扩展的字母表。
(2)选择BLAST程序:
1条DNA序列可以编码6个蛋白质序列
(3)选择用于搜索的数据库
(4)为搜索和输出格式选择可选参数
最后单击“BLAST”
5.BLAST
(1)目标:
在大的数据库中快速搜索同源性
(2)假设:
两个序列相似时,它们之间存在一个高度相似的非空位短区域。
(3)启发:
1)去掉无关序列;2)只在保留区域进行精确的局部比对
6.
(1)查询序列:
我们将要搜索的序列;
(2)命中:
数据库中找到的序列,疑似同源;
(3)参数:
1)W:
Wordsize–findW-mersintarget/query2-3foraa,6-11fornucleotides.
2)T:
阈值–focusonpairsscoring>Tusually11-13
3)X:
遗失–stopextendingwhenloss>X
4)S:
得分–thefinalscoreofsegmentpair
(4)算法:
1)编译一组阈值高于T的wordpairs
2)扫描数据库,得到与编译列表匹配的记录,称为序列片段对(segmentpair)。
它是两条给定序列中的一对子序列,它们的长度相等,且形成无空位的完全匹配。
由于在序列片段对查找过程中不考虑空位字符,即不考虑插入和删除操作,所以运行速度非常快。
3)“字”对命中后,向两端延伸,一直到得分(按照某个打分矩阵)不再增长,由此就得到一定长度的保持最好得分的序列串,称高记分片段对(high-scoringpair,HSP)
(5)BLAST结果的解释:
1)期望值(expectvalue)E,是在一次数据库搜索中,随机条件下期望发生的得分等于或大于S的不同比对的数目;
2)E值与概率p相关;
7.模式识别BLAST(PHI-BLAST):
很多时候感兴趣的蛋白质有特定的氨基酸残基模式或者“信号”残基,能够用来判断这个蛋白质属于哪个家族。
例如,信号残基可能是一个酶的活性位点,一个蛋白质家族的结构或者功能域的氨基酸序列。
模式识别BLAST(PHI-BLAST)是一种特殊的BLAST程序,能够让查找得到既和查询序列匹配又和模式匹配的数据库结果。
8.FLAST:
定义见第二章;比对步骤:
1)找出完全匹配的区域
2)保留分数最高的10个匹配
3)将较好的匹配连接起来
4)重新用动态规划算法计算最优比对
9.FLAST与BLAST的对比
(1)FLAST:
1)k-tup:
蛋白质序列:
1~2aa;DNA序列:
4~6nt.
2)以短序列构建索引,采用hash表存储方式;
3)对于需要比较的两条序列,在hash表中查找所有完全匹配的片段;FASTA给每一个匹配给定一个tup值;
4)产生10个最高分值片段,重新用PAM250打分;
5)将同一序列上的高分值区域连接在一起;
6)采用Needleman-wunsch或者Smith-waterman算法对该高分值区域重新打分.
(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 主要内容