生物信息学 第二章 GenBank序列数据库.docx
- 文档编号:24752289
- 上传时间:2023-06-01
- 格式:DOCX
- 页数:17
- 大小:30.86KB
生物信息学 第二章 GenBank序列数据库.docx
《生物信息学 第二章 GenBank序列数据库.docx》由会员分享,可在线阅读,更多相关《生物信息学 第二章 GenBank序列数据库.docx(17页珍藏版)》请在冰豆网上搜索。
生物信息学第二章GenBank序列数据库
第二章GenBank序列数据库
简介
一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些普遍存在的工具是如何建立的。
但是如果我们能够了解这些序列是如何汇集到一起的,这将有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。
GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。
每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。
这些文件按类别分为几组:
有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。
目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。
这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。
GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。
所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。
这一章描述GenBank数据库是如何构成的,它如何与蛋白质数据库相衔接,以及如何解释其中的数据成分。
关于序列数据库,前人已经作了大量的工作,具体可参见(Schuleretal.,1996;BairochandApweiller,1997;Bensonetal.,1997;Georgeetal.,1997;Stoesseretal.,1997;Tatenoetal.,1997)。
所有这些论文都指出了数据库快速增长的趋势,并对如何利用这些生物学资源提出了建议。
出于科学研究的考虑,以及由于历史的原因,序列数据被分别存放在核苷酸和蛋白质数据库中。
核苷酸序列是查询核苷酸数据库以及蛋白质数据库时的主要出发点,并且目前有一种趋势,将核苷酸数据库介入到蛋白质数据库的管理之中(正如我们下面将要看到的那样)。
这并不奇怪,因为数据库维护者与数据提交者之间的直接通讯将有利于保证数据的真实性与准确性(提交者需要一个检索号,并且他们想要得到他们添加到数据库中的新记录)。
在很多情况下,这种对数据的关注意味着提供适当的信息来注释CDS(codingsequence:
编码序列),并告诉我们如何得到翻译产物。
这种对蛋白质和核酸序列统一管理的倾向也明显地体现在NCBI的Entrez之中,在GenBank的管理之中,以及在GenPept格式记录的生成过程之中。
在欧洲,EBI的工作人员统一维护管理Swiss-Prot和TREMBL,这些工作人员也负责EMBL核苷酸数据库的管理工作。
还有AmosBairoch和他在日内瓦大学的研究组。
(见本章后的列表)。
尽管如此,建立核苷酸和蛋白质数据库的初衷还是有区别的。
本章还初步讨论了将在第六章详细描述的数据模型。
这一章主要是从GenBankflatfile的角度介绍序列数据,但必须明确的是,“flatfile”(不论是GenBank,EMBL,Swiss-Prot或PIR),都只是ASN.1报告的一个方面。
而ASN.1才是代表了NCBI数据模型的语言。
GenBank以DNA为核心,包含了许多计算生物学资源。
历史上,蛋白质数据库先于核苷酸数据库。
在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoffetal.,1965)。
这一蛋白质数据库后来成为PIR(Georgeetal.,1997)。
这本书为今天整个生物信息学界日常工作所依赖的计算生物学资源播下了种子。
这个在1965年可以很容易地存放在一张软盘上的数据集(尽管那时并不存在软盘这种存储介质),是一小群人多年的工作成果。
今天,任何一个DNA或蛋白质数据库每天增加的数据量都数倍于此。
最早的DNA序列数据库于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。
(见图2.1)。
R.Cook-Deegan(1993)在《基因战争》中详细描述了这一时期人类基因组计划的历史。
此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。
两个中心都致力于发展输入方式,这主要是将学术刊物上公开发表的论文转换为更适合计算机使用的电子格式。
日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。
在1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并且每个数据库只负责更新提交到这一数据库的那些数据。
现在三个中心都收集直接提交的数据,并在三者之间发布。
这样,任何一个中心都拥有并发布所有的序列数据。
这种方式下每条记录只被生成这条记录的数据库所拥有,也就是说只有生成这条记录的数据库可以对记录进行更新,这就防止了“更新冲突”。
否则如果每个数据库都可以修改任一条记录,并覆盖其他数据库的数据,就必定会发生错误。
近年来的安排保证了没有一个数据库可以覆盖其他数据库更新的记录。
所有的序列数据库也都是计算生物学中心,并且越发表明序列数据不能简单地由自动化方式来生成。
每个数据库都成为了一个中心,在那里生成序列数据,并由生物学家进行验证,同时还开发一些利用这些信息的工具(例如NCBI的Entrez,见第5章,以及EBI现在正在开发的SRS)。
很明显的一点是一些专职的,介入到收集数据、提供发现与检索工具,并且作为研究机构来研究新算法、发掘公共数据库并在最高水平进行科学活动的机构将能够最大限度地服务于用户群体。
在这一环境下,知识被最高效率地获取与共享,并且新的研究与理解这样大量数据的方法也不断涌现。
这一章的着重介绍GenBank核苷酸数据库,GenBank是包含了三个重要蛋白质数据库(Swiss-Prot,PIR和PDB)的一系列数据库中的一个。
这一系列数据库中的每一个都对数据库现在和将来的使用方法产生了或产生过重大影响。
PDB是关于核酸和蛋白质结构的数据库,将在第三章中详细介绍。
Swiss-Prot和PIR可以称为二级数据库,它比已经存在于一级数据库中的数据提供了更多的信息。
Swiss-Prot和PIR中的蛋白质序列主要来源于核苷酸数据库,另外一小部分是直接向Swiss-Prot提交的(这些蛋白质是直接测序的)或者是从公开发表的论文中搜索到的。
这里没有详细讨论这些情况,我们建议读者通过其他途径了解更多的详情(BairochandApweiller,1997;Georgeetal.,1997)。
需要注意的是,如同在第六章和第十四章中一样,这里的“GenBank”指的是DDBJ/EMBL/GenBank。
DDBJ和EMBL核苷酸数据库与GenBank紧密合作,逐日交换数据。
他们从不同的地点,用不同的格式发布同样的信息。
他们也都是提供其他数据、工具和服务的研究机构。
这些虽然从理论上是无关的活动,但实际上很难分开。
例如,Entrez(见第5章)是NCBI的一个计划,它包含了GenBank数据在其中。
但Entrez和GenBank(都是NCBI的产品)从本质上是不同的,前者是一个信息检索系统,而后者是一个Entrez从中进行检索的数据库。
一级和二级数据库
一级和二级数据库之间存在着本质的差别。
序列数据库对科学界最重要的贡献就是这些序列本身。
一级数据库记录了实验结果,以及一些初步的解释。
而更进一步分析工作的结论只能从二级数据库中查找到。
一级数据库中的核苷酸序列记录是从直接实验得到的,这些记录是对存在于某个实验室的试管中的生物分子测序的结果。
它们不代表共有序列(虽然是多次读取同一克隆,或相同的基因来源),它们也不代表一些计算机生成的字符串。
这在序列分析的解释中很重要,也意味着在大多数情况下一个给定的序列就是研究者所需要的全部。
每一个这样的DNA或RNA序列都将被注释以描述对实验结果的分析,这一分析阐明了为什么这一序列会被这样确定。
在DNA序列记录中的一种常见的注释是编码序列(CDS)。
大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。
这在实验、计算以及相似性比对工作中占有很大的比重。
这并行于赋予一个产物名称,或者功能说明(通过对相似性比对的分析)。
这一方法很有效,但也有误导的可能。
DNA,RNA和蛋白质序列都是计算分析工作的对象,它们是一级数据库中有价值的成分。
那些在DNA序列记录的基础上进行计算、分析或其他工作的研究者通常认为他们所处理的是原始信息。
但是在很多情况下,氨基酸序列从某种程度上说是解释的结果,而并非是直接测序得到的。
这样,在使用和说明由这些序列得到的结果时就需要格外小心。
由mRNA序列数据推导出蛋白质序列通常并不难,但必须选择正确的启始编码子。
对于原核生物或低等真核生物序列的注释通常相对简单,但研究者同样需要注意避免缺少注释或增加不必要的注释。
(见第10章以及Cannonetal.,1997)。
将序列标记为CDS通常需要格外小心,因为这是蛋白质数据库全自动或半自动生成的开始步骤。
格式与内容:
计算机与人
数据库被用来存放原始数据,以及一系列附加的注释。
不同的检索工具和程序利用了这些信息中的不同部分。
纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情况下在不同格式之间生成和交换数据成为可能。
最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的(例如GenBankflatfile,见附录2.1和2.2,这是一种人可以阅读的ASN.1版本)。
这些记录还有二进代码版,更加紧凑,计算机处理也更快。
但不幸的是,由于历史的原因,对一种固定格式的频繁使用使得引入另一种格式极为困难,尽管新的格式可能更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用。
(但我们并未放弃尝试,见第3、6、14章)。
GBFF的简单性,使我们都可以获得易用的工具,这也是EMBL和GBFF极大通用性的重要原因。
作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。
这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据:
>L04459
*******************
或同样的,一个蛋白质记录:
>P31373
*******************
FASTA格式广泛应用于许多分子生物学软件包之中。
作为最简单的情况(正如上面所显示的),大于号(>)表示一个新文件的开始。
标记符上面第一个例子开始部分的L04459后面是大写或小写字母的DNA序列,通常60个字符一行(但这并非是标准规定)。
如果需要的话,用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息。
例如,在不违反上面规定的前提下,可以在FASTA的说明行中加入更多的内容,使这个简单的格式包含更多的信息,就象下面这样:
>|
*******************
现在这个FASTA文件中包含了gi号码(见下面,以及第6章)、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。
这个记录是从ASN.1记录生成的,(见附录2.2),而ASN.1是NCBI用来存储和维护所有数据的格式。
(在计算机中这些数据保存为一行,如果打印出来,将比本书的页面宽出许多。
所以,这里做了折行处理)。
在分子生物学的历史上曾经使用过许多格式,其中有些格式现在还在使用,同时也有许多工具用来在这些格式之间转换数据。
NCBI的asn2ff程序可以将ASN.1文件转换为多种flatfile文件格式,它可以生成GenBank、EMBL、GenPept、Swiss-Prot以及FASTA格式的文件。
这一程序包含在NCBI工具软件包之中(见第6章)。
DonGilbert的READSEQ(见本章末的互联网资源列表)是另一个广泛使用的工具,已包含在许多软件包中。
在使用这些工具进行格式转换时,用户应当注意,有些GenBank或EMBL格式下的特性将被丢失。
READSEQ只工作于序列自身,并不处理注释部分。
那些只需要序列数据的程序(例如BLAST,见第7章)最好使用FASTA格式的序列来进行查询。
尽管FASTA格式的信息含量比其他格式少,但它提供了人和计算机都可理解的处理原始数据的简单方法。
数据库
正如上面提到的,所有在EMBL中出现的序列也都包含在DDBJ和GenBank中,反之也如此。
GenBank每两个月发布一次新版本,并且每天都通过匿名FTP提供递增式(以及非递增式)的更新。
几个核苷酸数据库之间也每天以如同特性表文档(见下面)所描述的公共数据格式交换新生成的以及更新过的数据记录。
这一特性表是了几个核苷酸数据库进行注释的共同语言。
同时,核苷酸序列数据库还发展了一套数据提交流程(见第14章),这是一系列关于数据记录内容和格式的指示。
(见本章末的互联网资源列表)。
核苷酸记录是主要的序列数据和生物信息来源。
大多数蛋白质序列数据库中的序列是从核酸数据库的记录中推导出来的,这导致了两个重要的结果:
1.如果一个编码序列没有能在核酸记录中正确地标识出来,它就不会出现在蛋白质数据库中。
查询蛋白质数据库是最有效的相似性检索方法(见第7章),这样,应当但却没有在被研究的mRNA或基因序列中标识的CDS就有可能导致丢失重要蛋白质序列。
2.不幸的是,在核酸数据库特性表文档中特别应用于蛋白质序列的特性是十分有限的,正如本章末的列表所显示的那样。
剖析GenBankFlatfile
GenBankflatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。
在本书写作的时候,它也是从GenBank到DDBJ和EMBL数据库,以及EMBL、DDBJ之间或向其他数据库交换数据时所采用的格式。
DDBJflatfile格式与GBFF格式是相同的(见附录2.1)。
EMBL格式则每行都带有前缀,以表明本行的信息类型(见附录2.3)。
注释部分(见下面)前缀为“FT”,在内容上与其他数据库相同。
所有这些格式实际上都是由更结构化的ASN.1(见附录2.2)生成的。
但是主要由于历史的原因,许多用户(专家或非专家)在工作中使用GBFF(或EMBLflatfile格式)
GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。
第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。
所有的核苷酸数据库记录(DDBJ/EMBL/GenBank)都在最后一行以//结尾。
头部
头部是记录中与数据库关联最大的部分。
各个的数据库并不一定在这一部分包含相同的信息,而可能存在着微小的差别。
但各数据库已作出努力以在彼此之间保证信息兼容。
所有的GenBankflatfile开始于LOCUS行:
*********************
这一行中的第一项是LOCUS名称。
历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。
这一成分开始于一个英文字母,总长度不能超过10个字符。
第二个字符以后可以是数字或字母,所有字符均要大写。
LOCUS名称在以前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。
经典的例子包括HUMHBB:
人β-珠蛋白基因座,或SV40:
猿猴病毒(拷贝之一,因为存在许多拷贝)。
为了可用起见,LOCUS名称在数据库中必须是独一的。
因为几乎所有有意义的命名符都被使用过了,所以今天LOCUS名称已不再是一个有用的成分。
但仍有许多软件包依赖于一个独一无二的LOCUS名称,所以数据库还不能将其彻底去掉。
可行的办法是代之以一个独一无二的词,最简单的是用一个保证不会重复的检索号码,象例子中的AF010325那样,以满足对LOCUS名称的要求。
**********************
下一项是序列长度,从1到350,000bp。
在实践中GenBank和其他数据库很少接受50bp以下的记录。
所以一般不鼓励将PCR引物(24bp)作为序列提交给数据库。
350kb限制是一个经验值,各个数据库用不同的方法提供更长的重叠群(见第6、12章以及附录2.4)。
**********************
LOCUS行中的下一项表明生物分子的类型。
“分子类型”通常是DNA或RNA,但也有少量其他类型出现,它们也都表明单链或双链(ss或ds)。
这些属性现在已经很少使用了,这也是另一个历史遗留物。
这些包括类型:
DNA、RNA、tRNA、rRNA、mRNA和uRNA,以表明生物分子的最初来源。
例如,cDNA测序实际上代表了一个mRNA,而mRNA才是这个序列真正的分子类型。
如果tRNA或rRNA是直接或以cDNA为中介测序的,那么tRNA或rRNA就是分子类型。
如果序列是通过聚合酶链反应(PCR)从基因组数据中得到的,那么DNA是分子类型,尽管这一序列实际上编码结构RNA。
**********************
下一项是GenBank分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目的。
这一代码的存在也是由于历史的原因,可以追溯到GenBank为了保持可管理的文件大小而将整个数据库按物种分类分割为几个文件的时候。
GenBank的分类与EMBL以及DDBJ略有不同,这在其他文献中有介绍(OuelletteandBoguski,1997)。
在历史上这种分类是非常随意的,现在已不再象历史上那样起到重要的作用,因为物种分类信息已经表现在了“生物体”行以及“来源”特性中。
这比仅用三个字母作为分类码要清晰明确得多。
NCBI近几年来没有再采用更多的基于生物体的分类,但有些新的基于功能的分类却显得越来越重要,因为它们代表了功能方面可定义的差别(OuelletteandBoguski,1997)。
已表达序列标记(EST)分类在1993年被采用,其后很快又增加了序列标记位点(STS)类。
还有基因组综述序列(GSS)和未完成的高通量基因组序列(HTG)都代表了按功能划分的一类数据,这些都要求用户以及数据库工作人员用不同的方法来处理。
例如,用户可以在这些数据集中检索(例如通过FLASTN在EST或HTG分类中查找),并对命中的记录做进一步分析解释。
这时,所有数据库均以相同的方式来说明功能性分类,并且在任一数据库中所有的数据集都会出现在同一分类中。
CON类是一个正在计划被使用的新的实验性分类,将用来表征通过重叠群构造的片段或大的整合序列。
这样就很有可能超出现在对单一记录的350kb限制。
这样的记录可能以如同附录2.4的形式出现,这个CON类记录给出了大肠杆菌的全基因组序列,长度在4.6mb以上。
这个记录没有包含序列或注释,但包含了如何将存在于其他分类中的片段拼接成完整序列的指示。
这一实验性分类中的记录将带有检索号和版本号,并且同其他记录一样,在几个合作者之间交换。
所有被切分的数据也将出现在这一分类中。
*********************
LOCUS行中的日期是数据最后被公开的日期。
在许多情况下,也是第一次被公开的日期。
记录中包含的另一个日期是序列提交给数据库的日期(见下面)。
必须注意的是,这两个日期并没有法律保证,数据库并未声明这两个日期是正确的。
所以它们只供用户参考,并不能作为仲裁的判据。
就作者的经验,它们也从未被用以作为优先权声明或专利权请求的依据。
**********************
DEFINITION行(也称为“DEF”行)在GenBank记录中用以总结记录的生物意义。
这一行将出现在NCBI的FASTA文件中,这样任何人进行BLAST相似性搜索时都会看到这些信息。
生成这一行时要非常小心,因为许多记录生成工作可以部分地自动进行。
所以数据库工作人员要检查这一行以保证信息的一致性和有效性。
但是,用一行文字来说明生物背景并不总是可行的,对此不同的数据库采用了各自的解决方法。
其中有一些共识,并且每个数据库也都了解其他数据库的解决方法,并尽力与之一致。
下面是DEFINITION行结构标准的一个小结。
对于mRNA,可以象这样:
属种产物名称(基因符号)mRNAcompletecds
或者对于基因组记录:
属种产物名称(基因符号)genecompletecds
当然,各个数据库采用的解决方法也考虑到了其他类型的记录。
下列这些规则应用于细胞器序列,以保证用户及数据库工作人员明了DNA的来源和生物背景(假定提交者是明了的):
DEFINITION属种蛋白质X(xxx)gene,(下列选一)
completecds.
编码线粒体蛋白质的核基因
编码叶绿体蛋白质的核基因
编码线粒体蛋白质的线粒体基因
编码叶绿体蛋白质的叶绿体基因
或者
DEFINITION属种XXS核糖体RNAgene,(下列选一)
completesequence.
编码线粒体RNA的线粒体基因
编码叶绿体RNA的叶绿体基因
基于一项合作数据库之间最近达成的协议,将在DEFINITION行中给出属和种的全名,而不再使用通用名(如human)或属名缩写(如H.sapiens)。
数据库中在此协议之前生成的记录将最终按此协议进行更新。
只有一个生物在这个协议之外,那就是人免疫缺陷病毒将在DEFINITION行中表示为HIV1和HIV2。
******************
检索号在记录的第三行,是从数据库中检索一个记录的主要关键词(见第6章)。
这个号码将在参考文献中被引用,并始终和序列在一起。
就是说,当序列被更新(例如更正一个核苷酸)时,这个号码不会改变。
检索号码采取下列两种方式之一:
1+5或2+6格式。
1+5格式是指1个大写字母后跟5位数字;2+6格式是指2个大写字母后跟6位数字。
绝大多数新近加入数据库的记录采取后一种方式。
所有的GenBank记录都只有一个单独的ACCESSION行,行中可能有多个检索号码,但绝大多数情况只有一个检索号。
这通常称为主检索号码,其余的是二级检索号码。
*********************
不幸的是,在以前二级检索号码还有一些不同的含义,但定义方式并不统一。
二级检索号码可能与主检索号码相关,或者主检索号码只是已经取消的二级检索号码的替代品。
合作数据库正在努力使后者成为任何情况下的缺省方式。
但因为二级检索号码已经使用了15年以上(在此期间GenBank的管理方式也经过了多次调整),能阐述所有情况的全部数据已无从得到。
*********************
NID行是了核苷酸序列的gi号码(geninfoidentifier)(见第6章)。
前缀字母(d,e或g)表明是哪一个数据库生成了这个号码,或这一号码用于哪个数据库。
因为NCBI首先使用了这个号码,所以DDBJ和EMBL用NCBI(GenBank)指定的号码来填充他们的数据库。
简单地说,一个gi号码对应于一个核酸序列(蛋白质序列也有gi号码,见下面以及第6章)。
当序列改变时,gi号码也改变,但检索号码不变。
在本书出版时,将出现第三种标识符。
合作数据库已同意将版本号加在不同版本的序列上(就象NID或gi)。
格式是:
检索号.版本号。
例如:
******************
这表明序列第1版,检索号为AF010325,gi号为2245686。
在本书写作时,还没有确定这个标识符应放在哪一行中,但肯定会在ACCESSION和NID行之后。
很可能就选择在VERSION行(正如上面那样)。
相关信息请参考最新的GenBankreleasenote。
这个标识符中的版本号码将随每次序列改变而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 第二章 GenBank序列数据库 生物 信息学 第二 GenBank 序列 数据库