生物信息学 第十四章Word文件下载.docx
- 文档编号:21914711
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:22
- 大小:43.75KB
生物信息学 第十四章Word文件下载.docx
《生物信息学 第十四章Word文件下载.docx》由会员分享,可在线阅读,更多相关《生物信息学 第十四章Word文件下载.docx(22页珍藏版)》请在冰豆网上搜索。
也可能是经常提交的数据库;
或者可能仅是因为在那里提交可能得到最多的注意。
这三个数据库都有知识丰富的人员来帮助提交者完成整个提交过程。
在通常的情况下,一个工作日内将会反馈回来一个加入号码,而记录的完成将需要5&
#0;
10天的时间,其实际长短将依赖于那个工作周的繁忙程度和提交的序列的状态。
目前,假设所有的序列记录提交都通过电子方式:
例如通过互联网,通过电子邮件,或者(最起码)通过常规方式邮寄一张计算机磁盘。
供电子方式提交的URLs和E_mail地址列于本章末尾,这两种提交方式取代了早期使用的授权软件的方法,该方法现在已经过时了。
不过通过授权软件来提交仍然可被接受(在本文出版时),但是使用授权软件的提交者应该注意其局限性和可以选择更好的方法。
提交什么内容?
这三个数据库都需要同样的最终结果:
充分注解的、具生物学意义的、便于计算的良好记录,该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果,并且提供了与蛋白质、参考文献和基因组数据库(参见第5章)的联系。
这些数据库是所有通过实验获得的序列的宝库,因此最新测序的mRNA或基因区域的序列可以提交到某个数据库,其工作人员将协助提交者提供足够的信息以使该序列对其他研究者有使用价值。
一套丰富的生物特征和其他注解是可得到的,但其中重要的部分无疑是那些可用于分析的内容。
这些部分包括核苷酸和蛋白质序列:
CDS(编码序列,又称编码区)、基因、mRNA特征(如:
表现分子生物学中心法则的特征);
序列得以确定的生物;
以及关于参考文献的引用,这些引用将此序列连接到有关的信息领域并将给出证明该序列存在的实验细节。
DNA/RNA
提交的过程相当简单,但必须小心谨慎,才能提供准确(无错误和无载体污染)和生物学上尽量良好的信息,以保证其得到科学界的最充分利用。
无论提交形式如何,在开始提交以前,都要解决以下几个问题。
序列的性质
该序列来源于基因组还是mRNA?
数据库的用户想知道被测序的DNA分子的来源。
例如:
尽管cDNA是在DNA(不是RNA)上进行测序的,在细胞中的分子表现型却是mRNA。
同样对于rRNA基因的基因组测序而言,测序的分子几乎全都是DNA分子。
将rRNA复制成DNA,就象直接对rRNA测序一样,尽管是可能的,但很少这样做。
记住:
既然被提交的基因必须有独特的分子类型,它就不会表现出(例如)一种基因组和mRNA分子的混合类型,否则实际上不会从一个活细胞中提取出来。
序列是合成的,但不是人造的吗?
合成分子在核苷酸数据库中有一个特殊的分类,在此环境中,序列被按照实验排列,而这在自然环境中是不会出现的(如:
蛋白质表达的载体序列)。
DNA数据库不接受计算机产生的序列(如:
同源序列),在数据库中的所有序列都是从有问题的实际分子序列中通过实验获得的,但是它们可以被汇聚成测序训练猎枪。
序列有多精确?
在数据库文献中很少提到这个问题,但假设被提交的序列尽可能精确,这通常意味着整个提交序列至少包括两相覆盖域(相反方向)。
证实最终提交的序列也同样重要,它必须无载体的污染(这可以用在载体数据库中BLASTN查寻证实:
参见其后的第7章),可以以已知的限制图谱检验,消除序列重组的可能性,或确认正确的序列集合。
生物体
给每条记录分配正确的生物是至关重要的,尽管在大多数情况下这是很容易做到的。
所有的DNA序列记录必须有一个生物分配给它们,从数据库中的记录出现在系统发生树上的位置可以得到许多推论。
如果它们被错误的安置了,可能会翻译错误的遗传密码,并产生被错误截取的蛋白质产物序列。
已经知道的基因和物种的种类足可以使数据库成员识别生物和其谱系。
NCBI提供了一个重要的分类服务,分类学家维护能用于所有核苷酸数据库和Swiss-Prot蛋白质数据库的分类法。
引用
注解即使再好,也永远比不上一篇充分阐述生物学的已发表文章,因此,有必要保证正确链接研究出版物和它将引用的原始数据。
基于此理由,提交中准备好引用是很重要的,即使其中只有作者的临时列表和工作标题。
在出版时更新这些引用对于记录的价值也很重要。
(这由数据库成员惯例的执行,而且如果提交者在发表文章以前通知数据库成员,将执行得更快)。
编码序列
核苷酸序列的提交也意味着包括其编码的蛋白质序列,这是因为:
1.蛋白质数据库(如:
Swiss-Prot和PIR)几乎完全由在DNA序列数据库中记录的蛋白质序列所组成。
2.在提交过程中包括蛋白质序列如果不是必需的话,也是重要和有效一步。
蛋白质包括执行我们研究的许多生物反应的酶分子,其序列数据是提交中的固有部分,它们的重要性(在第6章中概述)也在提交过程中体现出来,在各种数据库中其信息作为代表性必须被捕获。
如果已知的话,蛋白质产物和基因的名称也很重要,有各种各样的资源(许多在总结这些章节的列表中有描述)为给定的生物提供准确的命名系统。
(参见“基因命名指导,基因趋势”,1995,Elsevier。
)
编码序列特征,或CDS,是DNA或RNA和蛋白质序列的联系,随同正确的翻译表一起,在有效性中其正确定位占据了中心位置。
核苷酸数据库现在用了13种不同遗传密码(参见章末的列表),这些遗传密码由NCBI中的分类学和分子生物工作人员维护。
由于蛋白质序列是如此重要,它们是生物学家可以计算的主要分子生物信息资源之一,它们理所当然地得到各种数据库成员的重视。
在mRNA中正确地找到开放的读框架通常是很简单的(参见第10章),并且有多种工具可供利用[如:
NCBI的ORF查找器(见章末列表)],而且在Sequin中是作为一个函数(如下);
从一个较高级的真核生物获得正确的CDS间隔就不那么容易了:
必须连接不同的外显子序列,这涉及许多方法,在第10章中有介绍(如果给定蛋白质序列和正确的遗传密码的话,Sequin中的推荐间隔函数可以计算CDS间隔)。
在提交中包括什么内容将由数据库工作人员来决定,更恰当地说,这受到所使用的提交工具的限制,如通过互联网或Sequin。
有效性检查包含CDS间隔中的起始和终止密码子,该间隔具有合法的外显子/内含子一致边界,用合适的遗传密码可将提供的氨基酸序列从指定的CDS中转换出来。
其他特征
在提交序列记录的特征部分还有许多其它特征,并且其中许多特征将扩充记录内容。
在特征表文件中描述了完整的特征集,该文件可以WWW方式取得或通过匿名FTP获得PostScript文件。
尽管有许多特征可供利用,但在数据库中却有许多不一致的用法,主要原因是缺乏一致的原则和生物学家们对它们究竟意味着什么看法很不相同。
正确地获得生物、书目、基因、CDS、mRNA通常就足以并且有助于证实序列,使生物学家通过几行文字就能获得生物学的内容。
只要应用恰当,一个特征表文件是可以利用的,但要注意文件注解的意图。
种群、系统发生、变异的研究
现在核苷酸数据库可接受种群、系统发生、变异的研究作为提交的序列集,尽管在简单文件记录中并没有充分描述该信息,但它却在各种各样的数据库中出现。
新型的提交方式允许:
若仅因为操作的原因,一起提交一组相关序列,那么获得共享信息入口只需要一次请求。
Sequin也允许用户包含有用自己中意的比对工具生成的序列比对结果,并随着DNA序列提交该信息。
尽管所有的数据库都知道该信息对于目前获得的大量记录很重要,但是NCBI是唯一接受该信息的数据库。
显示该信息的新方法(如:
Entrez)应尽快能使一般科学团体更易获得这种数据。
仅提交蛋白质序列
在大多数情况下,蛋白质序列和DNA序列并存,但也有些例外&
人们直接处理蛋白质序列&
这些序列必须在没有相应的DNA序列的情况下提交。
对于这些提交而言,目前SWISS-PROT是最好的地方,EBI处理这些提交,并将其传送到SWISS-PROT。
如何提交到互联网
Authorin利用率的下降使这三个数据库决定在互联网上采用基于表格的方式,这个新的媒介能很好的适应提交过程。
三个数据库都设计了一种表格,以使DNA序列提交到自身的数据库中:
DDBJ的Sakura(樱花开)、EBI的WebIn、和GenBank的BankIt。
互联网是简单提交序列的理想提交途径(如图14.1),也是那些不需要复杂注解和过多重复的提交序列的最佳选择(如:
在种群研究中,很典型的有30条类似的序列,用Sequin提交最好)。
互联网对于那些只做少量提交和要求较少、只需要简单的学习或不需要的研究小组最为理想。
对于大多数提交来说,互联网的表格方式将是合适和足够的:
60%&
80%的提交者通过互联网向NCBI提交其DNA或RNA序列。
这三个数据库提交的入口地址(或URLs)在本章末有介绍。
尽管本章的这部分强调NCBI的BankIt提交工具,实际上,提交到基本数据库中的任何一个都将使序列获得合理的处理,并存储到另外两个数据库中。
进入BankIt提交后(图14.2),用户被询问要提交的核苷酸序列长度。
这是由于WWW浏览器的局限性,使得在一个给定的窗口不可能输入29,000个核苷酸(字符)。
如果必须提交40,000条碱基对(人们提交的粘性质粒的通常大小),BankIt将打开两个窗口,故通过每个窗口复制和输入20,000个字符,这样就解决了这个矛盾。
图14.1:
决定采用哪种协议提交DNA序列到某一DNA序列数据库的流程图。
WWW是BankIt,WebIn,或Sakura。
其URLs和电子邮件地址,请参见本章末的列表。
图14.2
图14.2:
BankIt,GenBank互联网的提交网页。
新提交序列的进入点(输入序列长度,并按New按钮)或更新GenBank数据库中的一条记录。
BankIt的下一张表格也是明了的(图14.3),它询问联系人(即回答数据库工作人员询问的人),引用(谁得到了科学荣誉),生物(前100个在列表中,其余的必须输入),位置(细胞还是细胞器),一些图谱信息和核苷酸序列本身。
在列表末,有个BankIt按钮,能激活下一张列表。
按下这个按钮后,首先验证一些项的有效性,如果一些基本的区域没填,该表将再次出现。
若全部合格,下一张表将查问会加入多少特征并提示用户指出其类型。
如果没填任何特征,(图14.4),BankIt将发出警告,以证实提交序列中没有加入一个CDS。
用户可以回答没有(0个新CDS)或选择加入一个或更多的CDS。
此时,结构化RNA信息或其它合法的DDBJ/EMBL/GenBank特征也会被加入。
图14.3
图14.3:
BankIt,GenBank的互联网提交页面:
标明提交联系人。
图14.4
图14.4:
BankIt,GenBank的互联网提交网页:
BankIt要求获得特征的数目,以产生一个具有合适数目的特征表。
要保存记录,再次按BankIt,出现的新页面(图14.5)必须在提交完成前得到确认,也就是说,在此之前,可做更多的改变或加入其他特征。
再次单击BankIt结束。
接着出现最后的页面:
(图14.6)切换Update/Finished按钮,最后按BankIt按钮,提交将进入NCBI进行处理。
刚完成的提交序列复本必须立即通过电子邮件送达,否则,有必要联系数据库以证实提交已被接受,并做出任何必要的修改。
图14.5
图14.5:
倒数第二个屏幕:
这是一个增加或改变一些特征的互锁按钮,显示如所指示的完成入口。
图14.6
图14.6:
最后一个屏幕:
显示BankIt的提交表格已成功完成。
如何用Sequin提交
Sequin是设计用来协助科学家准备新序列,更新序列数据的一个程序,利用它将序列数据提交到DDBJ,EMBL和GenBank数据库。
这是一个能在绝大多数计算机平台上运行的软件,而且适用于各种序列长度和复杂情况,包括传统的(基因大小)核苷酸序列,分段的记录(如:
剪接的基因组,不是所有的内含子序列都已被确定),有许多注解特征的长序列(基因组大小),和各种相关序列(如:
对于一个特殊基因、域或滤过性病毒基因的种群、系统发生、变异的研究),许多这样的提交能通过互联网执行,但Sequin在复杂的情况下更实用。
而且特定类型的提交(如:
分段类)不能通过Web来完成,除非给数据库工作人员加以明确的指导。
Sequin也接受以提交的核苷酸酸序列编码的蛋白质序列,允许在这些蛋白质上进行特征的注解(如:
信号肽、跨膜区或二硫键)。
这与大多数科学家在提交DNA序列时的普遍观点形成鲜明的对比。
这里的新概念是蛋白质是直接注解的,而不是编码生成之的DNA的副产物。
对于各种相关或是相近的序列(如:
种群或系统发生的研究),Sequin从提交者处获得关于多个序列是如何比对的信息,最终它可以用来编辑和重新提交已存在于GenBank中的记录,不论是延长(或取代)已有的序列,还是注解附加的特征或比对(见下描述)。
进入一个新的提交过程
Sequin有许多性质大大简化了创建和注解一条记录的过程。
最神奇的一方面是在只给定核苷酸酸序列,蛋白质产物序列和遗传密码(从生物的名称中自动获得)的情况下,自动计算CDS特征间隔。
这所谓的“建议间隔”过程在计算中考虑了一致的剪接位点。
传统上这些间隔是手工输入的,这是一个既耗时又易错的过程,尤其是对于一个在可变剪接或分段时有许多外显子的基因序列。
Sequin的另一种重要的贡献在于能在序列数据库文件的定义行上以一种简单的格式输入相关注解。
在读序列时,Sequin识别和提取这一信息,并将其放置在记录中合适的位置。
对于核苷酸序列,可以输入生物体的科学名称、品系或克隆名称和几个其它的修饰基因。
对于蛋白质序列,可以输入基因和蛋白质名称。
(如果在定义行上没有这些信息,Sequin在执行前就会提示用户此信息。
定义行的注解是非常方便的,因为信息和序列是在一起的因此以后不容易被遗忘或混淆。
)除了组建合适的CDS特征以外,Sequin将自动利用该信息生成基因和蛋白质特征。
由于大多数提交序列包含了一个单独的核苷酸序列和一个或多个编码区域特征(及相关的蛋白质序列),前面概述的功能将频繁地影响一条没有进一步注解时就被提交的记录。
由于正确地记录了基因和蛋白质名称,从而使得该记录为其他科学家提供有用信息,他们可能通过一个BLAST的相似性比对或从Entrez查找中获得该信息。
有效性
为保证提交数据的质量,Sequin使用一个内建的有效器来查询。
丢失的生物体信息,错误的编码区长度(相对于被提交的蛋白质序列),编码区内部的终止密码子,不匹配的氨基酸或不一致的剪接位点。
在错误报告中双击其中一项,在“冲突”特征项中就会出现一个编辑框。
有效器也检查“局部”指示器的使用是否一致,尤其是在编码区、蛋白质产物和产物的蛋白质特征中的使用。
(除非作了相反的设置,否则CDS就会自动的同步这些分散的局部指示器,将使纠正这类不一致问题变得很方便。
观察序列记录
Sequin对同一条记录提供了许多不同的视图。
传统的简单文件可以出现在FASTA,GenBank或EMBL形式中。
(它们可以在用户计算机中以文件的方式输出,然后输入其它的序列分析包中。
)图像视图显示了序列的特征间隔,这对于观察可变剪接的编码区尤其有意义。
(图像视图的风格可以定制,这些视图可以被复制到个人计算机的剪贴板中,粘贴到文字处理器或视图程序中,用于准备出版物的手稿。
)有一个视图可以更详细地显示实际序列的特征,对于包含比对的记录(如:
由一个用户输入的相关序列或通过PowerBLAST中查找的比对结果,参见第7章),用户可以请求一个全图像视图以显示添加、删除和不匹配的情况,或细节视图显示序列字母比对。
上述提及的观察者是主动的,单击一个特征、序列或序列比对图片,将会高亮度显示该处。
双击会出现一个合适的编辑框,以便多个观察者使用同一条记录,而能够看到不同的形式。
可以很方便的使图像视图和GenBank(或EMBL)的简单文件视图同时显示,尤其是对于包含多个CDS的较大记录。
图像视图可比做科学家实验室的记事本图片,为特征注解的准确性提供一个快速实用的检查手段。
先进的注解和编辑功能
Sequin中的序列编辑器能在编辑序列时自动调节特征间隔,这对于想在已提交的序列记录中加入一段5’端的序列尤为重要。
在Sequin出现之前,这需要手工添加,并纠正序列中所有生物特征间隔。
这样很有可能从草稿开始重做全部提交过程。
序列编辑器很象文本编辑器,可在光标所在出处插入或输入一个新的序列。
在提交序列中的一个大类包含了多样的相关序列(如:
种群、系统发生和变异的研究),如果用户提交了这些序列是如何自身比对的信息,这些记录将会更有指导意义。
这种比对可随序列数据(如:
以PHYLIP、NEXUS或FASTA+GAP形式)输入或在输入序列以后用Sequin计算。
参见附录II中的各种形式的实例。
对于这些记录,Sequin允许给一条序列添加注解,而且该注解可以被复制到其它的序列中。
(若为CDS特征,特征间隔可通过读蛋白质产物序列自动进行计算,而不必全部输入。
)为了实现这一方法,选用特征传播的方法(从比对编辑器中),被选中的特征将传播到剩余序列中去,并用比对信息调整特征间隔。
这和在每条序列上手工注解特征产生的效果相同。
但用特征传播的方法仅需几分钟就能完成全过程,而手工则需几小时。
特征传播和序列编辑器组合起来为更新一个已经存在的序列提供了简单而且自动的方法。
更新序列的功能允许用户输入重叠或替代的序列。
Sequin设计了比对,在有必要时合并序列,将特征传播到新序列的新位置,以取代旧序列和旧特征。
Sequin做为分析平台
Sequin也提供了许多种序列分析的功能,例如:
有一个功能可以反补于序列和特征间隔,也很容易加入新的功能。
这些功能在一个称为NCBI桌面的窗口中出现,直接显示调入内存的当前记录的内部结构。
该窗口可以被理解为一个有描述器的Venn图表(参见下述和第6章),此描述器能在一组系统中(如:
种群研究)应用于各种序列。
在桌面上,用户可以读出PowerBLAST的分析结果,再拖动之将其在一条序列记录上释放,从而向记录中加入比对数据,修改的结果将很快显示在观察者面前。
注意:
并非所有的注解都能被任何一个观察者看见,简单文件视图有其局限性,例如:
它不显示比对。
NCBI数据模型支持大量的序列集,Sequin允许为了显示或注解的目的在这些序列集中进行完全的漫游,例如:
Nuc-Prot类包含一条核苷酸序列和它的蛋白质产物,核苷酸序列可自身分解。
在这种情况下,Seg类包含了片段序列和一个Parts类,Parts类顺序包含每一个片段的原始数据。
种群、系统发生和变异可包含多种相关序列或Nuc-Prot类。
NCBI桌面是浏览记录内部结构的最快的方法。
数据模型的重要性
Sequin是一种ASN.1编辑器。
用ASN.1数据描述语言写成的NCBI数据模型,可用来使相关信息在描述器或特征项中保持在一起(参见第6章),特征项是典型的生物概念(如:
基因,编码区,RNAs,蛋白质),这些概念通常在一条序列中有一个位置(一个或多个间隔)。
描述器可用于传送应用于多个序列的信息,这样避免了重复输入同一条信息的多个拷贝。
BioSource描述器包含了一个生物体的科学名称,常用名称,分类学上的链接,GenBank分类,和修饰器(如:
品系、克隆、染色体、图谱位置)。
将此信息收集在一起记录在数据详细说明书中,将便于用户输入和修改。
将单个的BioSource描述器应用于Nuc-prot集将满足证实者的愿望:
在每条序列,包括蛋白质序列上都有生物来源信息,这同时也是数据库的规定。
在GenBank简单文件视图上双击一段,或在图形视图中双击一个特征,将激活一个编辑器用于修改该项的永久性的信息。
在某些情况下,特别是在BioSource或出版物中,这些项可能是描述器或者是特征,并且在简单文件中将其区分开来是困难的。
(在NCBI桌面上可以很容易地区分描述器和特征。
并且只有特征和序列在总结、图表、比对、和序列视图中出现。
对于偶然的使用者来说,数据模型导致习惯可能并不明显(请看GenBank或EMBL的视图文件),但确实能够简化生物信息的输入。
在GenBank简单文件的头部出现的文献能够包含一个评价的子部分,在这里可以输入解释关于引用的生物学结论,和那些关于序列记录的信息。
在报告中文本通常和引用在一起,相反将解释性的信息放置在大的注解段中,并用编号指向引用的文章(如“〖5〗”)是一种冒险性的做
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 第十四章 生物 信息学 第十四