生物信息学 第十三章.docx
- 文档编号:24167808
- 上传时间:2023-05-24
- 格式:DOCX
- 页数:18
- 大小:31.23KB
生物信息学 第十三章.docx
《生物信息学 第十三章.docx》由会员分享,可在线阅读,更多相关《生物信息学 第十三章.docx(18页珍藏版)》请在冰豆网上搜索。
生物信息学第十三章
第十三章ACEDB一个基因组信息的数据库
ACEDB的一般特点
背景
ACEDB(一种线虫C.elegans数据库)是一种被广泛应用的管理和提供基因组数据的工具组。
它是在1991年由RichardDurbin和JeanThierry-Mieg首先提供的,他们发展它来支持和整理C.elegans领域中的大范围序列和物理图谱的工作。
在本章结尾所列出的因特网资源和资料中可见1和2条。
后续的程序由Durbin和Thierry-Mieg编制和完善,还有许多其他人参与了代码的编制。
这一时期,ACEDB适用于许多动物和植物的基因组计划[3]。
软件对于“非基因组”信息的计划仍然有效,诸如,民族植物学的数据、基因命名法、具体的文献等[4,5]。
准确估计基于ACEDB资源的出版物很困难,1997年春的保守估计[3]是25-30种。
ACEDB由于它的一些特性而流行起来。
该软件是免费的,并且可运行在Unix和MacintoshOS系统下,Windows版本马上就会推出。
数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。
界面依靠相关信息的超级文本连接,并可由鼠标方便的完成操作。
数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的DNA等。
也许最重要的是,ACEDB能很容易的由于新信息而被重新设定.简单的图解语言和快速数据装载的周期使ACEDB适合一个”废弃(throwaway)”数据库的建立,他可用于专用的数据分析,还可用于许多永久性数据的采集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用ACEDB。
对于资源有限的计划,这往往是决定使用ACEDB的关键因素。
本章主要把ACEDB作为序列数据的管理工具来介绍,而不是当作一种提供数据的方法。
这里并不是把ACEDB的每一部分都专门的介绍,而是主要集中在:
ACEDB的早期的数据采集的作用,和主要面向内部使用者的注释的过程。
现在使用ACEDB来管理序列数据和用于其他计划的有:
剑桥大学的Sanger(英国),华盛顿大学的基因组中心,克罗拉多大学(ColoradoStateUniversity)的Aedesaegypti基因组计划,MassachusettsGeneral医院的Arabidopsis物理图谱计划,和Walter和ElizaHall研究院(WEHL)的疟疾基因组计划。
读者肯定会对有感于管理和提供生物学数据的软件的高速的发展速度。
ACEDB本身是基于Unix系统开发的,并当作X-window的应用程序被首次展示出来的。
现在,许多用户可通过万维网(WorldWideWeb)登陆到公共数据服务器上来使用它。
将来,很可能由Java语言或其他网络语言编写的有人们更熟悉界面的ACEDB将出现。
但本章主要介绍X-window版本(Xace4,3)及与它相关的特性。
界面
以下简写代表鼠标操作。
LM:
鼠标左键
MM:
鼠标中键
RM:
鼠标右键
一般的ACEDB用户通过浏览超文本连接的文件来交互的操作ACEDB。
这种浏览方式的界面如图13.1。
这是从GrainGene(一个用于Triticeae的数据库)吸取来的包含有多个ACEDB窗口的阻合窗口。
这些窗口是一系列鼠标操作产生的,如用户定位两种不同的信息内容。
ACEDB的主窗口是位于图中左上的窗口,它在软件开始时就显示出来。
其中列有数据类型用于查阅。
点击Reference类型(双击LM)打开一个KeySet窗口,其中列出了许多Reference类型的成员,这些成员被称为对象。
点击一个reference对象,如BCG-28-487,则打开了第三个窗口(右下窗口)显示文献的细节,如作者,题目等。
点击任何粗体字都可打开相应的窗口。
图13.1
图13.1还包括一个遗传图谱(左下)。
这是在reference窗口下,点击locus下的iBgl弹出的。
这是众多的用图形形式描述数据的方式中的一种。
图中的locus标记也是超文本连接的,可通过点击(LM)把它击活。
文本窗口中遗传图谱下的数据是可视的,就象在reference窗口中一样。
在这种情况下,如果有适当的数据和图形,数据库管理员就把locus标记设置成缺省值,使它显示遗传图谱。
关于ACEDB还有一些在线的教育。
这里特别推荐在Sydney的澳大利亚遗传信息中心的BrunoGaeta提供的一个[7]。
Cornell大学的Dave.Matthecos正准备提供一个关于遗传图谱显示的教育内容[8]。
后文还将更详细的介绍序列显示的特点。
数据模型
ACEDB的核心部分是“数据模型”(或图形),这将决定数据库中的数据是如何组织的。
各个模型可由简练的语言加以解释,这由数据库管理员来定义。
各类数据可由如sequence,gene,reference等类型来表示。
各模型以如图13.2的形式保存在名为models.wrm的文本文件中,它存在数据库的wspec目录下。
在文本框中,设定显示数据的模型有很强的灵活性,但在其它的ACEDB的显示中[9],需要各模型中包括有预先定义好的结构。
这一内容将在后文的“序列显示”中加以讨论。
注意,更详细的模型介绍和ACEDB中模型的问题可见[10]。
读者可查阅不同的数据库来了解模型的适用范围。
//thisshowspartialmodelsfortheSequence,
//LocusandPaperclass
?
SequenceDNAUNIQUE?
DNAUNIQUEInt
StructureLengthUNIQUEInt
PropertiesPseudogene
CDS
Genomic_canonical
Locus?
LocusXREFSequence
Paper?
Paper
RemarkText
?
LocusSequence?
SequenceXREFLocus
Paper?
Paper
?
paperTitleText
图13.2modles.wrm
为了展示一些模型的特点,我们先看为sequence,locus,和paperinformation这三种信息的模型。
这些例子并不能展示这种模型语言的全部功能,但能展示一些重要的特点。
模型有一个等级树的结构,就象概要图一样,数据开始于总括,然后沿许多支路进行处理,越分越细。
从树的根开始,每一个支点都代表一类(阶层)数据的一个子分裂。
每一支路开始于一个标示符,或就此终结或带有许多字段,这里可填入数据,Structure,CDS,和Paper就是标示符的例子,Int,和?
Paper是字段。
从左上开始,向下处理。
透过Sequence模型的例子(图13.2),我们可以看出,这种模型可让DNA序列的内容同一个DNA对象,它的长度,及序列性质的类型(这里的Properities分支分为三支)联系起来。
还可知道序列的那一部分已被发布了,是否有一个位点与它对应,是否要对它进行什麽特别的说明。
这一类的第一个字段(?
Sequence)被存为一个对象名的存储器。
对象名要能被唯一识别,许多与序列相关的其他信息要通过对象名附加给对象的。
其他类型的字段有:
Text(接受自由格式的文本),Float(用于浮点型数据),Date(用于日期),Int(用于整型数据)。
一种字段类型限制填入其中的数据类型。
例如,一个长度型(length)中能填入100,但不能填onehundred。
作为缺省,一个字段可复制本身来接受多重数据的输入。
这通常是有用的,一个序列会涉及到多重的论文(Paper),位点(loci),评论(remarks)。
但是,UNIQUE限制一个字段对每一个对象只能有一种输入类型。
在本例中,一个sequence对象只能有一个长度,字段还有别的更复杂的限制,这里就不在涉及。
通过使用字段,它们接受对象名,把信息在ACEDB内互连起来。
“?
”前缀识别这些字段。
考虑sequence模型中的分支,它们把一个序列和一个出版物联系起来。
Paper?
paper
当为一个特定的序列把数据输入到?
Paper字段后,Sequence对象和已命名的Paper对象就会建立起链接,该链接通过在用户界面中点击Link来操作。
如图13.1所示。
但是,这种链接是单向的。
虽然浏览者在Sequence对象中能见可点击的粗体的Paper字段,但相应的Paper对象却不能回联到Sequence中。
不过,许多数据库管理员都愿向用户提供双向的链接。
可通过使用XREF(cross-reference)来自动建立。
一个Sequence模型中的XREF的例子是:
Locus?
LocusXREFSequence
一个XREF字段有两个部分,XREF前面的部分是“目标类(class)”,这里是?
Locus,这里它必须是class-XREFs而不能是Int,Text,Float,或DateType类型。
XREF后面的是“目标标识符(targettag)”,这个标识符说明在目标类中哪些字段可用于建立交互式的链接。
为了运行XREF,Locus类必须支持这种链接,这意味着在?
Locus字段中,一个支路必须包括Sequence目标标识符和有确定seqence对象的字段。
这支路是:
Sequence?
Sequence
为满足这个要求,当Sequence对象中的?
Locus字段一填入数据,XREF就建立交互式的链接,对于数据库的管理员,这将大大简化双向链接的管理。
更进一步的是建立全双向链接,使输入任何字段的数据都能建立双向链接,要作到这一点,我们应如下修改Locus模型:
Sequence?
SequenceXREFLocus
可用标准形式//对模型进行注解,(当models.wrm文件被读入时,一行中//右侧的内容将被忽略)。
注解在编写models.wrm文件和数据文件时非常有用。
数据输入
数据是以模型做为模板输入到ACEDB中的。
数据文件可通过X-windows界面或直接通过数据库中的命令行把数据输入给数据库的[12]。
这个命令行界面,这里虽然不介绍,但在从其他处理过程的自动收集数据操作中却很重要。
还可在运行数据库时,直接建立个人的对象。
选用什麽方法取决于数据库管理员参数的选择,数据量的多少和数据的性质。
要把大量数据从文件中高效的输入,就很少会使用交互式的方法。
当文件被调用时,直接使数据格式化,还有一个“段落”来描述这个对象(用空行来分开每一个段落),每段的第一行总是类名,接下来是对象名,所以字段通过先于它们的标识符立刻被识别。
为加入sequence和paper对象,我们应如图13.3输入数据。
注意,我们不用填写每一个字段,标识符也不用同模型中显示的顺序一样。
但是,标识符-字段的组合必须符合模型,如果不符合,数据库就会认为是出错。
所以,Genomic_Canonical模型后不能跟有字段。
那些在同一行中标识符后跟有其他信息的输入数据也是错误的。
更细致的关于数据装载过程的讨论见[13],它包括有:
大型数据文件的准备,数据的删除,及对象更名等内容。
查询和表格
ACEDB用查询的语言来应用对象的性质和不同数据间的链接。
有几个查询的界面:
纯文本的形式(这里不涉及),一个“原始”的查询工具,用户在查询时直接输入命令;“querybeexmple(范例式查询)”工具,它实现功能就象填表一样;“querybuilder(查询创建器)”,它帮助用户确切的建立复杂的查询。
查询的响应是一系列符合具体标准的对象名(技术上如图13.1中的KeySet),查询的语法是固定的,合法的查询必须和模型的结构兼容,因此
FindSequenceATHFOO1;FollowLocus
是一个合法的查询。
如前所述,它对应于模型和数据,这个查询的回应将列出联系这一序列的位点,但是查询,
FindSequenceAGE>10
虽然符合语法,但是错误的,因为Sequence类中没有Age标识符或相关的字段。
如果,一定要这样查询,可由数据库管理员修改模型,添加相应的字段。
ACEDB中还包括有TableMaker,一个用于创建相关表格的工具。
它的界面很复杂,但功能很强,它可让用户从内联的各类中引用和关联信息。
相对于前述的查询,TableMaker能显示和检索对象中的信息,而不只是列出对象名。
关于查询和TableMaker的教学内容见[14-16]。
Sequence"ATHFOOI"
Length3879
Remark"averystrangeArabidopsisthalianaDNA."
Locus"FOOI"
Genomic_canonical
Remark"asecondremark"
Locus"FOOI"
Paper"smith_1997_aahmt"
图13.3ACEDB的数据文件
使用性和安装
ACEDB可从许多免费访问的FTP站点获得。
在标准发布中带有为Unix系统的安装说明。
还可为那些需要重新编辑的用户提供资源代码。
关于FTP与平台的详细内容可从前面已提到的FAQ中找到[3]。
本章的内容是关于版本4.3的ACEDB,也是写作本书时的流行版本。
新的内容会定期的出版在ACEDB的新闻组中[17]。
ACEDB中的序列分析
引论
图形格式的显示可让用户在ACEDB中快速收集和分析遗传数据。
虽然Map和CloneGird显示,它们支持遗传图谱和物理图谱项目,并且可用图形显示来代表生物化学的途径,但我们的重点在序列分析。
序列的显示是一种特征图谱(FeatureMap,Fmap),它链接有许多工具,其中包括GeneFinder[18];Blixem,一种BLAST[19]多重比对观察器[20];DOTTER,一种点-图程序[21]。
综合这些工具,为序列分析提供了丰富的图形环境。
虽然设计的一般性允许来自于主要模型系统,病原体,和人类的的序列用类似的方法进行分析,但Fmap最初是为支持线虫(C.elegans)基因组序列计划而开发的。
特征图谱
特征图谱是一种高度可配置的显示格式,图13.4显示了一张来自于Schizosaccharomycespombe的rhp6的已配置的显示样式。
该图展现了这种显示形式的一般结构。
顶部是按钮和文字,下面是若干列,这些列从左到右用红色数字记数,下面从左到右加以解释:
1.Locator:
绿色的框显示完整序列的蛋白质(黑色条)。
移动操作通过:
a)ZoomIn,ZoomOut,和Whole按钮;b)点击绿色框并滑动(LM);c)点击定位条中心的右侧(MM),点击定位条的左侧(LM)可滚动和放缩。
2.Sequenceandends:
全白色框和序列对象名(EM:
250728),全白框表示几个sequence(序列)对象重叠群的交叠部分(本例中没有交叠)。
3.Summary:
黄框中其他颜色条强调某些特性。
兰色条界定了“活性区”。
4.Scale:
用顶部的Origin文本输入框,重定记数从序列中的强制点开始。
5.Genes:
“Genes”这里表示完整的和部分的转录序列[如mRNA或编码序列(CDS:
从转译起始密码子到终止密码子),它决定着外显子结构]。
外显子(兰色轮廓框)和内涵子(线条联着外显子)被显示出。
6.Features:
暗红色框与除了能从EMBL特征表和GeneBank记录中找到的基因以外的特征相联系。
7.ATG:
小黄色框代表着每个阅读框中的潜在的甲硫氨酸转译起始密码子,通过配置GeneFinder表,可建造其他的密码子。
8.ORFs:
黑色水平线代表每个开放阅读框中的终止密码子。
第二阅读框这里也被显示。
9.GeneFinderCodingSequence:
灰色框表示高概率蛋白编码的区域。
10.CodingFrame:
兰色轮廓框表示阅读框,从中可得到每个外显子。
11.Pssearch:
青色框表示相对PROSITE数据库中一个基元的匹配。
12.BLASTX:
兰色框代表局部最大成对节段(maximalsegmentpairs,MSPs)(在BLAST中称HSPs,见第七章)。
它来自蛋白质序列中的BLASTX查找。
13.GeneTranslation:
通过点击(RM)基因可动态转录和染色,这将击活一个菜单,选取选项ShowTranslation和ColorExons。
14.BLASTN:
黄色框代表从核苷数据库的BLASTN查找中查出的MSPs。
15.INTRON_HMM:
浅橘黄色框代表了一个内涵子预测程序的预测结果。
16.GeneFinderSpliceSite:
向上指的点线代表剪接受体,下指点线是剪接供体。
(染色的位点是在同一区段内),在基因预测时将用到绿色的特征(剪接位点,ATG密码子,和中止密码子)。
17.DNASequence:
核苷序列和其同等物。
碱基(Base)1被设置为转译起始密码子A(甲硫氨酸,ATG)。
通过选择点击基因(RM)产生的菜单中的ColorExon选项,外显子高亮成黄色,剪接的密码子成紫色,终止密码子成红色。
序列从5’到3’端,点击Rev-Comp按钮(LM)可显示相应的一列。
Rev-Comp菜单(RM)中有选项来单独反转和补充序列。
图13.4
Sequence(序列)对象的显示主要通过点击Column按钮来配置,其中有很多触发器来打开或关闭各列。
图13.4中并没有显示全部序列,显示那些列由数据库的设置来决定。
一些列是通用的(ATG,ORFs,和DNA),一些取决于GeneFinder的安装(如GeneFinderCodingSegments和GeneFinderSpliceSite),其他取决于特定数据库的监护(curation)。
管理员还能加入代表外部程序分析序列结果的列(如BLASTX,BLASTN,INTRON,HMM等)。
选取一个特征可把相应的序列高亮成粉色,相应特征的信息显示在顶部的兰色拦中。
图13.4中,CES的最后一个外显子被选种。
如果所选的特征是一个数据库的对象的话,双击可产生一个文本窗口,可浏览Fmap显示下的数据。
Efetch和Blixem
选择一个代表BLASTN和BLASTX数据库查找结果的框,将击活一个带有两个选项Efetch和AnalyseinBlixem的菜单。
Efetch[22]是一个ACEDB的外部程序,当需要数据库(如BMBL或GeneBank)中的数据时,它开始检索,它还可以存储ACEDB中是所有序列的记录。
如果序列的数量很大,大量的同源物会影响该选项在分配ACEDB数据库时是灵敏性。
如果,主序列数据库已被使用,那取回的(Fetching)记录也要去除用户系统中的多余数据。
如果,序列数据库同其他程序同被索引,诸如SequenceRetrievalSystem(见第五章)。
用简单的脚本,Efetch就能被仿效,如同程序文献资料提到的那样。
菜单中的第二个选项可运行Blixm[20],一个用来显示BLAST比对的程序。
图13.5也是以部分的S.pomberhp6基因为例,来说明从BLASTX框中击活的BLIXEM窗口。
在顶部,是以序列MSPs的识别率的百分比来显示序列位置的,用若干平行的线条来代表MSPs,用高亮的框来限制比对的区域,这些可被详细的显示在下面的扩展显示区中,来说明序列中MSPs比对的具体情况。
在缺省情况下,片段显示出全同区(暗蓝),保守的替代区(明蓝),差别区(无染色)。
从图形或扩展区中选取(LM)一个MSPs,可高亮所选序列中所有其他的MSPs。
这一功能可帮助判断匹配的性质,因为沿基因的MSPs分配可很容易的被估计出。
这种匹配可放到任何一个数据库记录中的功能信息的环境中进行检测;双击(LM)扩展显示区中的一个序列可检索序列的记录。
Bliexm窗可被设置成显示Fmap序列的双链,高亮片段中的差别区,合并同一序列中的MSPs到同一行上,修改颜色或显示低复杂度区域的图形。
DOTTER(点标器)
通过BLIXEM窗口可进入到点标器DOTTER(右键点击背景),点标器是一个点绘图程序,用来比较两个序列的细节。
点标器和BLIXEM都可单独使用[20,21]。
图13.6展示了S.pombe假想蛋白质C8A4.02C的自比较,其中带有一个基因组序列的三读框转译因子,并包括相应的位点,SPAC8A4.02C。
蛋白质序列沿y轴绘制,转译的基因组序列和代表这个单独外显子基因的框沿x轴。
最长的对角线是一个很好的自匹配,而其他的以最长对角线对称分布的对角线表示了六种不太完美的36氨基酸重复单位。
移动十字准线(LM,鼠标左键和按键)超过一条对角线则在另一窗口中显示相应的队列。
为能绘图,点标器的算法首先计算一个二维矩阵,它存储了所有成对比较的残基的分值,就是说,每一水平序列的残基与每一竖直序列的残基相对应。
为提高绘图的信噪比,一个窗口(缺省25个残基)沿对角线步进,新的分值是窗口内的所有点的平均值。
矩阵中每一点的值在0至255之间(每一点一个字节)。
每一项都有一与之分值成比例的灰色亮点。
Greyramp工具(见图13.6)给出两个域值,其可由鼠标来设置。
数值低于最小值显示成白色,高于最大值的显示成黑色,数值只有在两域值之间的显示成灰色。
这一工具可让点绘图的域值动态变化,这有助于探测相关的对角线。
从ACEDB调用的点标器DOTTER即可对比BLIXEM中的DNA序列,又可比较BLIXEM中的蛋白质序列,或是进行自比较(DNA/DNA)。
各选择也可用来对比BLASTHSPs,或相对于全部比较加亮HSPs。
这些后面的选择用来探测那些BLAST可能忽视的非常弱的相似体,例子参见相关文献[21]的图2。
GeneFinder
GeneFinder[18]是ACEDB系统中的一个应用程序。
单独使用还是ACEDB的版本中基本上都使用相同的算法(关于这个问题见第十章)。
这里我们着重讨论ACEDB中的GeneFinder的图形界面。
GeneFinder只有依靠一系列明确且有机结合的配置文件才能正常的运行。
这些文件储存在数据库的wpf目录下。
带有独立版本GeneFinder的一些应用程序可用来建立各种表格。
GeneFinder分配中就提供这些制作表格的指令。
Fmap中的GeneFinder按钮可击活(RM)一个菜单,选择GeneFinderFeatures选项将在Fmap中标记出剪接位点、可能的编码区、转译的起始密码子。
这些特性是根据wpf目录下的表格计算得出的,并且每一特性都分配一个分值。
点选AutofindOneGene可在Fmap中标出一个预测的基因,命名为temp_gene。
创建基因的位点标为绿色的高亮区。
AutoFindOneGene一经被选种,GeneFinder的算法就产生一系列的待选外显子。
这些外显子有三种:
引导外显子,它们开始于转译起始密码子,结束于剪接供体或终止密码子;中部外显子,它们开始于剪接受体,结束于剪接供体;尾部外显子,它们开始于剪接受体,结束于终止密码子。
注意GeneFinder不能预测基因的3’或5’的非转译区域;本文中的预测“基因”就是指编码部分。
外显子的分值是通过综合单个有限位点及可能被其包围的编码段的分值得出的。
内涵子是根据长度来赋值的。
外显子和内涵子最高分值的有效结合的区域既是预测的基因。
要查看基因的分值,先点种该基因,然后选Gene->Selected选项。
这使基因的各特性高亮成绿色。
选ShowSelected则显示一个关于各分值的表格。
(见表格13.1的例示)
参数的变化可调整基因的预测。
菜单选项Parameter显示了两组变量。
Assembly变量,它们与从外显
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 第十三章 生物 信息学 第十三