生物信息数据库专题实践剖析.docx
- 文档编号:28541478
- 上传时间:2023-07-18
- 格式:DOCX
- 页数:11
- 大小:634.58KB
生物信息数据库专题实践剖析.docx
《生物信息数据库专题实践剖析.docx》由会员分享,可在线阅读,更多相关《生物信息数据库专题实践剖析.docx(11页珍藏版)》请在冰豆网上搜索。
生物信息数据库专题实践剖析
题目:
生物信息数据库专题实践
学院生命科学学院
专业生物信息
学号2012447014
姓名岳海川
指导教师刘建国
2015年1月11日
生物信息数据库专题实践
摘要
GenBank和EMBL是最常用的核苷酸及蛋白质序列数据库。
本文主要介绍了DDBJ和EMBL两个数据库标准文件的格式,并对其进行了对比,说明了各自的优缺点。
关键字:
GenBankEMBL文件格式对比优缺点
GenBank数据库结构完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。
索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。
GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。
GenBank中最常用的是序列文件。
序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分。
目前,许多生物信息资源中心通过计算机网络提供该数据库文件。
下面,我们介绍序列文件的结构。
GenBank序列文件由单个的序列条目组成。
序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。
有些字段又分若干次子字段,以次关键字或特性表说明符开始。
每个序列条目以双斜杠“//”作结束标记。
序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。
每个字段可以占一行,也可以占若干行。
若一行中写不下时,继续行以空格开始。
序列条目的关键字包括LOCUS(代码),DEFINITION(说明),ACCESSION(编号),NID符(核酸标识),KEYWORDS(关键词),SOURCE(数据来源),REFERENCE(文献),FEATURES(特性表),BASECOUNT(碱基组成)及ORIGIN(碱基排列顺序)。
先版的核酸序列数据库将引入新的关键词SV(序列版本号),用“编号.版本号”表示,并取代关键词NID。
LOCUS(代码):
是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。
例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。
该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。
说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。
ACCESSION(编号):
具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此编号为准。
KEYWORDS(关键词)字段:
由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中环氧化酶-2(cyclooxygenase-2),前列腺素合成酶(prostaglandinsynthase)。
SOURCE(数据来源)字段:
说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血(umbilicalvein)。
次关键字ORGANISM(种属)指出该生物体的分类学地位,如本例人、真核生物等等(详见图4.1)。
REFERENCE(文献)字段:
说明该序列中的相关文献,包括AUTHORS(作者),TITLE(题目)及JOURNAL(杂志名)等,以次关键词列出。
该字段中还列出医学文献摘要数据库MEDLINE的代码。
该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。
一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
FEATURES(特性表):
具有特定的格式,用来详细描述序列特性。
特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如本例中的分类数据库(taxon9606),以及蛋白质序列数据库(PID:
g181254)。
序列中各部分的位置都在表中标明,5’非编码区(1-97),编码区(98-1912),3’非编码区(1913-3387),多聚腺苷酸重复区域(3367-3374),等等。
翻译所得信号肽以及最终蛋白质产物也都有所说明。
当然,这个例子只是特性表的部分注释信息,但已经足以说明其详细程度。
接下来是碱基含量字段,给出序列中的碱组成,如本例中1010个A,712个C,633个G,1032个T。
ORIGIN行是序列的引导行,接下来便是碱基序列,以双斜杠行“//”结束。
EMBL数据库结构EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分。
序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。
有些字段又分若干次子字段,以次标识字或特性表说明符开始,最后以双斜杠“//”作本序列条目结束标记。
条目的关键字包括ID(序列名称),DE(序列简单说明),AC(序列编号),SV(序列版本号),KW(与序列相关的关键词),OS(序列来源的物种名),OC(序列来源的物种学名和分类学位置),RN(相关文献编号或递交序列的注册信息),RA(相关文献作者或递交序列的作者),RT(相关文献题目),RL(相关文献杂志名或递交序列的作者单位),RX(相关文献 Mediline引文代码),RC(相关文献注释),RP(相关文献其他注释),CC(关于序列的注释信息),DR(相关数据库交叉引用号),FH(序列特征表起始),FT(序列特征表子项),SQ(碱基种类统计数)。
其它常用核酸序列数据库·dbESTdbEST数据库专门收集EST数据,该数据库有自己的格式,包括识别符、代码、序列数据以及dbEST的注释摘要,也按DNA的种类分成了若干子数据库。
1998年5月8日版的dbEST共包括1.6ⅹ106条EST。
其中有1百万条人的EST,30万条小鼠和大鼠的EST。
·GSDBGSDB是基因组序列数据库(GenomeSequenceDataBase),由美国新墨西哥州SantaFe的国家基因组资源中心创建。
GSDB收集、管理并且发布完整的DNA序列及其相关信息,以满足基因组测序中心需要。
该数据库采用服务器-客户机关系数据库模式,大规模测序机构可以通过计算机网络向服务器提交数据,并在发送之前对数据进行检查,以确保数据的质量。
GSDB数据库中条目的格式与GenBank中的基本一致,主要区别是GSDB数据库中增加了GSDBID识别符。
GSDB数据库可以通过万维网查询,也可以使用服务器-客户机关系数据库方式查询。
无论用哪种方法,熟悉数据库结构化查询语言SQL,对更好地使用GSDB数据库会有所帮助。
·UniGene人类基因组计划的首要任务是对人类基因组进行全序列测定,整个基因组估计有30亿个碱基对,其中大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。
转录图谱可以把基因组中能够编码蛋白质的部分集中起来,因此是一种重要的数据资源。
UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。
UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章将要介绍的HGI数据库只包括人的基因。
该数据库的标题行(TITLE)给出基因的名称和简单说明,表达部位行(EXPRESS)指出该基因在什么组织中表达以及在基因图谱中的位置等。
此外,列出该基因在核酸序列数据库GenBank或EMBL和蛋白质序列数据库SWISS-PROT中的编号的超文本链接。
UniGene中部分条目包括已知基因序列,而有些条目则仅有新测得的EST序列片段。
这就意味着,这些EST序列所对应的基因尚未搞清,可以用来发现新基因。
在描绘基因图谱及大规模基因表达分析等研究中,UniGene也可以帮助实验设计者选择试剂。
UniGene可以通过NCBI或SRS系统访问。
GenBank数据库标准文件格式介绍
(1)LOCUS行为该序列的标识符行:
Scu49845是检索号,该序列在数据库中的唯一标识;
5028bp是该序列的长度;
DNA是该序列的分子类型,可分为DNA,RNA,mRNA,rRNA,tRNA,orcRNA;
PLN是分类,目前有HUM,PIR,ROD,PAT,ENV,SYN等21种分类;
21-JUN-1999是该序列的最新变动日期。
(2)DEFINITION行也称为“DEF”行,用以说明生物的背景,基本上有8种不同的描述形式。
(3)ACCESSION序列的检索号,是从数据库中检索一个记录的主要关键词,检索号码采取下列两种方式之一:
1+5或2+6格式。
1+5格式是指1个大写字母后跟5位数字;2+6格式是指2个大写字母后跟6位数字。
有3种不同的形式。
(4)VERSION在索引号后加罗马数字,表明该序列是第几次更新,即是第几个版本。
(5)KEYWORDS关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息。
(6)SOURCE行中有生物的通用名或科学名称,限定词organism包含属和种的科学名称,有些情况下还可以在亚种水平描述。
(7)REFERENCE表明的是参考文献,AUTHORS行标明作者,TITLE标明题目,JOURNAL标明文献出处。
(8)FEATURES是对序列的注释,标明的是该序列的一些基本特征,source标明的是该序列来源,CDS指示读者如何将两个序列连接在一起,或如何根据核苷酸序列以及基因编码得到氨基酸序列。
(9)ORIGIN标明该序列的所有碱基的排列顺序如何,每行60个.
(12)//标明该序列的有关信息到此结束。
EMBL数据库标准文件格式介绍
(1)
“ID”为序列的标识符行,包括登录号、类型、分子的长度;
(2)
“XX”为分隔符号行;
(3)
“AC”为登录号行,该序列登录号为AB000888;
(4)
“SV”为序列版本行,其数据的形式个
版本;
(5)
“DT”为创建和更新日期行;
(6)
“DE”为序列描述行;
(7)
“KW”为关键字行;
(8)
“OS”行描述生物体种属;“OC”行描述生物体分类信息;
(9)
“RN”、“RP”、“RX”、“RA”、“RT”、“RL”、分别描述参考文献的编号、页码、到其他文献数据库的链接、作者、题目、参考文献出处;
(10)
“FH”为特征表开始符号;“FT”为特征表行。
FT行具体的信息有:
序列的长度,序列来自于何种生物体、何种组织,在染色体上的定位,蛋白质编码序列片段在整个序列中的位置,外显子和内含子的位置,与基因对应的蛋白质序列等。
FT行主要有三项:
(1)FeatureKey,它是描述特征的关键字,如“source”、“CDS”等;
(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述关于一个特征的辅助信息。
(11)
描述的是该序列的碱基顺序,“//”为结束标志。
两个数据库文件格式的对比
1不同之处
(1)相同含义的行所使用的行代码有的会不同;
(2)LOCUS行和ID行所包含内容稍微有些不同;
(3)GenBank数据库的标准文件中序列的最近更新日期和载入日期只能有一个,且在LOCUS行中。
而EMBL中两个日期会同时存在并且是单独占两个DT行;
(4)索引号和版本号所在行在不同数据库中位置略有不同;
(5)序列中包含的各个碱基的数量在GenBank数据库标准文件中会单独列出一行,而EMBL中却是和序列在一起。
2.2相同之处
所包含的序列的各种信息大体上是相同的,都包含单核苷酸的多态性、结构、性质以及相关描述,以及它们的科学命名、来源物种分类名称、参考文献等信息。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息 数据库 专题 实践 剖析