教你如何读懂GeneBank数据.ppt
- 文档编号:2007021
- 上传时间:2022-10-26
- 格式:PPT
- 页数:126
- 大小:5.94MB
教你如何读懂GeneBank数据.ppt
《教你如何读懂GeneBank数据.ppt》由会员分享,可在线阅读,更多相关《教你如何读懂GeneBank数据.ppt(126页珍藏版)》请在冰豆网上搜索。
NCBI生物信息学数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库基因组数据库生物信息学数据库的分类NCBI生物信息学数据库欧洲分子生物学实验室的EMBLhttp:
/www.embl-heidelberg.de美国生物技术信息中心的GenBankhttp:
/www.ncbi.nlm.nih.gov/Genbank/日本国立遗传研究所的DDBJhttp:
/www.ddbj.nig.ac.jp/searches-e.html核酸序列数据库NCBIGenBankGenBank数据库结构数据库结构nn作用:
了解序列数据库的格式,有助于更好地提高数据库作用:
了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。
检索的效率和准确性。
nnDDBJDDBJ数据库的内容和格式与数据库的内容和格式与GenBankGenBank相同,此处不作详细相同,此处不作详细介绍。
介绍。
nn分别介绍分别介绍EMBLEMBL和和GenBankGenBank的数据库结构的数据库结构NCBIGenBankGenBank数据库数据注释数据库数据注释数据库数据注释数据库数据注释(www.ncbi.nlm.nih.gov/genbank/www.ncbi.nlm.nih.gov/genbank/)nnGenBankGenBank库包含所有已知的核酸序列和蛋白质序列库包含所有已知的核酸序列和蛋白质序列,以及与以及与它们相关的文献著作和生物学注释。
它们相关的文献著作和生物学注释。
nnNCBINCBI可提供广泛的数据查询、序列相似性搜索以及其它分可提供广泛的数据查询、序列相似性搜索以及其它分析服务。
析服务。
nn数据库数据库序列文件:
注释内容序列文件:
注释内容文章文章索引文件:
检索目录索引文件:
检索目录文摘文摘NCBIGenBankGenBank数据库结构数据库结构数据库结构数据库结构nn完整的完整的GenBankGenBank数据库包括序列文件,索引文件以及其它数据库包括序列文件,索引文件以及其它有关文件。
有关文件。
nn索引文件是根据数据库中作者、参考文献等建立的,用于索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。
数据库查询。
nnGenPeptGenPept是由是由GenBankGenBank中的核酸序列翻译而得到的蛋白质序中的核酸序列翻译而得到的蛋白质序列数据库列数据库nn数据格式为数据格式为FastAFastA。
NCBIGenBankGenBank数据库结构数据库结构nnGenBankGenBank中最常用的是序列文件。
中最常用的是序列文件。
nn序列文件的基本单位:
是序列条目,包括核苷酸碱基排列序列文件的基本单位:
是序列条目,包括核苷酸碱基排列顺序和注释两部分。
顺序和注释两部分。
nn生物信息资源中心通过计算机网络提供该数据库文件。
生物信息资源中心通过计算机网络提供该数据库文件。
nn注释条目:
文章的格式注释条目:
文章的格式(www.ncbi.nlm.nih.gov/genbank/NCBIGenbankGenbankNCBIGenbank查找页面NCBID31716D31716描述部分NCBICDsarerecurringunitsinpolypeptidechains(sequenceandstructuremotifs),theextentsofwhichcanbedeterminedbycomparativeanalysis.Molecularevolutionusessuchdomainsasbuildingblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions.CDs编码序列,含终止密码子polyA_signal多聚A信号NCBID31716D31716特性表序列本身关键字CDsarerecurringunitsinpolypeptidechainsNCBID31716D31716序列本身NCBINCBI序列结束4859bpNCBID31716D31716NCBIGenBankGenBank数据记录数据记录NCBIGenBankGenBank数据记录数据记录NCBIGenBankGenBank数据库结构数据库结构nnGenBankGenBank序列文件由单个的序列条目组成。
序列文件由单个的序列条目组成。
nn序列条目由字段组成,每个字段由关键字起始,后面为该序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。
字段的具体说明。
nn字段分若干次子字段,以次关键字或特性表说明符开始。
字段分若干次子字段,以次关键字或特性表说明符开始。
nn每个序列条目以双斜杠每个序列条目以双斜杠“/”/”作结束标记作结束标记NCBIGenBankGenBank数据库结构数据库结构nn序列条目的格式非常重要,关键字从第一列开始,次关键序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。
字从第三列开始,特性表说明符从第五列开始。
nn每个字段可占一行,也可以占若干行。
每个字段可占一行,也可以占若干行。
nn若一行中写不下时,继续行以空格开始若一行中写不下时,继续行以空格开始NCBIGenBankGenBank数据库数据库nn物种:
物种:
GenBankGenBank库里的数据按来源于大约库里的数据按来源于大约100,000100,000个物种,个物种,其中其中56%56%是人类的基因组序列是人类的基因组序列(所有序列中的所有序列中的34%34%是人类的是人类的ESTEST序列序列)nn记录:
每条记录:
每条GenBankGenBank数据记录包含对序列的简要描述,它数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及的科学命名,物种分类名称,参考文献,序列特征表,及序列本身序列本身NCBIGenBankGenBank数据库数据库nn序列特征表:
包含对序列生物学特征注释如:
编码区、转序列特征表:
包含对序列生物学特征注释如:
编码区、转录单元、重复区域、突变位点或修饰位点等录单元、重复区域、突变位点或修饰位点等nn分类:
所有数据记录被划分为如细菌类、病毒类、灵长类、分类:
所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及啮齿类,以及ESTEST数据、基因组测序数据、大规模基因组数据、基因组测序数据、大规模基因组序列数据等序列数据等1616类,其中类,其中ESTEST数据等又被分成若干文件数据等又被分成若干文件NCBI注释内容注释内容nn序列条目关键字:
序列条目关键字:
LOCUS(LOCUS(代码代码),),DEFINITION(DEFINITION(说明说明),ACCESSION(ACCESSION(编号编号),NIDNID符符(核酸标识核酸标识),),KEYWORDS(KEYWORDS(关键词关键词),SOURCE(SOURCE(数据来源数据来源),REFERENCE(REFERENCE(文献文献),FEATURES(FEATURES(特性表特性表),BASECOUNT(BASECOUNT(碱基组成碱基组成)ORIGIN(ORIGIN(碱基排列顺序碱基排列顺序)。
nn新版的核酸序列数据库将引入新的关键词新版的核酸序列数据库将引入新的关键词SV(SV(序列版本号序列版本号),用,用“编编号号.版本号版本号”表示,并取代关键词表示,并取代关键词NIDNIDNCBILOCUSLOCUSnnLOCUS(LOCUS(代码代码):
是该序列条目的标记,或者说标识符,:
是该序列条目的标记,或者说标识符,蕴涵这个序列的功能:
如蕴涵这个序列的功能:
如HUMCYCLOXHUMCYCLOX表示人的环氧化酶。
表示人的环氧化酶。
序列长度序列长度类型类型种属来源种属来源录入日期等录入日期等nn说明字段是有关这一序列的简单描述说明字段是有关这一序列的简单描述NCBIACCESSIONACCESSIONnnACCESSION(ACCESSION(编号编号):
具有唯一性和永久性,在文献中引:
具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。
用这个序列时,应该以此编号为准。
NCBIKEYWORDSKEYWORDSnnKEYWORDS(KEYWORDS(关键词关键词)字段:
由该序列的提交者提供,包字段:
由该序列的提交者提供,包括括该序列的基因产物该序列的基因产物其它相关信息其它相关信息NCBISOURCESOURCEnnSOURCE(SOURCE(数据来源数据来源)字段:
说明该序列是从什么生物体、字段:
说明该序列是从什么生物体、什么组织得到的什么组织得到的nn次关键字次关键字ORGANISM(ORGANISM(种属种属):
指出该生物体的分类学地位:
指出该生物体的分类学地位NCBIREFERENCEREFERENCEnnREFERENCE(REFERENCE(文献文献)字段:
说明该序列中的相关文献,包括字段:
说明该序列中的相关文献,包括AUTHORS(AUTHORS(作者作者),),TITLE(TITLE(题目题目)及及JOURNAL(JOURNAL(杂志名杂志名)等等,以次关键词列出。
以次关键词列出。
nnMEDLINEMEDLINE的代码:
该代码实际上是个超文本链接,点击它的代码:
该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。
可以直接调用上述文献摘要。
nn一个序列可有多篇文献一个序列可有多篇文献,以不同序号表示,并给出该序列中以不同序号表示,并给出该序列中哪一部分与文献有关。
哪一部分与文献有关。
NCBIFEATURESFEATURESnnFEATURES(FEATURES(特性表特性表):
具有特定的格式,用来详细描述序:
具有特定的格式,用来详细描述序列特性。
列特性。
nn特性表中带有特性表中带有/db-xref/db-xref/标志的字符可以连接到其它数据标志的字符可以连接到其它数据库,如分类数据库库,如分类数据库(taxon9606),(taxon9606),以及蛋白质序列数据库以及蛋白质序列数据库(PID(PID:
g181254)g181254)。
nn序列中各部分的位置都在表中标明,序列中各部分的位置都在表中标明,55非编码区,编码区,非编码区,编码区,33非编码区,多聚腺苷酸重复区域等。
非编码区,多聚腺苷酸重复区域等。
nn翻译所得信号肽以及最终蛋白质产物翻译所得信号肽以及最终蛋白质产物nn碱基含量字段,给出序列中的碱组成碱基含量字段,给出序列中的碱组成NCBIORIGINORIGINnnORIGINORIGIN行是序列的引导行行是序列的引导行nn下面便是碱基序列下面便是碱基序列nn以双斜杠行以双斜杠行“/”/”结束。
结束。
NCBIGenBankGenBank数据库数据库数据库格式数据库格式nnFASTAFASTA格式格式格式格式gi|1293613|gb|U49845.1|SCU49845SaccharomycescerevisiaeTCP1-betagene,partialcds;andgi|1293613|gb|U49845.1|SCU49845SaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsAxl2p(AXL2)andRev7p(REV7)genes,completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGT
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 读懂 GeneBank 数据