关于RefSeqNCBI参考序列.docx
- 文档编号:26137294
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:9
- 大小:19.92KB
关于RefSeqNCBI参考序列.docx
《关于RefSeqNCBI参考序列.docx》由会员分享,可在线阅读,更多相关《关于RefSeqNCBI参考序列.docx(9页珍藏版)》请在冰豆网上搜索。
关于RefSeqNCBI参考序列
关于RefSeq:
NCBI参考序列
NCBI的参考序列打算(RefSeq)将为中心法那么中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。
RefSeq标准为人类基因组的功能注解提供一个基础。
它们为突变分析,基因表达研究,和多态发觉提供一个稳固的参考点。
范围:
目前,RefSeq记录为以下分子类型和基因组提供:
分子
登录格式
基因组
CompleteGenome
NC_######
Archaea,Bacterial,Organelle,Virus,Viroid
完整基因组
NC_######
原核生物,细菌,细胞器,病毒,疫苗
CompleteChromosome
NC_######
Eukaryote
完整染色体
NC_######
真核生物
CompleteSequence
NC_######
Plasmid
完整序列
NC_######
质粒
GenomicContig
NT_######
Homosapiens
基因组Contig
NT_######
人类
mRNA
NM_######
LimitedVertebrate,Homosapiens,Musmusculus,Rattusnorvegicus
mRNA
NM_######
有限的脊椎动物,人类,小鼠,大鼠。
Protein
NP_######
Alloftheabove
蛋白
NP_######
所有以上的
脊椎动物mRNA/蛋白构建步骤:
RefSeq记录通过以下步骤创建:
确信代表不同基因的序列
成立正确的基因名字到登录号的联系
确信完整范围的能够取得的序列数据
创建一个新的有以下状态的参考序列(RefSeq)记录
预测的
临时的
临时的RefSeq记录被一个生物学家再检查,他确信一开始的名字到序列的关联,加上一些包括基因功能概要的信息,更重要的是用其他可取得的GenBank记录来更正,从头注解,或扩充序列数据。
预测的,临时的和检查过的RefSeq记录通过NCBIEntrez检索系统,BLAST数据库,FTP,和LocusLink网站让公众取得。
最近发表的文章
1.IntroducingRefSeqandLocusLink:
curatedhumangenomeresourcesattheNCBI.PruittKD,KatzKS,SicotteH,MaglottDRTrendsGenet.2000Jan;16
(1):
44-47.
2.NCBI'sLocusLinkandRefSeqMaglottDR,KatzKS,SicotteH,PruittKDNucleicAcidsRes2000Jan1;28
(1):
126-128
FAQ
什么是参考序列?
NCBI参考序列打算提供了校正的序列数据和相关的信息,给同行提供利用的标准。
GenBank是一个序列的存储池,RefSeq数据库将是一个参考序列的非冗余集合,包括构建的基因组contig,mRNA,蛋白,和,在以后,整个染色体。
RefSeq记录是有三种能够取得的状态:
预测的,临时的和检查过的。
检查过的记录代表了咱们目前关于一个基因和它的转录子的知识的汇编。
在检查的进程中,咱们整合了更多的信息,只若是能够取得,如序列数据,发表物,命名,和特点注解,都来自于很多GenBank记录,人类基因组命名委员会,和OMIM。
TheinitialreleaseofRefSeqrecordsincludeshumanmRNAandproteinreferencesequences.Thecurrentscopeislimitedtohumansequencesbutotherorganismswillbeaddedinthefuture.
最开始的RefSeq记录版本包括人类mRNA和蛋白参考序列。
目前的范围只局限于人类序列,可是其他物种的将在以后加入。
我如何引用RefSeq记录?
引用RefSeq登录号和LocusID和RefSeq网页()是恰本地。
特定的利用RefSeq网页的引用格式依据你文章将发表的刊物的编辑方式而定。
能够参考那个网站,列出了许多电子文件引用指南:
。
我如何访问RefSeq记录?
RefSeq记录能够通过各类NCBI资源来访问,包括:
BLAST NM_######记录是在核苷酸非冗余数据库中
NP_######记录是在蛋白非冗余数据库中
Entrez NM_######和NT_######记录是在Entrez核酸中
NP_######记录是在Entrez蛋白中。
Entrez基因组部份NC_######记录代表完整的基因组,和染色体,完成的和正在进行的,出此刻基因组页面上。
FTP NM_*和NP_*记录是在/refseq目录下;对人类的NT_*记录能够按染色体数字从/genbank/genomes/H_sapiens/*目录下下载,当第一次的完整版本成立后还将加到refseq目录下。
以后NC_*记录将被加入。
参考FTPREADME文件取得更多的信息。
人类基因组测序为人类contigs的NT_######记录只有在人类基因组测序页面上通过BLAST查询能够被图形的看到,下载,或访问
LocusLink LocusLink记录提供链接到NM_######和NP_######记录。
LocusLink能够通过文本条件的RefSeq登录号被查询,参见LocusLinkFAQ取得查询技术。
通过Entrez查询检索NM_和NP_RefSeq记录:
RefSeq记录能够被通过不同的Entrez查询来检索:
查询结果样本
NM_003988 一个关于PAX2,isoformc的RefSeq记录被返回。
PAX2[GeneName] 这返回17记录包括5个PAX2RefSeq记录。
PAX2[GeneName]ANDsrcdb_refseq[properties] 那个查询仅检索含有5个不同剪切本的PAX2RefSeq记录的集合。
srcdb_refseq[prop]ANDprovisional[all] 那个查询返回所有临时的RefSeq记录集合。
srcdb_refseq[prop]ANDbiomol_mRNA[prop]NOTprovisional[all] 那个查询返回所有检查过的RefSeq记录集合。
确信在BLAST结果中的NM_和NP_RefSeq记录:
那个不同的RefSeq登录号的格式(它们包括一个下划线)提供一个快捷的指示:
那个BLAST结果包括了一个RefSeq记录。
Score ESequencesproducingsignificantalignments:
(bits) Valueref||A2M| Homosapiensalpha-2-ma... 9073 ^ ^| || RefSeq登录号有一个不同的格式“ref”表明了RefSeq数据库
什么是一个RefSeq记录与其他区别的特点?
RefSeq记录区别与其他GenBank记录在:
利用一个特殊的登录号
显示来源信息,由RefSeq打头,在Comment字段的第一行
一致的利用可取得的官方命名
包括OMIM和LocusLinkdbxrefs在基因特性中
蛋白记录指明RefSeq作为DBSOURCE
登录号格式 序列类型
NT_123456 构建的基因组contigs
NM_123456 mRNAs
NP_123456 proteins
NC_123456 chromosomes
我如安在BLAST和Entrez搜索结果中快速的确信RefSeq?
Entrez和BLAST结果同时提供下面格式文本作为返回结果的一部份:
gi|4557284|ref|||[4557284]
数据元素注解
Gi“GenBankIdentifier”,或序列ID号。
“gi|”表示那个序列ID是一个唯一的号码。
任何对那个序列的改变将致使一个新的gi号码。
4557284是gi号码。
Ref指明RefSeq是来源数据库。
NM_000646是RefSeq登录号。
预测的,临时的,和检查过的RefSeq记录有什么区别?
RefSeq记录只有在咱们有来源序列记录注解忧完整的编码区时才做的。
若是来自于同一转录本的多种序列在本地对齐市被发觉,那么最长的被自动选来作为开始的记录。
预测的记录:
预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区。
预测的RefSeq记录是由自动的程序产生,并非被检查。
一个预测的记录描述,关于大多数部份,用来产生它们的GenBank记录中的注解。
GenBank来源的记录与预测的RefSeq记录最大的不同在于RefSeq条款包括了:
一个稳固的LocuID号码和一个在Comment字段中那个条款是预测的申明。
那个申明出此刻预测的RefSeq记录:
预测的RefSeq:
那个参考序列记录是来源于一个未知功能的cDNA。
CDNA的存在提供了那个基因的实验证据,可是,开放阅读框的定位和相应的蛋白序列都是预测的而且随着可取得的新增序列和实验数据会改变。
临时的记录:
临时的RefSeq记录尚未被检查过。
它们是有自动的程序产生的,有一些初步的质量检测来复查咱们提供的“name-to-sequencedata”关联的正确性。
一个临时的记录提供了,对大部份来讲,用来产生它们的GenBank记录中的注解。
GenBank来源的记录与临时的RefSeq记录最大的不同在于RefSeq条款包括了:
命名(基因名字和别名),一个稳固的LocuID号码,那个基因地OMIM号码和一个在Comment字段中那个条款是临时的申明。
那个申明出此刻预测的RefSeq记录:
临时的RefSeq:
这是一个临时的参考序列记录,尚未被工作人员检查过。
最后校正的参考序列记录将会与那个记录有所不同。
检查过的记录:
检查过的记录被NCBI的工作人员或合作小组手工检查过,来创建一个类似于“reviewarticle”的序列记录。
一些在检查过的记录中的改变/增强可能包括:
增加DNA序列数据(扩充的UTRs)
去除DNA序列数据(如载体或接头序列)
增加与那个基因一样相关的文章
增加核酸和蛋白特性
增加概要文本描述基因功能
当一个记录被检查,来自于一个以上的记录的序列数据可能被归并,用来构建一个更完整的mRNA记录,这辈以为是合理的。
所有在基因组合mRNA的可取得的序列数据记录都用了,咱们没有利用EST序列数据。
检查的进程常常包括阅读原始文献来交叉证明正确和决定是不是有更多的能够扩充UTR的可取得的数据。
转录本转变记录只有在检查过文献后和在专家的帮忙下才成立。
所有效来产生序列组合的序列都被在RefSeq记录和LocusLink中报导。
咱们同时试图去校正一系列其他代表那个基因GenBank记录。
但是,那个列表不是为了完全普遍的,别的相关序列信息将老是在Entrez相关序列(或临近)记录中,BLAST搜索结果中可取得。
查看下面记录来取得检查过的RefSeq记录的样本:
GeneSymbol
LocusID
Comments
AGL
178
关于剪切变体处理的样本。
只有那些有实验和文献充分证明的有全长的转录本的剪切变体我们才做RefSeq。
在提供对那些由于有改变得编码区而造成的转录本变体的RefSeq记录时有着重的强调。
PAX2
5076
剪切变体处理的样本。
MICA
4276
注意一些参考文献包括了,这个记录类似于一个“reviewaritcle”。
一个单独的文章被注解在来源GenBank记录的参考文献字段。
GCKR
2646
注意在RefSeq记录Comment字段的最后一行提供了一个“完整”的指示。
如果我们在检查的过程中决定5’和3’端的mRNA是完整的,那么这个信息就在RefSeq记录中提供。
一开始的GenBank来源序列是如何选取的?
很多因素用来选择最开始用于产生临时mRNARefSeq记录的来源序列,可是常常性的那些包括更完整的UTR序列数据的GenBank记录被原始选中。
咱们尽力使参考序列与已经在被突变科学家利用的标准维持一致。
参考序列记录不是成心来代表历史的第一个测序的记录(尽管对那些只有超级有限可取得数据的基因,它们可能目前是如此的)。
当临时RefSeq记录临时期表一个单独的GenBank来源序列,检查过的RefSeq记录用意代表目前知识水平上所有研究集体的奉献而非一个实验室。
RefSeqNM_xxxxxx和GenBankAfxxxxxx看起来是重复的,哪个会被去掉?
不,两个记录都将继续被可取得。
RefSeq和GenBank是分开的数据库,而且二者都是能够通过Entrez核酸数据集合取得。
在它们做好时,临时的RefSeq记录是通常超级相似于GenBank记录。
可是,当RefSeq记录被专家检查事后,新增的序列数据,生物学注解,和参考文献常常被加入。
在那时候,原始的来源GenBank记录和相应的RefSeq条款能够超级不同——RefSeq条款能够代表一个来自不同实验室的综合信息,能够在记录的Comments或参考文献字段找到。
RefSeq数据库被设计成每一个人类位点挑出一个代表序列来减少重复,而GenBank是一个序列的数据池,可能对任何给定的基因含有许多记录。
在RefSeq数据库中唯一的重复可能是不同的剪切变体。
Entrez搜索结果能够在性质字段用搜索“srcdb_refseq”被限制到RefSeq条款。
什么缘故没有RefSeq记录对应所有在LocusLink中可取得位点?
RefSeq记录是安以下条件来作的:
被审查的位点代表一个功能基因。
有些LocusLink记录代表的是假基因或染色体区域,而非功能基因。
咱们已经确信至少一个代表登岸好对应一个位点。
起点能够是mRNA或基因组序列记录。
确信的序列有注解的全长编码区。
咱们没有准假基因和染色体区域作RefSeqmRNA记录。
咱们也没有为那些只有部份的可取得的编码区序列数据的位点做RefSeq记录。
另外,关于某些位点咱们尚未确信适合的代表GenBank登录号。
我们欢迎来自研究集体的评论,提供给咱们那些没有RefSeq数据的位点的尚未确信的代表登录号。
咱们一样欢迎对预测的,临时的,或检查的记录的更正,或在没有列在检查的记录中的增加的生物学信息。
请给NCBI效劳工作部写信,尽可能详细,引用LocusID和任何相关的发表文献。
什么缘故RefSeq记录中的基因符号有时和相关的GenBank记录中的符号不一样?
RefSeq和LocusLink是基于NCBI和其他组织合作的校正的数据库。
二者都利用由人类基因命名委员会概念的术语,而且包括了官方的基因符号和可选的符号。
GenBank是一个公共可取得的序列记录备份,由数据发觉者提供,它不是一个校正的数据库。
GenBank记录提交者保有对他们记录的编辑权并能够决定利用那个基因符号。
有些作者同相关物种命名委员会讨论,从那里取得他们测序基因的那个物种的官方基因符号。
其他作者可能没有那么做。
因此,那有可能一个基因的GenBank记录会利用不同的基于符号。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 RefSeqNCBI 参考 序列