NCBI中各符号代表的意思.docx
- 文档编号:24192659
- 上传时间:2023-05-25
- 格式:DOCX
- 页数:10
- 大小:19.53KB
NCBI中各符号代表的意思.docx
《NCBI中各符号代表的意思.docx》由会员分享,可在线阅读,更多相关《NCBI中各符号代表的意思.docx(10页珍藏版)》请在冰豆网上搜索。
NCBI中各符号代表的意思
GenBank中字符的意思
Nucleotide数据库分为三个子数据库:
·EST:
表达序列标记数据库
·GSS:
基因组测序序列数据库
·CoreNucleotide:
包含所有未被以上两个子数据库收录的核苷酸序列
●MeSH:
查询缩写基因的全称
3、RefSeq(ReferenceSequence)序列接受号:
(1)mRNA记录(NM_*):
e.g.:
NM_000492
(2)基因组的DNA重叠群(NT_*):
e.g.:
NT_000347
(3)完整的基因组或染色体(NC_*):
e.g.:
NC_000907
(4)基因组的局部区域(NG_*):
e.g.:
NG_000019
(5)从人类基因组注释、加工得到的序列模型(XM,XP,orXR_*):
e.g.:
XM_000483
●GenBank记录中特性表中的主要关键词:
关键词
解释
关键词
解释
misc_feature
生物学特性无法用特性表关键词描述的序列
promoter
转录起始区
misc_difference
序列特性无法用特性表关键词描述的序列
CAAT_signal
真核启动子上游的CAAT盒,与RNA结合相关
conflict
同一序列在不同的研究中在位点或区域上有差异
TATA_signal
真核启动子的TATA盒
unsure
序列不能确定的区域
-35_signal
原核启动子中的-35框
old_sequence
该序列对以前的版本做过修订
-10_signal
原核启动子的Pribow盒
variation
包含稳定突变的序列
GC_signal
真核启动子的GC盒
modified_base
修饰过的核苷酸
RBS
核糖体结合位点
gene
已识别为基因或已命名的序列区域
polyA_signal
RNA转录本的剪切识别位点
misc_signal
无法用信号特性关键词描述的信号序列
enhancer
增强子
关键词
解释
关键词
解释
attenuator
与转录终止有关的序列
CDS
蛋白质编码序列
terminator
转录终止序列
sig_peptide
编码信号肽的序列
rep_origin
双链DNA复制起始区
transit_peptide
转运蛋白编码序列
misc_RNA
无法用RNA关键词描述的转录物或RNA产物
mat_peptide
编码成熟肽的序列
prim_transcript
初始转录本
intron
内含子
precursor_RNA
前体RNA
polyA_site
RNA转录本的多聚腺苷酸化位点
mRNA
信使RNA
rRNA
核糖体RNA
5’clip
前体转录本中被剪切掉的5’端序列
tRNA
转运RNA
3’clip
前体转录本中被剪切掉的3’端序列
scRNA
小细胞质RNA
5’UTR
5’非翻译区
snRNA
小核RNA
3’UTR
exon
3’非翻译区
外显子
snoRNA
加工和修饰rRNA的小核RNA
关键词
解释
关键词
解释
immunoglobulin_related
repeat_unit
单个的重复元件
C_region
免疫相关蛋白上的不变区
LTR
长末端重复序列
D_segment
免疫球蛋白重链的可变区,
T细胞受体β链
Satellite
卫星重复序列
J_segment
免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链
misc_binding
无法描述的核酸序列结合位点
N_region
插入重排免疫球蛋白片段间的核苷酸
primer_bind
复制、转录的引物结合位点
S_region
免疫球蛋白重链的开关区
protein_bind
蛋白质结合区
V_region
编码免疫球蛋白的可变区N末端的序列
STS
测序标签位点
V_segment
编码免疫球蛋白的可变区的序列
misc_recomb
无法用重组特性关键词描述的重组事件
repeat_region
基因组中所包含的重复序列
iDNA
通过重组所消除的DNA
misc_structure
无法用结构关键词描述的核酸序列高级结构或构型
stem_loop
发夹结构
D_loop
线粒体中DNA中的取代环
◆GenBank记录中特性表中的限定词:
限定词
含义
限定词
含义
/allele=
给定基因的等位基因
/codon_start=
相对于序列第一个碱基,编码序列密码子的偏移量
/bound_moiety=
嵌合范围
/country=
DNA样本的来源国
/cell_type=
获得序列的细胞类型
/db_xref=
其他数据库信息的交叉索引号
/citation=
已被引用的参考文献数
/direction=
DNA复制方向
/clone_lib=
获得序列的克隆文库
/environmental_sample=
序列直接从环境材料中获得而没有指明来源物种
限定词
含义
限定词
含义
/exception=
指明DNA序列未按通常的生物学规律翻译,如RNA编辑
/PCR_conditi-ons=
描述PCR的反应条件
/frequency=
在种群中发生变异的频率
/pop_variant=
获得序列的群体变异种名称
/germline
如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA
/product=
序列编码产物的名称
/insertion_seq=
序列来源于某种插入元件
/anticodon=
tRNA反义密码子的位置及它所编码的氨基酸
/isolate=
序列来源的生物个体
/cell_line=
获得序列的细胞系
/lab_host=
为扩增序列来源物种所用的实验室宿主
/chromosome=
获得序列的染色体
/macronuclear
指明DNA来源于染色体分化的大核期
/clone=
获得序列的克隆子
/note=
评论及附加信息
/codon=
指出与参考密码子不同的密码子
/organelle=
获得序列的细胞器
/EC_number=
序列产物的酶学编号
/sub_strain=
获得序列的来源微生物亚种
/transl_table=
描述在翻译中与通用密码表不同的密码表
/tissue_type=
获得序列组织类型
/usedin=
表明该特性在其他检索中也被使用
/translation=
按通用或指定的密码子表翻译的氨基酸序列
/virion
病毒颗粒
限定词
含义
限定词
含义
/cons_splice=
区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点
/map=
相关特性在基因图谱上的位置
/cultivar=
所获序列植物的栽培变种
/mod_base=
被修饰碱基的简写
/dev_stage=
序列来源于某种生物的特定发育阶段
/number=
从5’→3’注明遗传元件的顺序
/evidence=
序列特性来源于实验还是推理
/organism=
提供测序用遗传物质的物种的科学名称
/focus
指出在记录中的来源特性在其他物种中还有不同的来源特性
/phenotype=
序列特性所导致的表型
/function=
序列所代表的功能
/plasmid=
获得序列的质粒名称
/haplotype=
序列来源于某种物种的单倍体
/protein_id=
蛋白质的检索号
/isolation_sou-rce=
描述序列来源物种的生理、环境和地理信息
/proviral
整合在基因组中的前病毒
/label=
序列特性的俗名
/rearranged
如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA
限定词
含义
限定词
含义
/rpt_family=
重复序列
/transposon=
转座子
/rpt_unit=
指明重复区域的重复元件构成
/variety=
获得序列的生物变种
/serotype=
同一物种的不同血清学特征
/pseudo
假基因
/sex=
获得序列的物种性别
/replace=
表明特性间的间隔序列已被替换
/specimen_vou-cher=
指明来源物种保存于什么地方
/rpt_type=
重复序列的组织方式
/strain=
获得序列的菌珠
/sequenced_m-ol=
获得序列的分子类型
/sub_species=
获得序列的来源物种的亚种
/serovar=
同一原核生物的血清学特征
/tissue_lib=
获得序列组织库
/specific_host=
获得序列的天然宿主
/transgenic
指明物种的来源特性是否是转基因受体
/standard-name=
特性的通用名称
/transl_except=
标明序列中未按指定密码子表翻译的氨基酸的位置
/sub_clone=
获得序列的亚克隆
◆BLAST
1.blastn(nucleotideblast)是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
2.blastp(proteinblast)是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
3.blastx是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
4.tblastn是蛋白序列到核酸库中的一种查询。
与blastx相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5.tblastx是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
Accession
Molecule
Method
Note
AC_123456
Genomic
Mixed
Alternatecompletegenomicmolecule.Thisprefixisusedforrecordsthatareprovidedtoreflectanalternateassemblyorannotation.Primarilyusedforviral,prokaryoticrecords.
AP_123456
Protein
Mixed
Proteinproducts;alternateproteinrecord.Thisprefixisusedforrecordsthatareprovidedtoreflectanalternateassemblyorannotation.TheAP_prefixwasoriginallydesignatedforbacterialproteinsbutthisusagewaschanged.
NC_123456
Genomic
Mixed
Completegenomicmoleculesincludinggenomes,chromosomes,organelles,plasmids.
NG_123456
Genomic
Mixed
Incompletegenomicregion;suppliedtosupporttheNCBIgenomeannotationpipeline.Representseithernon-transcribedpseudogenes,orlargerregionsrepresentingageneclusterthatisdifficulttoannotateviaautomaticmethods.
NM_123456
NM_123456789
mRNA
Mixed
Transcriptproducts;maturemessengerRNA(mRNA)transcripts.
NP_123456
NP_123456789
Protein
Mixed
Proteinproducts;primarilyfull-lengthprecursorproductsbutmayincludesomepartialproteinsandmaturepeptideproducts.
NR_123456
RNA
Mixed
Non-codingtranscriptsincludingstructuralRNAs,transcribedpseudogenes,andothers.
NT_123456
Genomic
Automated
IntermediategenomicassembliesofBACand/orWholeGenomeShotgunsequencedata.
NW_123456
NW_123456789
Genomic
Automated
IntermediategenomicassembliesofBACorWholeGenomeShotgunsequencedata.
NZ_ABCD12345678
Genomic
Automated
Acollectionofwholegenomeshotgunsequencedataforaproject.Accessionsarenottrackedbetweenreleases.Thefirstfourcharactersfollowingtheunderscore(e.g.'ABCD')identifiesagenomeproject.
XM_123456
XM_123456789
mRNA
Automated
Transcriptproducts;modelmRNAprovidedbyagenomeannotationprocess;sequencecorrespondstothegenomiccontig.
XP_123456
XP_123456789
Protein
Automated
Proteinproducts;modelproteinsprovidedbyagenomeannotationprocess;sequencecorrespondstothegenomiccontig.
XR_123456
RNA
Automated
Transcriptproducts;modelnon-codingtranscriptsprovidedbyagenomeannotationprocess;sequencecorrespondstothegenomiccontig.
YP_123456
YP_123456789
Protein
Mixed
Proteinproducts;nocorrespondingtranscriptrecordprovided.Primarilyusedforbacterial,viral,andmitochondrialrecords.
ZP_12345678
Protein
Automated
Proteinproducts;annotatedonNZ_accessions(oftenviacomputationalmethods).
NS_123456
Genomic
Automated
Genomicrecordsthatrepresentanassemblywhichdoesnotreflectthestructureofarealbiologicalmolecule.Theassemblymayrepresentanunorderedassemblyofunplacedscaffolds,oritmayrepresentanassemblyofDNAsequencesgeneratedfromabiologicalsamplethatmaynotrepresentasingleorganism.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NCBI 符号 代表 意思