生物信息学名词解释.docx
- 文档编号:6117523
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:12
- 大小:64.80KB
生物信息学名词解释.docx
《生物信息学名词解释.docx》由会员分享,可在线阅读,更多相关《生物信息学名词解释.docx(12页珍藏版)》请在冰豆网上搜索。
生物信息学名词解释
行者
【】生物信息学名词解释----这个比拟全
什么是高通量测序?
高通量测序技术〔High-throughputsequencing,HTS〕是对传统Sanger测序〔称为一代测序技术〕革命性的改变,一次对几十万到几百万条核酸分子进展序列测定,因此在有些文献中称其为下一代测序技术(nextgenerationsequencing,NGS)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进展细致全貌的分析成为可能,所以又被称为深度测序(Deepsequencing)。
什么是Sanger法测序〔一代测序〕
Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。
直到掺入一种链终止核苷酸为止。
每一次序列测定由一套四个单独的反响构成,每个反响含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。
由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。
终止点由反响中相应的双脱氧而定。
每一种dNTPs和ddNTPs的相对浓度可以调整,使反响得到一组长几百至几千碱基的链终止产物。
它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳别离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进展检测。
什么是基因组重测序〔GenomeRe-sequencing〕
全基因组重测序是对基因组序列的个体进展基因组测序,并在个体或群体水平上进展差异性分析的方法。
随着基因组测序本钱的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组X围。
通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进展高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以与结构变异等,具有重大的科研和产业价值。
什么是denovo测序
denovo测序也称为从头测序:
其不需要任何现有的序列资料就可以对某个物种进展测序,利用生物信息学分析手段对序列进展拼接,组装,从而获得该物种的基因组图谱。
获得一个物种的全基因组序列是加快对此物种了解的重要捷径。
随着新一代测序技术的飞速开展,基因组测序所需的本钱和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的开展契机和革命性突破。
利用新一代高通量、高效率测序技术以与强大的生物信息分析能力,可以高效、低本钱地测定并分析所有生物的基因组序列。
什么是外显子测序〔wholeexonsequencing〕
外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进展高通量测序的基因组分析方法。
外显子测序相对于基因组重测序本钱较低,对研究基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。
什么是mRNA测序〔RNA-seq〕
转录组学〔transcriptomics〕是在基因组学后新兴的一门学科,即研究特定细胞在某一功能状态下所能转录出来的所有RNA〔包括mRNA和非编码RNA〕的类型与拷贝数。
Illumina提供的mRNA测序技术可在整个mRNA领域进展各种相关研究和新的发现。
mRNA测序不对引物或探针进展设计,可自由提供关于转录的客观和权威信息。
研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。
简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。
什么是smallRNA测序
SmallRNA〔microRNAs、siRNAs和piRNAs〕是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢与疾病的发生等生理过程中起着重要的作用。
Illumina能够对细胞或者组织中的全部SmallRNA进展深度测序与定量分析等研究。
实验时首先将18-30ntX围的SmallRNA从总RNA中别离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后,利用测序仪对DNA片段进展单向末端直接测序。
通过Illumina对SmallRNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。
什么是miRNA测序
成熟的microRNA〔miRNA〕是17~24nt的单链非编码RNA分子,通过与mRNA相互作用影响目标mRNA的稳定性与翻译,最终诱导基因沉默,调控着基因表达、细胞生长、发育等生物学过程。
基于第二代测序技术的microRNA测序,可以一次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下和未知的microRNA与其表达差异,为研究microRNA对细胞进程的作用与其生物学影响提供了有力工具。
什么是Chip-seq
染色质免疫共沉淀技术〔ChromatinImmunoprecipitation,ChIP〕也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。
将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组X围内检测与组蛋白、转录因子等互作的DNA区段。
ChIP-Seq的原理是:
首先通过染色质免疫共沉淀技术〔ChIP〕特异性地富集目的蛋白结合的DNA片段,并对其进展纯化与文库构建;然后对富集得到的DNA片段进展高通量测序。
研究人员通过将获得的数百万条序列标签准确定位到基因组上,从而获得全基因组X围内与组蛋白、转录因子等互作的DNA区段信息。
什么是CHIRP-Seq
CHIRP-Seq(ChromatinIsolationbyRNAPurification)是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。
方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋白测序技术不够成熟,无法知道与该RNA结合的蛋白。
什么是RIP-seq
RNAImmunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。
这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过别离纯化就可以对结合在复合物上的RNA进展测序分析。
RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太一样〔如复合物不需要固定,RIP反响体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等〕。
RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以与其它疾病整体水平的RNA变化。
什么是CLIP-seq
CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitationandhigh-throughputsequencing),是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。
其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进展高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用与其对生命的意义。
什么是metagenomic〔某某因组〕
Magenomics研究的对象是整个微生物群落。
相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:
(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境与个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;
(2)Metagenomics研究无需别离单个细菌,可以研究那些不能被实验室别离培养的微生物。
某某因组是基因组学一个新兴的科学研究方向。
某某因组学〔又称元基因组学,环境基因组学,生态基因组学等〕,是研究直接从环境样本中提取的基因组遗传物质的学科。
传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。
过去几年中,DNA测序技术的进步以与测序通量和分析方法的改良使得人们得以一窥这一未知的基因组科学领域。
什么是SNP、SNV〔单核苷酸位点变异〕
单核苷酸多态性singlenucleotidepolymorphism,SNP或单核苷酸位点变异SNV。
个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。
不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差异的现象。
有这种差异的基因座、DNA序列等可作为基因组作图的标志。
人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。
单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。
在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变〔somaticmutation〕,称做SNV。
什么是INDEL(基因组小片段插入〕
基因组上小片段〔>50bp〕的插入或缺失,形同SNP/SNV。
什么是copynumbervariation〔V〕:
基因组拷贝数变异
基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。
例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。
如果把一条染色体分成A-B-C-D四个区域,如此A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增与缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。
什么是structurevariation〔SV〕:
基因组结构变异
染色体结构变异是指在染色体上发生了大片段的变异。
主要包括染色体大片段的插入和缺失〔引起V的变化〕,染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组〔inter-chromosometrans-location〕等。
一般SV的展示利用Circos软件。
什么是Segmentduplication
一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。
串联重复在人类基因多样性的灵长类基因中发挥重要作用。
在人类染色体Y和22号染色体上,有很大的SD序列。
什么是genotypeandphenotype
既基因型与表型;一般指某些单核苷酸位点变异与表现形式间的关系。
什么ReadContigUnigene
高通量测序时,在芯片上的每个反响,会读出一条序列,是比拟短的,叫read,它们是原始数据;有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;多个contigs通过片段重叠,组成一个更长的scaffold;一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。
一个UniGene不一定代表一个contig,一个UniGene可有多个contig。
UniGene(Unique GeneSequenceCollection)
UniGene是以自动化的方式,对于每一个新进入到GeneBank的序列,进展序列相似性分析,如果可以找到可能是来自于同一个基因的基因组〔cluster〕,如此将次序列归入到这一个基因组,如果找不到,如此成立一个新的基因组。
据估计,人类的基因约有八万到十万个左右,而在UniGenes中的所有人类序列中,经过上述方式加以分组之后,在1998您6月,已得到的超过四万三千个独特的基因组〔uniquegeneclusters〕,其中大约六千余个具有的基因。
什么是soft-clippedreads
当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点与剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clippedreads,这些reads对于鉴定染色体结构变异与外源序列整合具有重要作用。
什么是multi-hitsreads
由于大局部测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。
一些工具根据统计模型,如将这类reads分配给reads较多的区域。
什么是Scaffold
基因组denovo测序,通过reads拼接获得Contigs后,往往还需要构建454Paired-end库或IlluminaMate-pair库,以获得一定大小片段〔如3Kb、6Kb、10Kb、20Kb〕两端的序列。
基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序的Contigs组成Scaffold。
什么是ContigN50
Reads拼接后会获得一些不同长度的Contigs。
将所有的Contig长度相加,能获得一个Contig总长度。
然后将所有的Contigs按照从长到短进展排序,如获得Contig1,Contig2,Contig3...………Contig25。
将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为ContigN50。
举例:
Contig1+Contig2+Contig3+Contig4=Contig总长度*1/2时,Contig4的长度即为ContigN50。
ContigN50可以作为基因组拼接的结果好坏的一个判断标准。
什么是ScaffoldN50
ScaffoldN50与ContigN50的定义类似。
Contigs拼接组装获得一些不同长度的Scaffolds。
将所有的Scaffold长度相加,能获得一个Scaffold总长度。
然后将所有的Scaffolds按照从长到短进展排序,如获得Scaffold1,Scaffold2,Scaffold3...………Scaffold25。
将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为ScaffoldN50。
举例:
Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold总长度*1/2时,Scaffold5的长度即为ScaffoldN50。
ScaffoldN50可以作为基因组拼接的结果好坏的一个判断标准。
什么是测序深度和覆盖度
测序深度〔SequencingDepth〕:
测序得到的碱基总量〔bp〕与基因组大小〔Genome〕的比值,它是评价测序量的指标之一。
测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。
重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。
假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。
覆盖度是指测序获得的序列占整个基因组的比例。
由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这局部没有获得的区域就称为Gap。
例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
denovo字面意思是全新,专业一点就是从头测序。
详细点就是对未知基因组序列进展测序,利用生物信息学分析手段,对序列进展拼接、组装,从而获得其基因组的图谱。
测序的覆盖度〔coverage〕和测序的深度〔depth〕。
对于coverage,由于大片段拼接的gap〔空白或者缺口〕、测序读长有限、重复序列等问题的存在,测序分析后组装得到的基因组序列通常无法完全覆盖所有区域,覆盖度就是最终得到的结果占整个基因组的比例。
例如一个人的基因组测序,覆盖度为98.5%,那么说明该基因组还有1.5%的区域通过我们的组装和分析无法得到;对于depth,就是被测基因组上单个碱基被测序的平均次数,比如某样本的测序深度为30X,那么就是说该样本的基因组上每一个单碱基平均被测序〔或者说读取〕了30次,注意,是平均。
当然了,depth也有最大和最小值,这个都可以由信息分析得到。
其实也就是为了提高准确率什么的,一般15X就差不多了。
什么是DeBruijn图
Ⅱich运用特征值技术发现了Kautz和De-Bruijn图等周数的一个上界.Buherman给出了一个构造性的方法改良了DeBruijn图等周数的上).我们运用该构造方法得到了Kautz图的一个新的上界.
什么是RPKM、FPKM
RPKM,ReadsPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway[Mortazavietal.,2008]:
每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。
是将map到基因的read数除以map到genome的所有read数(以million为单位)与RNA的长度(以KB为单位)。
RNA-seq是透过次世代定序的技术来侦测基因表现量的方法,在衡量基因表现量时,假如是单纯以map到的read数来计算基因的表现量,在统计上是一件相当不合理事,因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表现量较高,而错估基因真正的表现量,所以AliMortazavi等人在2008年提出以RPKM在估计基因的表现量
举例:
比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:
10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者:
1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。
FPKM(fragmentsperkilobaseofexonpermillionfragmentsmapped).每1百万个map上j的reads中map到外显子的每1K个碱基上的reads个数。
FPKM与RPKM计算方法根本一致。
不同点就是FPKM计算的是fragments,而RPKM计算的是reads。
Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。
什么是转录本重构
用测序的数据组装成转录本。
有两种组装方式:
1,de-novo构建;2,有参考基因组重构。
其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig与scaffold。
常用工具包括velvet,trans-ABYSS,Trinity等。
有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。
什么是genefusion
将基因组位置不同的两个基因中的一局部或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。
该基因有可能翻译出融合或嵌合体蛋白。
什么是表达谱
基因表达谱(geneexpressionprofile):
指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱
什么是功能基因组学
功能基因组学〔Functuionalgenomics〕又往往被称为后基因组学〔Postgenomics〕,它利用结构基因组所提供的信息和产物,开展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进展系统的研究。
这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。
研究内容包括基因功能发现、基因表达分析与突变检测。
基因的功能包括:
生物学功能,如作为蛋白质激酶对特异蛋白质进展磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。
采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以与mRNA差异显示等,但这些技术不能对基因进展全面系统的分析,新的技术应运而生,包括基因表达的系统分析〔serialanalysisofgeneexpression,SAGE〕,cDNA微阵列〔cDNAmicroarray〕,DNA芯片〔DNAchip〕和序列标志片段显示〔sequencetaggedfragmentsdisplay。
什么是比拟基因组学
比拟基因组学(parativeGenomics)是基于基因组图谱和测序根底上,对的基因和基因组结构进展比拟,来了解基因的功能、表达机理和物种进化的学科。
利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,说明物种进化关系,与基因组的内在结构。
什么是表观遗传学
表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。
表观遗传的现象很多,的有DNA甲基化〔DNAmethylation〕,基因组印记〔genomicimpriting〕,母体效应〔maternaleffects〕,基因沉默〔genesilencing〕,核仁显性,休眠转座子激活和RNA编辑〔RNAediting〕等。
什么是计算生物学
计算生物学是指开发和应用数据分析与理论的方法、数学建模、计算机仿真技术等。
当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。
因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。
什么是基因组印记
基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。
印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。
基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。
印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。
基因组印记病主要表现为过度生长、生长缓慢、智力障碍、行为异常。
目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。
什么是基因组学
基因组学〔英文genomics〕,研究生物基因组和如何利用基因的一门学问。
用于概括涉与基因作图、测序和整个基因组功能分析的遗传学分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 名词解释