生信学习记录.docx
- 文档编号:27027148
- 上传时间:2023-06-25
- 格式:DOCX
- 页数:16
- 大小:1.07MB
生信学习记录.docx
《生信学习记录.docx》由会员分享,可在线阅读,更多相关《生信学习记录.docx(16页珍藏版)》请在冰豆网上搜索。
生信学习记录
Oligos寡核苷酸Flowcell流动池Adapter适配器,插座Reversestrands反向链Hybridzation杂交Exome外显子组exomesolutioncapture外显子组捕获解决方案Bead珠子Homozygous纯合Heterozygous杂合
基因的indel基因的得失位基因组小片段(<50bp)插入(insertion)或缺失(deletion)
Wholeexonsequencing外显子测序测序深度SequencingDepth测序覆盖度(SequencingCoverage):
singlenucleotidepolymorphism/variation单核苷酸多态性SNP或单核苷酸变异SNV,指个体间基因组DNA序列同一位置单个核苷酸变异引起的多态性。
是研究物种内遗传变异的重要依据。
有些snp可能与疾病有关,大多数与疾病无关。
SV(StructureVariation):
染色体结构变异,指在染色体上发生了大片段的变异,主要包括染色体大片段(>50bp)的插入和缺失、拷贝数变异(CNV)、重复(duplication)、倒位(inversions)、易位(translocations)。
Refgenome参考基因组Annotation注释
BWA-Burrows-WheelerAlignmenttool基于BWT的生物序列比对工具
bwa是为二代测序的短序列比对参考序列(reference,fasta格式)而开发的比对软件。
需要先对参考序列建库。
根据测序方法的不同,有单末端序列(single-end,SE)比对和双末端序列(pair-end,PE)比对。
Determinehaplotypesbyre-assemblyoftheactiveregion.由有源区的重组确定单倍型。
Determinelikelihoodsofthehaplotypesgiventhereaddata.确定给定的读出的数据的单倍型的可能性。
Catalogueofsomaticmutationsincancer在癌症体细胞突变的目录
HumanGeneMutationDatabase,HGMD:
人类基因突变数据库
大规模平行测序技术(massivelyparallelsignaturesequencing,MPSS)MPSS是以基因测序为基础的新技术,其方法学基础是一个标签序列(10~20bp)含有能够特异识别转录子的信息,标签序列与长的连续分子连接在一起,便于克隆和序列分析.通过定量测定可以提供相应转录子的表达水平,也就是将mRNA的一端测出一个包含10至20个碱基的标签序列,每一标签序列在样品中的频率(拷贝数)就代表了与该标签序列相应的基因表达水平,所测定的基因表达水平是以计算mRNA拷贝数为基础,是一个数字表达系统,只要将病理和对照样品分别进行测定,即可进行严格的统计检验,能测定表达水平较低、差异较小的基因,而且不必预先知道基因的序列,该技术的特点是基因表达水平分析的自动化和高通量.
大规模平行测序技术,其基本方法是从生物样品中提取mRNA,将mRNA分子转换成cDNA,通过固相克隆将该cDNA均匀地加载到特制的小分子载体表面,然后在小分子载体上进行大量的PCR扩增.将所有cDNA游离的一端进行精确测序产生16至20个碱基.每一特定序列在整个生物样品中所占的比例,就代表了含有该cDNA基因在样品中的相对表达水平.该技术能将一个生物样品中几乎所有表达了的基因全部分别克隆到特制的小分子载体上,然后把几十或上百万个小分子载体放进一个特殊的反应系统内,使所有小分子载体都排列在一个平面上,然后将带特殊荧光标记的G、A、T、C单核苷酸按顺序分别加入反应体系中,分别与小分子载体上的cDNA进行分子杂交,每次分子杂交后将所有小分子载体进行激光扫描照相.当加入G时,有特殊荧光的小分子载体上所载的cDNA在这个碱基位置上就是G,当加入A时有荧光,则这个位置就是A,以此类推,只需经过4次反应4次激光扫个碱描照相就可将上百万个cDNA同时将这一位置的序列测出.
该技术的特点是:
a1不必事先知道基因的序列,适用于任何生物体及任何性状;b1基因组覆盖面高,能测量出样品中几乎所有表达了的基因;c1基因表达水平的测量是通过直接计算样品中cDNA的拷贝数目,属于非连续变量,所以只要有病理和正常个体(或组织)两个样品即可以进行严格的统计检验,能有效地检测差异性中等或较小的基因;d1实验效率高,只要两个星期即可获得几十万个克隆的16至20个碱基序列.
该技术的关键是验证数据问题,即如何确定转录子和基因表达水平与标签序列产生的数据之间的关系.对不同的基因使用正确的标签序列,如果基因与标签序列之间是非特异性和不明确的都将会产生分析错误。
所谓融合基因,是指将两个或多个基因的编码区首尾相连,置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下,构成的嵌合基因.融合基因的表达产物为融合蛋白。
Syndrome综合征;综合症状;典型表现;onsetage发病年龄visualacuity视力
第一代指双脱氧末端终止法,扩增后通过毛细管电泳读取序列,每次获取数据量少
第二代为高通量测序,采用微珠或高密度芯片边合成边测序,代表有454,solexa,solid,高通量,可一次获得数G数据,相对与第三代,都仍然需要扩增的方法放大信号,扩增后再检测。
第三代特点是单分子测序,多基于纳米科技,无需扩增,对单分链DNA/RNA直接用合成、降解、通过纳米孔等方式直接测序,核心特点是无需扩增所以成本更低
一代测序长度长,准确度高,但是费用高。
二代测序分三大公司,罗氏,Illumina,life,三大测序公司各有不同优势,但费用都比一代低,读长是二代的一大局限,三代还不是特别成熟,是单分子测序,长度是没问题的,但准确度比较低。
一代读长长,准确高,费用高,二代通量高,准确中,费用便宜,三代读长超长,准确低,通量低,费用高,但因读长长,利于组装和发现uniquereads。
转录起始位点(transcriptioninitiationsite):
是指与新生RNA链第一个核苷酸相对应DNA链上的碱基位点,通常为嘌呤。
常把起点前,即5,末端的序列称为上游(upstream),而把其后面即3’末端的序列称为下游(downstream)。
DNA:
脱氧核糖核酸又称去氧核糖核酸,是一种生物大分子,可组成遗传指令,引导生物发育与生命机能运作。
主要功能是信息储存,其中包含的指令,是建构细胞内其他的化合物,如蛋白质与核糖核酸所需。
基因:
具有编码蛋白质功能的DNA片段。
基因表达(geneexpression)是指细胞在生命过程中,把储存在DNA顺序中遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子。
外显子:
断裂基因中的编码序列。
外显子(expressedregion)是真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
外显子是最后出现在成熟RNA中的基因序列,又称表达序列。
既存在于最初的转录产物中,也存在于成熟的RNA分子中的核苷酸序列。
术语外显子也指编码相应RNA外显子的DNA中的区域。
所有的外显子一同组成了遗传信息,该信息会体现在蛋白质上。
内含子:
断裂基因的非编码区,可被转录,但在mRNA加工过程中被剪切掉,故成熟mRNA上无内含子编码序列。
内含子可能含有“旧码”,就是在进化过程中丧失功能的基因部分。
正因为内含子对翻译产物的结构无意义,不受自然选择的压力,所以它比外显子累积有更多的突变。
CNV:
CNV全称是Copynumbervariations,基因拷贝数变异。
异常的DNA拷贝数变化(CNV)是许多人类疾病(如癌症、遗传性疾病、心血管疾病)的一种重要分子机制。
作为疾病的一项生物标志,染色体水平的缺失、扩增等变化已成为许多疾病研究的热点,然而传统的方法(比如G显带,FISH,CGH等)存在操作繁琐,分辨率低等问题,难以提供变异区段的具体信息。
单基因遗传病:
单基因遗传病是指受一对等位基因控制的遗传病,
多基因遗传病:
多基因遗传病是遗传信息通过两对以上致病基因的累积效应所致的遗传病,其遗传效应较多地受环境因素的影响。
与单基因遗传病相比,多基因遗传病不是只由遗传因素决定,而是遗传因素与环境因素共同起作用。
与环境因素相比,遗传因素所起的作用大小叫遗传度,用百分数表示。
如精神病中最常见的也是危害人类精神健康最大的疾病——精神分裂症,是多基因遗传病,其遗传度为80%,也就是说精神分裂症的形成中,遗传因素起了很大作用,而环境因素所起的作用则相对较小。
多基因遗传病一般有家族性倾向,如精神分裂症患者的近亲中发病率比普通人群高出数倍,与患者血缘关系越近,患病率越高。
多基因遗传病的易患性是属于数量性状,它们之间的变异是连续的。
孟德尔式遗传即单基因遗传性状是属于质量性状,它们之间的变异是不连续的。
细胞核遗传:
细胞核遗传,简称核遗传,是指细胞核内基因控制的性状遗传,主要是DNA作为遗传物质,并且作用位置在细胞核内,与细胞质遗传相对。
线粒体遗传:
线粒体内含有它自身地DNA,与同细胞内核的DNA在碱基成分上不同,即鸟嘌呤和胞嘧啶碱基对的含量有别,而且没有同组蛋白结合,表现为裸露的环状DNA。
此外,线粒体内有核糖体,能合成蛋白质,并且有自身复制的能力。
因此,一般认为线粒体在遗传上有一定的自主性。
近来发现,线粒体的活性和作物杂种优势之间存在某些相关性。
例如,能产生杂种优势的两个亲本类型的线粒体,在体外混合时,常表现出超亲的活性,这种现象叫线粒体互补作用。
此种方法正在试用于杂种优势的预测。
常染色体显性遗传病(AD)是指致病基因位于常染色体上,且由单个等位基因突变即可起病的遗传性疾病。
常见的亚型包括:
①完全显性;②不完全显性;③不规则显性;④共显性(⑤延迟显性;⑥从性显性等。
常染色体显性遗传病(autosomaldominantinheritabledisease)是位于常染色体上的显性致病基因引起的,因而有如下特点:
①只要体内有一个致病基因存在,就会发病。
双亲之一是患者,就会遗传给他们的子女,子女中半数可能发病。
若双亲都是患者,其子女有3/4的可能发病(双亲均为杂合体,子代中纯合体患病占1/4,杂合体患病占1/2,纯合体正常占1/4,设致病基因为A,则Aa*Aa=1/4AA(纯合患病)+2/4Aa(杂合患病)+1/4aa(正常)),若患者为致病基因的纯合体,子女全部发病。
②此病与性别无关,男女发病的机会均等。
③在一个患者的家族中,可以连续几代出现此病患者。
但有时因内外环境的改变,致病基因的作用不一定表现(外显不全),一些本应发病的患者可以成为表型正常的致病基因携带者,而他们的子女仍有1/2的可能发病,出现隔代遗传。
④无病的子女与正常人结婚,其后代一般不再有此病。
常染色体隐性遗传:
一个人必须有异常等位基因的两个拷贝才会出现常染色体隐性遗传病.某些人群中可有高比率的杂合子或携带者,原因是有建立者效应(该人群起源时成员很少,其中一人为携带者),或是因为祖先给了携带者某种选择优势(例如镰状细胞贫血中,杂合子个体不会生疟疾).
X连锁显性遗传:
一些性状或遗传病的基因位于X染色体上,其性质是显性的,这种遗传方式称为X连锁显性遗传(X-linkeddominantinheritance),这种疾病称为X连锁显性遗传病。
目前所知X连锁显性遗传病不足20种。
由于致病基因是显性的,并位于X染色体上,因此,不论男性(XAY)和女性(XAXa)只要有一个这种致病基因XA就会发病。
与常染色体显性遗传不同之处是,女性患者既可将致病基因传给生子,又可以传给女儿,且机会均等;而男性患者只能将致病基因传给女儿,不传给儿子。
由此可见,女性患者多于男性,大约为男性的1倍。
另外,从临床上看,女性患者大多数是杂合子,病情一般较男性轻,而男患者病情较重。
X连锁隐性遗传:
一种性状或遗传病有关的基因位于X染色体上,这些基因的性质是隐性的,并随着X染色体的行为而传递,其遗传方式称为X连锁隐性遗传(X-linkedrecessiveinheritance,XR)。
以隐性方式遗传时,由于女性有两条X染色体,当隐性致病基因在杂合状态(XAXa)时,隐性基因控制的性状或遗传病不显示出来,这样的女性表型正常的致病基因携带者。
母系遗传,是指两个具有相对性状的亲本杂交,不论正交或反交,子一代总是表现为母本性状的遗传现象。
基因突变:
基因组DNA分子发生的突然的、可遗传的变异现象(genemutation)。
从分子水平上看,基因突变是指基因在结构上发生碱基对组成或排列顺序的改变。
基因虽然十分稳定,能在细胞分裂时精确地复制自己,但这种稳定性是相对的。
在一定的条件下基因也可以从原来的存在形式突然改变成另一种新的存在形式,就是在一个位点上,突然出现了一个新基因,代替了原有基因,这个基因叫做突变基因。
于是后代的表现中也就突然地出现祖先从未有的新性状。
1个基因内部可以遗传的结构的改变。
又称为点突变,通常可引起一定的表型变化。
广义的突变包括染色体畸变。
狭义的突变专指点突变。
实际上畸变和点突变的界限并不明确,特别是微细的畸变更是如此。
野生型基因通过突变成为突变型基因。
突变型一词既指突变基因,也指具有这一突变基因的个体。
纯合突变是一对等位基因都存在突变,而杂合突变指等位基因中只有其中一个基因出现突变。
半合子突变虽然具有二组相同的染色体组,但有一个或多个基因是单价的,没有与之相对应的等位基因,这种合子称为半合子。
错义突变(missensemutation):
是编码某种氨基酸的密码子经碱基替换以后,变成编码另一种氨基酸的密码子,从而使多肽链的氨基酸种类和序列发生改变。
错义突变的结果通常能使多肽链丧失原有功能,许多蛋白质的异常就是由错义突变引起的[1]。
由于bp的替换,使一种aa的密码子变为另一种aa的密码子,在合成多肽时,译成了不同的aa,从而引起翻译突变。
这种突变被称为错义突变。
移码突变:
DNA分子中每一个碱基都是三联密码子中的一个成员,而且遗传信息为DNA链上排列成特定序列的密码子所控制,在这种碱基序列中有一个或几个碱基增加或减少而产生的变异,成为移码突变。
终止密码突变:
是DNA分子中的某一终止密码突变为编码氨基酸的密码子,从而使多肽链的合成至此仍继续下去,直至下一个终止密码为止,形成超长的异常多肽链。
剪切突变:
由于剪接的供体、接纳体部位或其旁侧保守序列的突变,改变RNA前体的剪接方式,使得产生的成熟RNA中含有内含子或缺失外显子序列的一类突变。
同义突变:
碱基被替换之后,产生了新的密码子,但由于生物的遗传密码子存在简并现象,新旧密码子仍是同义密码子,所编码的氨基酸种类保持不变,因此同义突变并不产生突变效应。
由于生物的遗传密码子存在兼并现象,在某一碱基改变后,在原来的某种aa的位置译成同一种aa,此现象称同义突变。
捕获测序:
根据目的基因组DNA片段,设计特异性探针,在序列捕获芯片(或溶液)进行杂交,将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序的研究策略。
外显子测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法
CNV能够通过改变基因剂量或染色体构象来影响基因表达,进而影响疾病的发生和发展,深度测序技术和基因芯片技术是进行全基因组CNV,
MLPA的基本原理包括探针和靶序列DNA进行杂交,之后通过连接、PCR扩增,产物通过毛细管电泳分离及数据收集,分析软件对收集的数据进行分析最后得出结论。
每个MLPA探针包括两个荧光标记的寡核苷酸片段,一个由化学合成,一个由M13噬菌体衍生法制备;每个探针都包括一段引物序列和一段特异性序列。
在MLPA反应中,两个寡核苷酸片段都与靶序列进行杂交,之后使用连接酶连接两部分探针。
连接反应高度特异,只有当两个探针与靶序列完全杂交,即靶序列与探针特异性序列完全互补,连接酶才能将两段探针连接成一条完整的核酸单链;反之,如果靶序列与探针序列不完全互补,即使只有一个碱基的差别,就会导致杂交不完全,使连接反应无法进行。
连接反应完成后,用一对通用引物扩增连接好的探针,每个探针的扩增产物的长度都是唯一的,范围在130~480bp。
最后,通过毛细管电泳分离扩增产物,Genemarker软件分析,得出结论。
只有当连接反应完成,才能进行随后的PCR扩增并收集到相应探针的扩增峰,如果检测的靶序列发生点突变或缺失、扩增突变,那么相应探针的扩增峰便会缺失、降低或增加,因此,根据扩增峰的改变就可判断靶序列是否有拷贝数的异常或点突变存在。
动态突变又称为不稳定三核苷酸重复序列,在基因的编码区、3’或5’-UTR非翻译区、启动子区、内含子区出现三核苷酸重复,及其他长短不等的小卫星、微卫星序列的重复拷贝数,在减数分裂或体细胞的有丝分裂过程中发生扩增而造成遗传物质的不稳定状态。
多态性位点:
多数基因在序列的某个碱基上会跟同种群的其他个体有区别,但是这种不同不会造成疾病或者伤害,则这个碱基的变异会在种群中传递,当这个变异有利于个体的生存时,这个变异在种群中的比例会大大增加,此变异碱基成为多态性变异,这个碱基位点称为多态性位点。
人类基因突变数据库(HGMD)HumanGeneMutationDatabase
HGMD从大约250种期刊中收集突变信息,用计算机和手工结合的方法来扫描这些期刊以寻找相关报道。
包括在编码区、调控区和剪接区域的点突变,还包括插入、缺失、复制及重复,最近加入了疾病相关的多态。
突变信息主要包括染色体定位、突变类型列表和相关的表型列表,并将基因内所有突变定位到HGMD的参考序列上;此外还链接到OMIM、GDB、GenAtlas和相关单一位点突变数据库。
TheGenomeDatabase(GDB)GDB的数据是从发表的文章、直接提交以及从其他资源提取。
要在GDB中找到突变,最简单的就是先找到相关基因,在基因的信息中会找到突变信息的链接,包括有突变类型、核苷酸位置,以及核苷酸和氨基酸的变化。
不管在GDB中是否包含有某个基因的突变信息,在基因信息中总会链接到相关的单个位点突变数据库,并链接到OMIM和HGMD的相关记录。
比较基因组杂交(aCGH:
array-basedComparativeGenomicHybridization)是通过在一张芯片上用标记不同荧光素的样品(病例样品和对照样品)进行共杂交可检测样本基因组相对于对照基因组的DNA拷贝数变化(CNV),常用于肿瘤或遗传性疾病全基因组CNV检测,直观地表现出肿瘤及遗传性疾病基因组DNA在整个染色体组的缺失或扩增。
对肿瘤而言缺失片段可能包含抑癌基因,而扩增片段则可能存在致癌基因。
(1)启动子:
可与RNA聚合酶特异性结合而使转录开始的一段DNA序列。
但启动子本身并不被转录,属于基因上游对转录起调控作用的5′ 端非编码区。
一般可分为两类,一类是RNA聚合酶可以直接识别的启动子;另一类是与聚合酶结合时需要有蛋白质辅助因子。
(2)终止子:
在转录过程中,提供转录终止信号的DNA序列,在RNA水平上通过转录出来的终止子序列形成茎—环结构而起作用。
(注意:
终止子和启动子不同,启动子由DNA序列来提供信号,但真正起终止作用的不是DNA序列本身,而是转录生成的RNA。
)
(3)起始密码子:
信使核糖核酸分子中规定编码多肽链第一个氨基酸的密码子。
细菌的起始密码为AUG,转译为n-甲酰基甲硫氨酸;或较罕见的GUG(缬氨酸)。
真核生物的起始密码子总是AUG,转译为甲硫氨酸。
起始密码子在相应的DNA中为ATG。
(4)终止密码子:
信使核糖核酸分子中作为转译多肽链终止信号的三联体密码子。
可终止蛋白质合成。
此密码子通常用矿石或宝石命名,有3种,包括琥珀密码子(UAG)、赭石密码子(UAA)、欧珀密码子(UGA)等。
区别:
启动子和终止子均为结构基因非编码区的DNA序列,且长度远不止三个碱基,都与基因的转录过程相关联。
起始密码子和终止密码子均位于信使核糖核酸分子中,且均只含三个碱基,都与mRNA的转译过程相关联。
原理
应用
优势
劣势
一代测序
DNA双脱氧核苷酸末端终止法,即在测序过程中掺入四种不同的ddNTP,由于ddNTP末端没有羟基,所以双链
无法继续延伸,DNA合成终止。
这样
合成的终产物包括了很多长短不一的片段,利用电泳分离该混合物,依据电泳条带即可读出片段序列。
第一次人类全基因组测序
技术原理简单,成本低
基于PCR技术,对DNA合成质量要求很高。
每次只能
读取一条序列。
测序长度有严格的限制。
二代测序
锚定与于固相表面,在每一个待测序簇进行延伸互补时,每加入一个被荧光标记的dNTP就会释放出对应的荧
光,通过对荧光信号进行捕捉来转换成测序峰图,继而得到待测片段的序列信息,通过生物信息学工具将可以将片段信息进行组合,得到整个基因
中国大熊猫种群测序,大规模基因组测序,宏观了解基因组和基因组学相关信息
快速,操作简便,成本
较低
基于PCR技术,对DNA合成质量要求很高。
测序长度
有严格的限制。
后续结果
处理需要大量生物信息学支持。
三代测序
首先建立纳米级别的孔径,使DNA分子单独通过孔径,由于碱基化学组成不同,其电导率也不同,根据电导率可以直接读出相应的碱基序列。
某些罕见病的低突变率位点鉴定
不涉及PCR,测序精
确,快速,大批量样本易降低成本,可以连续检测较长的DNA序列
后续结果处理需要大量生物信息学支持。
四代测序
基因芯片技术基于DNA杂交原理,通过将数以万记的寡核苷酸探针固定于面积很小的固相上制成阵列,将待测序列用荧光进行标记,待测序列与核
酸探针互补,洗脱后确定荧光强度最强的位置,获得该组探针的序列,通过生物信息学工具重组靶核苷酸全部序列。
农作物筛选和代谢酶相关基因检测
高通量检测,容易实现
自动化
寡核苷酸探针组成复杂,条件不易统一,进而造成
假阳性和假阴性,对重复
序列还没有很好的解决方法
共分离:
在有性繁殖的后代,假如基因附近有一紧密连锁的分子标记,在细胞减数分裂时分子标记与基因之间由于相距太近很少有机会发生交换,那么这种分子标记与连锁的基因有最大的可能同时出现在同一个个体中,这种现象被称为共分离.
外显率等于100%时称为完全外显(completepenetrance),低于100%时则为不完全外显(incompletepenetrance)或外显不全
公司
检测原理
芯片
检测基因
优势
缺点
迈基诺
捕获
+测序技术
液相探针捕获+二代测序
高通量准确率高
180个相关致病基因,针对180不同的耳聋亚型
全面的多基因检测,无遗漏亚型,
时间45天
博奥
微阵列芯片
固体载体芯片
低通量容易出现假阳性
4个致病基因的9个突变位点
检测时间短,2-3天
针对少数耳聋亚型,不够全面,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学习 记录