SNP及检测技术.docx
- 文档编号:9792540
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:47
- 大小:542.52KB
SNP及检测技术.docx
《SNP及检测技术.docx》由会员分享,可在线阅读,更多相关《SNP及检测技术.docx(47页珍藏版)》请在冰豆网上搜索。
SNP及检测技术
SNP及检测技术
1定义:
单核苷酸多态性(singlenucleotidepolymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
它是人类可遗传的变异中最常见的一种。
占所有已知多态性的90%以上。
SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。
SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。
但通常所说的SNP并不包括后两种情况。
单核苷酸多态性(SNP)是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。
所谓转换是指同型碱基之间的转换,如嘌呤与嘌呤(G2A)、嘧啶与嘧啶(T2C)间的替换;所谓颠换是指发生在嘌呤与嘧啶(A2T、A2C、C2G、G2T)之间的替换。
从理论上来看每一个SNP位点都可以有4种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2:
1。
SNP在CG序列上出现最为频繁,而且多是C转换为T,原因是CG中的C常为甲基化的,自发地脱氨后即成为胸腺嘧啶。
一般而言,SNP是指变异频率大于1%的单核苷酸变异。
在人类基因组中大概每1000个碱基就有一个SNP,人类基因组上的SNP总量大概是3×106个。
依据排列组合原理,SNP一共可以有6种替换情况,即A/G、A/T、A/C、C/G、C/T和G/T,但事实上,转换的发生频率占多数,而且是C2T转换为主,其原因是CpG的C是甲基化的,容易自发脱氨基形成胸腺嘧啶T,CpG也因此变为突变热点。
理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。
因此,通常所说的SNP都是二等位多态性的。
这种变异可能是转换(CT,在其互补链上则为GA),也可能是颠换(CA,GT,CG,AT)。
转换的发生率总是明显高于其它几种变异,具有转换型变异的SNP约占2/3,其它几种变异的发生几率相似。
Wang等的研究也证明了这一点。
转换的几率高,可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。
SNP在动物基因组中分布广泛,每一个核苷酸发生突变的概率大约为10-9。
由于选择压力,SNP在单个基因、整个基因组中以及种群间的分布是不均匀的。
SNP在非编码区中要多于编码区,而且在编码区也是非同义突变(有氨基酸序列的改变)的频率比其他方式突变的频率低得多[4]。
而基因间,同一种基因中的编码SNP(codingSNP,cSNP)的数目也不相同,可从0~29个不等。
多项研究同时发现不同种族间SNPs的数目也是不同的,非洲人群及非裔种族中SNPs数量最多,而其他种群的SNPs要少得多,因此通过比较亚群间等位基因的频率将有助于阐明种族的结构和进化。
在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。
总的来说,位于编码区内的SNP(codingSNP,cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5.但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。
从对生物的遗传性状的影响上来看,cSNP又可分为2种:
一种是同义cSNP(synonymouscSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymouscSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。
这种改变常是导致生物性状改变的直接原因。
cSNP中约有一半为非同义cSNP。
先形成的SNP在人群中常有更高的频率,后形成的SNP所占的比率较低。
各地各民族人群中特定SNP并非一定都存在,其所占比率也不尽相同,但大约有85%应是共通的。
2.SNP自身的特性:
1)SNP数量多,分布广泛。
据估计,人类基因组中每1000个核苷酸就有一个SNP,人类30亿碱基中共有300万以上的SNPs.SNP遍布于整个人类基因组中,根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-regionSNPs,cSNPs)、基因周边SNPs(PerigenicSNPs,pSNPs)以及基因间SNPs(IntergenicSNPs,iSNPs)等三类。
2)SNP适于快速、规模化筛查。
组成DNA的碱基虽然有4种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因(biallelic)。
由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需+/-的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。
3)SNP等位基因频率的容易估计。
采用混和样本估算等位基因的频率是种高效快速的策略。
该策略的原理是:
首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。
4)易于基因分型。
SNPs的二态性,也有利于对其进行基因分型。
对SNP进行基因分型包括三方面的内容:
(1)鉴别基因型所采用的化学反应,常用的技术手段包括:
DNA分子杂交、引物延伸、等位基因特异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术;
(2)完成这些化学反应所采用的模式,包括液相反应、固相支持物上进行的反应以及二者皆有的反应。
(3)化学反应结束后,需要应用生物技术系统检测反应结果。
绝大多数疾病的发生与环境因素和遗传因素的综合作用有关,通常认为是在个体具有遗传易感性的基础上,环境有害因素作用而导致疾病。
不同群体和个体对疾病的易感性、抵抗性以及其他生物学性状(如对药物的反应性等)有差别,其遗传学基础是人类基因组DNA序列的变异性,其中最常见的是SNP.易感基因的特点是基因的变异本身并不直接导致疾病的发生,而只造成机体患病的潜在危险性增加,一旦外界有害因素介入,即可导致疾病发生。
另外在药物治疗中,易感基因的变异造成药物对机体的疗效和副作用不同。
随着人类基因组计划的进展,人们愈来愈相信基因组中的SNP有助于解释个体的表型差异、不同群体和个体对疾病,特别是对复杂疾病的易感性以及对各种药物的耐受性和对环境因子的反应。
因此,寻找和研究SNP已成为人类基因组计划的内容和目标之一。
多态性与突变的区别
1、多态性是一个群体概念,多态性指这个差异占群体的1%以上。
否则就叫突变(小于1%)
2、SNP是多态性中的一种,只是进一步限定了差异只是单碱基。
3、SNP一般来说,是全部体细胞一样的基因型(除开嵌合体)。
4、突变一般不是一个个体全部细胞的变化。
5、如果突变发生在生殖细胞,则可以遗传,但是只要这个突变群没有达到总群体的1%,它就只是一个突变株/系。
达到了1%就是多态性了。
常用数据库:
HumanGeneMutationDatabase(HGMD)//http:
//www.uwcm.ac.uk/uwcm/mg/hgmd0.html//TheGenomeDatabase(GD)//http:
//www.gdb.org//DatabaseofSingleNuleotidePolymorphisms(dbSNP)//http:
//www.ncbi.nlm.nih.gov/SNP///HumanGenomeVariationDatabase(HGVbase)//http:
//hgvbase.cgb.ki.se///TheSnpConsortium,LTD.(TSC)//http:
//snp.cshl.org///www.hapmap.org
3.SNP现有检测技术
人们对SNP的研究方法进行了许多探索和改进。
SNP分析技术按其研究对象主要分为两大类,即:
①对未知SNP进行分析,即找寻未知的SNP或确定某一未知SNP与某遗传病的关系。
检测未知SNP有许多种方法可以使用,如温度梯度凝胶电泳(TGGE)、变性梯度凝胶电泳(DGGE)、单链构象多态性(SSCP)、变性的高效液相色谱检测(DHPLC)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)等,但这些方法只能发现含有SNP的DNA链,不能确知突变的位置和碱基类别,要想做到这一点,必须对那些含有SNP的DNA链进行测序。
②对已知SNP进行分析,即对不同群体SNP遗传多样性检测或在临床上对已知致病基因的遗传病进行基因诊断。
筛查已知SNP的方法有等位基因特异寡核苷酸片段分析(ASO)、突变错配扩增检验(MAMA)、基因芯片技术(genechips)等。
由于人类基因工程的带动,许多物种都已开始了基因组的项目,并建立了大量数据库,比较这些来自不同实验室不同个体的序列,就可以检测到
SNP。
SNP位点信息已知的情况下,选择SNP的GENOTYPING的方法,主要根据你的经费情况设计,我分别给你分析一下现状:
A、一般实验室:
经费一般,仪器不具备时,最多用的是以下两种方法:
1、基于PCR的方法,也叫AS-PCR,(ALLELE-SPECIFICPCR)的办法。
主要原理是利用引物在扩增时3'端相对高的BASE要求,进行设计。
这个方法是最便宜的,不需要酶切,一次PCR就可以得到GENOTYPING的信息。
缺点:
PCR对于3'端的特异性在不同退火温度时有出入,所以退火温度的摸索很关键,否则假阳性扩增是很容易的。
另外,内参照的设置也很重要,这个东西还是很有意思的。
而且,所使用的引物位置无法人为调整,只能放在SNP的5'段。
2、基于酶切分型。
依靠限制性内切酶的忠贞性进行单SNP的分型。
SNP突变与否,可能影响某个酶识别位点的存在或消失。
通过酶切产物的电泳条带,判断SNP的突变的情况,即纯和,野生纯和,和杂和子。
当没有直接可利用的酶切位点时,可以采用突变引物中个别BASE,从而凑成切点的设计,也叫做RG-PCR,restrictionsitegenerationPCR。
B、有经费的实验室的方法:
这里我写几个自己曾经涉足过的方法,可行性比较强,但是需要相应的经费支持和相应的仪器,但是通量相对更高,效率更好:
1、直接测序,基于PCR产物的直接sequencing的方法,比对序列结果,就可以进行SNP的识别和分析。
2、分型质谱,华大生物信息平台那边可以外接服务,提供PCR产物即可。
3、pyro-sequencing,微测序,中科院遗传所王沥研究员那里有可以联系的外接服务。
4、D-HPLC,变性高效液相色谱法。
北京可以去联系做的地方不少,北京大学生科院有机器,另外北京大学肿瘤研究所也有机器,国家人类基因组陈标那里也有一台,需要做的话,拿着经费和他们联系就可以,这个方法也很不错,价钱可以商量。
5、还有些方法,如DNA芯片技术适合对于largescale的SNP的筛查,一般用于组学领域,可能不适用与您的情况。
还有许多如荧光共振能量转移等方法/探针杂交法等,并未在本领域中国内推广,就不一一介绍了。
1)测序
主要发现新的SNP位点和比较集中的SNP位点,如hla区域,但成本较高,工作量大,不适合大样本做疾病关联分析。
2)taqman探针
结果比较可靠,国外文章也大量应用,不过对于国内成本偏高,同类还有snpshot技术,abi和贝克曼都相应试剂盒。
成本和成功率都比taqman要低。
3)snp芯片
国外大规模筛查疾病关联分析常用,illumina和affy都有不同密度的成熟产品,单位点成本很低,但点较多,样本多时也会很高花费,但结果准确,适合复杂疾病,有实力的项目组一般大型机器点在384-群基因组可以订制,但成本会高;illumina开发了一台小的芯片,极其适合1-384,可以订制,成本在2-5元/人点,但还没有很成熟的流程,具体效果和成功率要进一步看。
4)剩下的就是传统方法如酶切,PCR-SSCP等,也有杂志接受,但一般需要测序验证。
缺点是工作量太大,结果不准确,不是所有位点都可以做,但成本很低。
目前已有多种方法可用于SNP检测,如根据DNA列阵的微测序法、动态等位基因特异的杂交、寡聚核苷酸特异的连接、DNA芯片以及TaqMan系统等。
但不管哪一种方法,首先必须进行靶序列的扩增,然后才能进行其它检测。
传统的SNP检测方法是采用一些已有的成熟技术,如DNA测序、限制性酶切片段长度多态性(RFLP)、单链构象多态性(SSCP)、等位基因特异的寡聚核苷酸杂交(ASO)等。
这些技术虽在某种程度上能完成对SNP的检测,但由于它们必须通过凝胶电泳进行检测,因此,距快速、高效、自动化的目标还相差甚远。
传统的RFLP只能检测到SNP的一部分,测序技术既费时费力,又不易实现自动化,而且DNA链的二级结构还容易造成人工假相,使测序结果出现偏差,不适宜于SNP的检测;SSCP则很难满足自动化的需要,难以大规模开展工作。
因此,这些方法均未被广泛采用。
DNA芯片技术是近年来新开发的一种DNA序列变异检测工具。
DNA芯片(DNAchip),也称生物芯片(biochip),其大小与计算机上的CPU芯片相似,约1cm2或更大些,以玻璃、硅、聚丙烯等作为载体基片,芯片上铺了一层肉眼看不见的DNA纤维“地毯”,即具有特定碱基序列的探针。
待测基因经提取后,被切成长短不一的片段,经荧光化学物质标记后,注射到嵌有芯片的载片上。
由于DNA和探针杂交的程度与荧光强度相关,因此通过激光扫描,即可根据荧光强弱测出被检测序列的变异。
目前已有多家公司开展了对芯片的研究,例如美国的Affymetrix公司、NEN生命科学公司等。
前者曾开发出BRCA1(乳癌基因1号)芯片、p53芯片等,后者则在1张玻璃芯片上集成了多达2400个已知基因。
此外,ResearchGenetics公司新近开发了1个集成有1500个SNP的DNA芯片,它涵盖了人类基因组全部24条染色体,所提供的信息量至少等于或优于目前常用的300~400个微卫星标记的图谱,检测时只需0.5μg的DNA样品就可进行1次全基因组的扫描。
另外Transgenomic公司的WAVE®核苷酸片段分析系统是高通量且较为准确可靠的筛查未知、已知SNP的新方法。
利用Transgenomic公司的WAVE®核苷酸片段分析系统进行SNP检测平均每个样本的费用为$0.5。
4.当前SNP功能研究主要有以下几方面:
SNP的分型技术可分为两个时代,一为凝胶时代,二为高通量时代。
凝胶时代的主要技术和方法包括限制性酶切片段长度多态性分析(RFLP)、寡核苷酸连接分析(OLA)、等位基因特异聚合酶链反应分析(AS2PCR)、单链构象多态性分析(SSCP)、变性梯度凝胶电泳分析(DGGE),虽然这些技术与高通量时代的技术原理大致一样,但是由于它不能进行自动化,只能进行小规模的SNP分型测试,所以必然会被淘汰。
高通量时代的SNP分型技术按其技术原理可分为:
特异位点杂交(ASH)、特异位点引物延伸(ASPE)、单碱基延伸(SBCE)、特异位点切割(ASC)和特异位点连接(ASL)5种方法。
此外,采用特殊的质谱法和高效液相层析法也可以大规模、快速检出SNP或进行SNP的初筛。
近年来已经在晶体上用“光刻法”实现原位合成,直接合成高密度的可控序列寡核苷酸,使DNA芯片法显示出强大威力,对SNP的检测可以自动化、批量化,并已在建立SNP图谱方面投入实际应用。
DNA芯片法有望在片刻之间评价整个人类基因组。
1)报告基因转染技术:
这一技术主要用于研究启动子SNP对于mRNA转录效率,是通过观察转录结局来判断SNP是否具有功能。
2)EMSA技术:
通过在体外合成含SNP位点的寡核苷酸与转录因子特异性结合,观察结合的强度和效率,但是该技术由于只人工合成较短长度的寡核苷酸,没有考虑SNP周围遗传背景环境的影响,因此在重复性和说服力上不强。
3)ChiP技术:
该技术通过超声将染色体碎片化,再将碎片化的核酸与转录因子的结合,最后通过PCR技术观察判断结合的效率和强度,该技术克服了EMSA的一些缺点,当前做的文献较多。
5SNP产生功能的机制研究的个人之所见
1.对大多数SNP而言,都由于位于一些非编码区域而不产生明显的功能性影响,此时做SNP功能意义不大。
2.启动子SNP研究是做的人最多的,相关实验技术都比较成熟,其产生功能的机制主要是影响TF与启动子的的结合能力,从而调控基因的转录。
3.编码区SNP有同义和非同义2种,非同义突变由于会导致氨基酸的变化,从而影响蛋白质的功能,特别是发生在结构功能区域的SNP尤其重要,可是这方面的技术还存在瓶颈,做得相当少,据我所知要用什么诱导点突变的方法再去评价蛋白质功能的。
至于非同义突变,虽然没有明显的功能的分子机制,但是在遗传学上可能因为与附近的其它致病基因的表达或者SNP连锁,因此在流行病学上形成阳性结果一般以此解释。
4.内含子区域SNP产生功能的分子机制一般是与附近其它基因SNP连锁或者可能影响mRNA的剪接从而影响蛋白质的功能——很多研究中做INTRON发现有阳性结果解释不了,而且大多只是猜测。
PYRO测序用于SNP基因分型
其实是一种段片段焦磷酸测序技术,在测序引物的引导下,完成段片段(含snp)的测序,从而实现基因分型。
缺点:
不能检测长片段,对于重复序列没有办法。
原理简介
1.测序引物与单链,PCR扩增的DNA模板相结合。
然后将其与DNA聚合酶、ATP硫酸化酶、荧光素酶和三磷酸腺苷双磷酸酶,以及底物APS和荧光素一起孵育。
2.四种dNTP之一被加入反应体系,如与模扳配对,此dNTP与引物的末端形成共价键,dNTP的焦磷酸基团(PPi)释放出来。
而且释放出来的Ppi的量与和模板结合的dNTP的量成正比。
3.ATPsulfurylase在adenosine5´phosphosulfate存在的情况下催化PPi形成ATP,ATP驱动luciferase介导的Luciferin向oxyluciferin的转化,oxyluciferin发出与ATP量成正比的可见光信号。
光信号由CCD摄像机检测并由pyrogram™反应为峰。
每个光信号的峰高与反应中掺入的核苷酸数目成正比。
4.TP和未掺入的dNTP由Apyrase降解,淬灭光信号,并再生反应体系。
5.然后加入下一种dNTP。
最终待测序列顺序,即可从反应光强的信号峰中读出。
在此过程之中有几点值得注意的是,在体系中使用的是dATPS而非dATP,因为dATPS不是荧光素酶的底物,而且DNA聚合酶对dATPS的催化效率更高。
而且在系统之中,底物的浓度已经最佳化,使得dNTP的降解速度慢于它的掺入速度,ATP的合成速度快于水解速度,其中三磷酸腺苷双磷酸酶的特异浓度,可以保证降解完全,使系统复原。
RealtimePCR检测SNP的方法是:
针对目标基因片段的突变位点,设计两条引物,这两条引物的区别仅仅是末端的1-2个碱基不同,分别与突变位点匹配。
共同的下游引物和探针。
然后扩增。
就可以得到不同的CT值,根据CT值的不同,来确定基因类型。
1、把蛋白序列对应的核酸序列找到。
2、根据核酸序列做BLAST(对dbSNP数据库http:
//www.ncbi.nlm.nih.gov/SNP/snpblastByChr.html)。
3、结果中,可以得到你的序列上所以已知的SNP。
以编码5-hydroxytryptamine(serotonin)receptor的HTR1A基因为例,先进入entrez,选择gene选项,在NCBI中搜HTR1A基因,到如下图界面,点基因缩略图,然后点graphics。
点击后的界面如下。
这里已经很清楚地标明了SNP所在的位置以及对应的核酸与蛋白序列。
但有一点要说明,我注意到这个基因编码的蛋白序列与swissprot的序列有一些差别,很可能是收录的版本不同,或是有些序列是NCBI直接根据orf形成的.
1,如果是检测基因的所有已知的SNP,那么首先要去了解并查询到这些SNP位点,SNP位点可以通过查询dbSNP数据库(http:
//www.ncbi.nlm.nih.gov/SNP/)和TSC(TheSNPConsortium)数据库(http:
//snp.cshl.org/),可以获知基因及上下游邻近序列的SNP位点。
2,至于挑选的原则,可以介绍一下HapMap的正规化标准:
SNPSelectionCriteria
Category1"verified"
ThiscontainsallSNPsforwhichwehaveallelefrequencyorgenotypingdata.ThisincludesSNPsfromtheTSCallelefrequencyproject,aswellasSNPscharacterizedbyJSNP.TheseSNPsweregeneratedfromthosersclustersinwhichatleastoneoftheSNPsintheclustercontainsgenotypeorallelefrequencydataandtheminorallelemusthavebeenseeninatleasttwoindividuals.
Category2"two-hit"
Thesearetruedouble-hitSNPs,producedincollaborationwithJimMullikinandSarahHunt.Adouble-hitSNPmustbeseentwice,intwodifferentDNAsampleswhichmusthaveproducedtwoalleles.TSCtracedatawasonlyallowedtocontributeonehitperallelebecausetheindividualsourceDNAforatracecouldnotbeidentified.
Category3"jsnp-verified/perlegen-verified”
Thiscategorycontainstwogroups:
SNPsthatJSNPcertifiesarelikelytoberealbasedonmanualinspectionoftheirdata(buthavenotbeengenotyped),andSNPsthatPerlegenverifiedindependently.
Category4"bac-overlap"
TheseareSNPsfromBACoverlapsthatdonotfallintocategory1or2above
基因芯片与SNP分析
基因芯片技术作为一种新兴的生物技术,近年来得到迅速发展,其应用具有巨大的潜力。
单核苷酸多态性(SNP)作为新的遗传标记对基因定位及相关疾病研究的意
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SNP 检测 技术