微卫星基因组分布假定功能和突变机制.docx
- 文档编号:27601682
- 上传时间:2023-07-03
- 格式:DOCX
- 页数:14
- 大小:29.08KB
微卫星基因组分布假定功能和突变机制.docx
《微卫星基因组分布假定功能和突变机制.docx》由会员分享,可在线阅读,更多相关《微卫星基因组分布假定功能和突变机制.docx(14页珍藏版)》请在冰豆网上搜索。
微卫星基因组分布假定功能和突变机制
微卫星:
基因组分布,假定功能和突变机制
You-ChunLi*,AbrahamB.Korol,TzionFahima,AvigdorBeilesandEviatarNevo
摘要:
微卫星,又称简短***重复序列,在整个基因组中有大量分布并表现出较高水平的多态性。
SSR的遗传进化机制尚不明了存在争议。
在这里我们试图总结与SSR在基因组编码区与非编码区的分布和功能重要性方面能够获得的相关数据。
大量证据表明SSR在基因组中的分布并非随机的。
至少部分SSR座位长度的延伸或收缩是受选择的,这有可能是因为他们影响了染色质的组织,基因活性的调控,重组,细胞的周期,错配修复系统。
本文同时讨论了SSR的两种可能突变机制——复制滑动和重组,以及他们在SSR变异中的相互作用。
基因组的微卫星(simplesequencerepeat;SSRs),1~6bp的核苷酸基序重复,在目前已分析过的所有生物基因组中都能检测到它的分布,而且它的频率通常比单纯依靠碱基组成的预测要高(Tautz&Renz1984;Epplenetal.1993)。
Bell认为SSRs在整个基因组的丰度和长度分布可能来源于非偏移的一步随机移动(single-steprandom-walk)过程。
一些学者认为SSRs是在选择上呈中性的序列随机或近似随机的分布在整个真核生物基因组中(Schl?
tterer&Wiehe1999;Schl?
tterer2000)。
Bachtrogetal.(1999)检测到一个重要的AT含量与(AT/TA)密度之间的正相关关系,表明SSR的起源发生是一个随机的过程。
但是,他们也发现在他们分析的Drosophilamelanogaster.SSRs连续序列中有39%不是随机分布的。
最近的文献中关于SSR进化解释也存在争议。
大量的研究已经积累了关于与等位基因大小限制相关(Garzaetal.1995;Dermitzakisetal.1998;Samadietal.1998;Lietal.2000c;2002a)的SSR结构类型和功能重要性(reviewedin:
Kashietal.1997;Kingetal.1997;Kashi&Soller1999;King&Soller1999;Gur-Arieetal.2000)方面的数据。
尽管如此,但是SSRs一般被认为是在进化上呈中性的DNA标记(e.g.Tachida&Iizuka1992;Awadalla&Ritland1997;Schl?
tterer&Wiehe1999)。
这些争议需要更多SSR功能重要性的证据并证明关于基因组SSRs进化重要性的综合讨论。
一种方法是试图从定性即功能对中性的角度来分析SSR变异现象,这并不适合这一问题。
实际上,如果这个问题从定量上而不是定性上系统阐述,SSR变异的相对解释可能就没有根本的冲突。
关于SSRs和他们的多样效应方面有丰富的证据证实了这一方法。
目前的综述集中在以下几个方面:
SSR在基因组编码区和非编码区的分布;(ii)进化重要性和SSR基因组分布的动态学;(iii)SSR在基因表达和遗传紊乱,染色质组构,细胞周期和DNA代谢过程中的效应/功能;(iv)复制滑动和DNA复制机制与重组对SSR突变的相对作用。
SSR在非编码DNA中占了很大的比例而在蛋白质编码区却相对稀少。
例如,在54个植物物种中发现的所有101个单-,双-,四-核苷酸SSRs都在非编码区。
在7个真核生物进化枝即accharomycescerevisiae,Caenorhabditiselegans,Schizosaccharomycespombe,Mus,Drosophila,plants,andprimates所有类型的SSRs(从单-到六-核苷酸重复)大多数(与随机分布相比)都在基因组的非编码区(Wangetal.1994).Morganteetal.(2002)报道除三核苷酸和六核苷酸外的所有SSR在六个植物物种(Arabidopsis,rice,soybean,maize,andwheat)中的25762个预测的蛋白质编码序列中的频率要明显的少于非编码区。
在Japanesepufferfish,Fugurubripes的基因组中,6042个SSRs中有11.6%能在蛋白质编码区中检测到(Edwardsetal.1998)。
这是因为对编码区的移框突变有负选择作用(Metzgaretal.2000)。
以前,在fungi,protists,prokaryotes,viruses,organelles,plasmidsandhumans的基因组中发现三元SSRs在编码区和非编码区有相似的分布类型。
但是,与疾病相关的三元重复大多是在人类基因组的编码区发现的。
同样Morganteetal.(2002)最近发现三元SSRs在上述六个植物物种中编码区的频率加倍,这是因为突变压力以及对特异单核苷酸延伸。
一些三元阵列在长时期内并不是广泛保守的即使他们形成了蛋白质编码序列的一部分,因为长三元重复在减数分裂或配子形成时是不稳定的。
在许多物种发现的大部分SSRs是双核苷酸的,但在灵长类中单核苷酸[主要是,poly(A/T)序列]是最多的一类SSRs。
与三元SSRs相比,二元和四元SSRs在编码区的频率要比非编码区的低。
例如,Norwayspruce,Piceaabies中双核苷酸重复在表达序列的频率比在随机基因组克隆中的频率低二十倍。
在八个原核生物和酵母中,长单-和双-序列广泛分布在非翻译区。
对于完美二聚体SSRs,Bell&Jurka(1997)发现在编码区和其他功能上很重要的区域短重复(3个单元)是能够通过Bernoullimodel预测的;(ii)在非编码区的长的(5个单元)完美型二聚体SSRDNA的长度分布符合非偏移一步突变模型。
在这个模型中,重复是能够通过增加或减少一个单元来改变长度的,同样碱基替换也会破坏一个长的完美型重复从而产生两个短的完美型完美重复。
通过对human,mouse,worm(Caenorhabditiselegans),和yeast基因组DNA序列的分析发现所有可能二聚体SSRs在编码区的分布函数呈指数性而在非编码区有一个有一个出人意料的长尾很好的符合power-law函数。
假设这些长的非指数尾巴是由于非编码区DNA对突变有很高的耐受性。
一些基因的5'和/或3'端非翻译区有二核苷酸SSRs分布,例如channelcatfishIctaluruspunctatus的5个基因以及哺乳动物热激蛋白70基因[(GA)6CAG(TC)24tract:
Lisowskaetal.(1997)]。
二核苷酸SSRs在内含子中也有发现。
例如,在MusmusculusAdh-1基因的内含子A中有(TA)14(TG)8,and(TA)19,andIL-5基因的内含子中有(AT)17;在Betulapendu树BVGC34基因的内含子中有(CA)17(TA)14,and(TGTA)3.在3'and5'区和内含子中的二-或四-SSRs的潜在的大小延伸能构通过移框突变打断原来的蛋白或者形成新的基因。
这表明二-或四-SSRs的随机分布受到很强的选择。
对于一定数目的重复基序来说,四核苷酸座位要比二核苷酸座位长。
这可能影响选择压力,如果在减数分裂过程的稳定性依赖于目标区域的的绝对大小。
含有长重复单元的座位好像在不同的大小上经历更强的选择尤其是在基因组中具高重组率的区域。
这些发现同时表明在编码区和非编码区SSR频率的差异是由对编码区移框突变的特异选择引起的,而这移框突变是由非三联体重复的长度改变引起的。
尽管如此,但是在所有的蛋白质中有14%含有重复序列,真核生物重复基序的丰度是原核生物的三倍。
原核的和真核的重复家族成簇聚集在非同源蛋白质附近。
这可能是因为重复序列是在这两界分裂后出现的。
真核生物整合由更多的重复可能在进化上有优势更快的适应新环境。
Tóthetal.(2000)对从真菌到人类的几个分类群的SSRs进行了详细的分析,揭示不同重复类型的不同基序在编码核非编码区,内含子和基因间区域的分布有很高的类群特异性类型。
这种特异性可以部分的通过突变机制和分化选择的相互作用来解释。
积累的经验似乎表明脊椎动物中的SSR要比无脊椎动物中的更丰富更长,在脊椎动物中的冷血动物中有更长的SSR序列。
有趣的是Tóthetal.(2000)比较的类群中,有最大丰度的是啮齿类而有最小丰度的是C.elegans。
Eyre-Walker(1999)发现在非编码区的组成性突变并不能仅靠突变偏依性来解释,选择可能起到重要的作用。
与中性突变理论的预测相比,非编码DNA在位置上限制了条带类型短散在重复分布在R-带(theprimitivechromatinstate),长散在重复在G-带(吉姆萨黑带:
Holmquist1989)。
据推测每一个***重复序列受局部和一般的生物学活性的影响来决定它的不稳定水平。
非编码区DNA的动态组织性表明一个回文环能影响密码子的使用和染色体染色质类型的稳定性。
保守的非随机密码子的使用,或者全部氨基酸使用或者两者在短重复的过量和长重复的选择上都有重要的作用。
等级选择理论说明了选择是怎样在基因组的水平上作用于非编码DNA产生位置限定的DNA和在个体水平上促成最小的遗传负荷的。
基因组中的重复的整体水平与基因组的大小和重复的水平有关系,这表明整个基因组可能对一致状态的简单重复序列的增加有反应。
现在表明基因组内、物种高等分类群间的各种非随机类型的SSR变异需要功能上的解释。
虽然常认为SSRs是在进化上呈中性的DNA标记,但是实质部分的SSRs的功能重要性已经被
各种生物现象的严格试验所证实,如图1和下面所示。
染色质组织
染色体组织。
一些SSR的分布表明他们可能在类群特异性染色体结构方面起作用。
例如,SSR杂交信号出现在相关的染色体位置而与所用的基序无关,而且在小麦和黑麦中有明显的相似的分布类型,表明SSRs在染色体组织中有特殊作用可能是tribeTriticeae中的一个古基因组成分。
在GWM601定位的4A染色体的短臂座位上,CT重复在野生二粒小麦中保持(CT)17,在它后代培养小麦中国春中有明显的相似性,表明这一基因座可能与4A染色体组织的某些方面有关。
此外短重复序列的大量存在不仅对基因组的稳定性十分重要,同时也与其他基因组特征(密码子的使用)的进化有关。
DNA的结构。
SSRDNA序列能够形成各种罕见的由简单和复杂的环-折叠组成的DNA结构。
例如,由脆弱的X重复(CCG)形成的发夹结构,由(GAA)/(TTC)形成的二重三叶,都有简单的环-折叠。
这种三叶结构可能对基因表达重要的调控效应。
人着丝粒重复(AATGG)能够形成双折叠的发夹DNA结构。
同样的,已证明短的三联体重复能在单链时形成很多二级结构。
较长的(CAG)和(CTG)重复在变性复性后产生罕见的二级结构。
这种稳定二级结构的形成提供了一种解螺旋机制,这在转录中时很有优势,并提供了单一蛋白识别基序。
在许多物种中,二聚体SSR相对丰度,代表了departure从基因组序列的随机性,有可能反映了双链曲线,超螺旋,和其他的高等DNA结构特征。
重复数好像是一个重要参数,决定了从罕见结构在基因表达获得的优势和在复制中获得的劣势之间的平衡。
着丝粒和端粒
在许多物种中,着丝粒区由大量的***重复组成,它影响着丝粒的组织。
在tomato(Areshchenkova&Ganal1999),Arabidopsis(Brandesetal.1997),andsugarbeetBetavulgaris(Schmidt&Heslop-Harrison1996)的着丝粒区单-,双-,三-和四核苷酸SSR基序聚集成簇。
对Neurosporacrassa着丝粒区重复DNA的基因组Southern印记和序列分析表明一个特异着丝粒结构包含一个趋异着丝粒特异重复家族。
N.crassa着丝粒区简单重复的特征和分布与Drosophila着丝粒区是一样,但是每种重复的相对丰度对Neurospora(Cambarerietal.1998)。
来说是特异的。
在Drosophila的微型染色体中,着丝粒侧异DNA序列中占绝对优势是高度重复序列,normaltransmission所需的重复数随细胞分裂类型和性别的不同而不同。
趋异***重复序列组合成染色体特异的高级重复是许多生物着丝粒的一般特征,并表明形成维持高级重复的进化机制在他们的基因组中是保守的。
(Janzenetal.1999).重复性序列在许多物种主缢痕的普遍存在也支持着丝粒结构与功能之间有很强的进化联系(Eichler1999)。
着丝粒侧翼重复DNA可能有两种功能:
姐妹染色单体的附着和间接与动粒形成或行使功能相联系。
(Murphy&Karpen1995)。
DNA代谢过程的调控
重组。
大量SSR和小微星DNAs被认为是重组热点(Jeffreysetal.1998;Templetonetal.2000)。
simianvirus40(Wahls&Moore1990a),withyeast(Treco&Arnheim1986),human(Aharonietal.1993;Majewski&Ott2000;Templetonetal.2000),andmammaliancells(Wahls&Moore1990b),andwithbacteriaRecA-independent质粒间重组(Murphy&Stringer1986)的实验支持这一观点。
二核苷酸重复是重组的优先位点,因为他们与重组酶有很高的亲和性。
一些SSR序列可能直接通过影响DNA结构来影响重组。
曾提出GT、CA、CT、GA、GC或AT重复结合蛋白能通过诱导形成Z型DNA或其他构型的DNA来参与重组(reviewedin:
Koroletal.1994;Karlinetal.1998;Bietetal.1999)。
重复数目也回影响重组。
例如,能在体外检测到GT/GCSSR对依赖RecA的同源重组的影响。
并且发现含有7、16、37个(GT)重复的分子进行链重组的分子数分别是从100%到80%和30%。
Majewski&Ott(2000)分析了人22号染色体上不同SSRs的分布和重组密度。
仅发
现SSR序列中只有GT重复和重组的升高有密切的联系。
在酵母ARG4中的(GT)39序列能够提高基因转变的频率。
重复序列能极大的刺激多交换体的形成而对单个交换体的没有影响(Gendreletal.2000)。
上面所罗列的证据表明SSRs不仅能通过重复序列而且能够通过重复数目影响重组。
DNA重复和细胞周期
SSRs能够影响DNA复制(Field&Wills1996)。
在鼠细胞中,DNA的扩增能够被含有d(GA)27·d(TC)27的特异片断阻碍。
发现在扩增子的末端和反向重复的结合处有可能起到DNA体内复制的阻碍位点。
在哺乳动物突变子表型CSA7克隆中,不稳定的(CA)nSSRs能与其他基因扩增事件共选择(Caligoetal.1999)。
SSR能影响控制细胞周期的酶。
例如,人CHK1基因在控制细胞周期progression中有一定的作用。
它的编码区含有(A)9序列(Codegonietal.1999),这一序列是SSR不稳定肿瘤的潜在突变位点(Bertonietal.1999)。
在人结肠癌和子宫内膜癌中CHK1基因的改变与高度poly(A)序列不稳定有很大的关系。
(A)n中A的插入和缺失将会产生删减的蛋白质。
CHK1基因的变化表示癌细胞的一种逃脱细胞周期控制的选择(Bertonietal.1999)。
一些控制细胞周期的基因,像hMSH3,hMSH6,BAX,IGFIIR,TGFbetaIIR,E2F4andBRCA2,都带有短重复序列,它们在细胞保真和生长控制上有重要作用。
SSR不稳定性可以通过重复单元的插入和缺失影响这些基因。
大多数SSR-instability肿瘤在一个以上的这些基因中有突变,并且长的重复序列更易突变(Johannsdottiretal.2000)。
也有证据表明在DNA修复和细胞周期关卡之间有关系:
错配修复系统会对(TG)6orN-methyl-N'-nitro-N-nitrosoguanidine-inducedDNAlesions做出反应而与G2细胞相互作用。
在两个脊髓小脑共济失调类型7雄性的精子细胞中发现有很大的(CAG)nrepeat扩展;很大比例的这类等位基因很可能与胚胎致死和精子功能紊乱有关(Moncktonetal.1999;seealsoParniewskietal.2000fortheroleofMMRsystemindeletionsoflargeCAGtractsinEscherichiacoli)。
真核生物DNAMMR基因中的SSRs是进化突变率的调节器。
DNAMMR蛋白校正复制错误积极阻碍歧义序列间的重组(Chen&Jinks-Robertson1998;Kolodner&Marsischky1999),因此能控制突变率和进化适应。
发现在minorMMRgenes(MSH3,MSH6,PMS2andMLH3)编码区中成簇存在的(A)nSSRs是真核生物包括Homosapiens,Musmusculus,Saccharomycescerevisiae,Schizosaccharomycespombe,Drosophilamelanogaster,Arabidopsisthaliana和原核生物E.coli.一个普通特征。
尽管在一些物种中,7-bp单核苷酸序列零星的发现于大的MMR基因(MSH2orMLH1),更长的序列,是指数性的更易突变,专一的存在于小MMRgenes(seereviewChangetal.2001)。
SSR更易自发的产生插入或缺失的突变,并且非三元的SSRs,当存在于编码区中时更易于高频率的引入移框缺失功能突变(Moxonetal.1994)。
最近的实验已证明在SSR-proficient鼠细胞和SSR-deficient人细胞中较长的SSR的突变率都是很高的(Yamadaetal.2002)。
这些小的MMR蛋白质失活产生的突变表型要比大MMR蛋白(MSH2orMLH1)产生的突变表型弱。
高比率的移框突变使晓MMR基因失活将产生一个真核世系其中的个体极大的提高了突变率。
Changetal.(2001)假设SSRs在小MMR基因中的密度异常代表一种遗传转换使适应性突变率在进化时间上进行调整。
基因活性调控
SSRs和转录。
大量的线形证据表明位于启动子区域的SSRs可能影响基因活性。
在Drosophila(Sandaltzopoulosetal.1995),Aspergillus(Puntetal.1990)andPhytophthora(Chen&Roxby1997)热激蛋白基因hsp26启动子区的(TC)n序列是转录元件。
各种di-,tri-andtetra-SSR序列的缺失极大的改变了转录活性。
例如,CAT表达系统中c-KI-ras(Hoffmanetal.1990)andTGF-3启动子的转录活性会因位于启动子区的(TCCC)n序列缺失而急剧降低
(Lafyatisetal.1991)。
此外,(GT)n重复能在很远的距离增强基因的活性而不受其方向的影响,更靠近启动子序列的GT重复会更强的增强转录(Stallingsetal.1991)。
位于内含子区的SSRs也会影响转录。
例如,在酪氨酸羟化酶基因第一个内含子中的atetra-SSRHUMTH01就起到一个转录调控子的作用(Melonietal.1998)。
Gebhardtetal.(1999,2000)发现位于表皮生长因子受体(EGFR)基因第一个内含子的(CA)n序列能够影响转录活性。
他们同时发现RNA延伸在接近SSR下游的位点中止并且有两个分离的主要的转录起始位点。
对螺旋DNA构相的模拟计算揭示在EGFR多态区有一个highbendability,尤其是在CA序列延长时。
这些数据表明(CA)nSSR就像一个结合点,使启动子与假定的抑制蛋白接近并使它结合到(CA)nSSR的下游。
值得注意的是三元SSRs可能更倾向于定位在于转录和信号转导有关的基因和未充分表达的结构蛋白基因(Youngetal.2000),这都表明SSR影响基因转录。
重复数目对基因表达的影响。
在许多情况下,SSR重复数是基因表达和基因表达水平的关键因子。
一些基因只能在特异重复数目的SSRs时表达。
例如EscherichiacolilacZ基因启动子中的的(GAA)12使lacZ基因表达,而(GAA)1416和(GAA)511都不能使该基因表达(Liuetal.2000)。
一些基因在一个很窄的SSR重复范围内能够表达而在这个范围之外基因的活性就会关闭。
在酵母中,含(CTG/CAG)n的启动子在n=25时URA3报告基因就会表达并产生对tothedrug5-fluorooroticacid的敏感。
但是,这一序列在n=30时,UR3就会关闭并产生抗药性(Miretetal.1998)。
另一类基因会通过在一个相对较大的范围内改变它们调控的SSRs'的重复数调整他们的重复数。
在一个旨在验证(TG)长度对pSV2-CAT(simianvirus40enhancerplus)orpA10-CAT(enhancerminus)增强子对表达质粒载体表达活性的影响的试验中,最大增强效应在30-40bp的(TG)时获得。
在(TG)长度从40增长到130bp时,增强子活性降低,130bp的(TG)的活性比50bp降低5倍(Hamadaetal.1984b)。
有趣的是,在人类基因组中的大多数多(TG)元件在20到60bp之间,在这一系统中有最大活性(Hamadaetal.1984a)。
表皮生长因子受体基因的转录活性随(CA)重复数目的增加而降低(Gebhardtetal.1999,2000)。
在一个带有人雄性激素反应元件的CAT报告系统中(该元件有人CAG重复以及二氢睾酮),在25到77个重复的延伸突变范围内转录反应活性随CAG重复长度的增加而程序性降低(Chamberlainetal.1994)。
在使用稍有不同的报告系统并且男性激素受体多Gln的序列的长度在0到50之间时得到了同样结果(Lanzetal.1995)。
相反,一些基因的转录水平随SSR重复数提高。
例如,人脑的PAX-6基因,moteractivityofvariantswith有29个重复的(AC)m(AG)n变异的启动子活性比2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 卫星 基因组 分布 假定 功能 突变 机制