全基因组复制文献最终翻译版.docx
- 文档编号:11414680
- 上传时间:2023-02-28
- 格式:DOCX
- 页数:11
- 大小:261.51KB
全基因组复制文献最终翻译版.docx
《全基因组复制文献最终翻译版.docx》由会员分享,可在线阅读,更多相关《全基因组复制文献最终翻译版.docx(11页珍藏版)》请在冰豆网上搜索。
全基因组复制文献最终翻译版
种子植物的全基因组复制事件
Angiosperms被子植物
Polyploidy多倍体
Orthogroup纯粹群
WGD全基因组的复制
phylogenomics种系基因组学
同义现场发散〔KS〕
Eudicots双子叶植物
MLT最大似然树
unigene是UniversalGene的英文缩写,意为广泛通用的基因数据库
全基因组的复制〔WGD〕,或多倍体,伴随着基因的损失和二倍化,长期以来被认为是动物,真菌和其他生物,尤其是植物一个重要的进化动力。
被子植物的成功归功于在某种程度上,与基因或全基因组复制相关的革新,在保存的基因序列的分析中找到了能说明单子叶植物和双子叶植物分化时间、同时更为古老的基因组复制的证据,但这些证据仍然模棱两可。
在这里,我们用测序的植物基因组的全面的系统发育基因组分析和系统发育,基因举足轻重的谱系超过12.6万个新的表达序列标签序列说明两组古老的基因重复一中现存种子植物的共同祖先和其他在现存被子植物的共同祖先。
基因复制事件进展了强烈集中在3.19亿年前和1.92亿年前,暗示在祖先谱系两次全基因组复制在现存种子植物和被子植物分别多样化前不久。
显著,这些祖先全基因组复制导致调节基因重要的种子和花发育的多样化,这说明他们参与了重大创新,最终促成种子植物和被子植物的兴起和最终的霸主地位。
被子植物是目前陆生植物中最大的群体,拥有超过300,000的生物物种。
显著,大多数开花植物谱系反映了一轮或多轮古多倍体。
例如,对拟南芥进展的完好基因组序列分析支持了最近的两次全基因组复制〔命名为a和b〕,在这期间,十字花科植物〔十字花科〕的直系和一个三重事件〔c〕,可能由所有核心双子叶植物共享。
毛果杨基因组显示了核心双子叶植物三重证据以及更近的全基因组复制。
在单子叶植物〔R和S〕两个多倍体事件被推定为已经先于谷物和其他草〔禾本科〕的多元化。
一些研究暗示,一个古老的全基因组复制事件比被子植物进化还早。
然而,这些古老事件的存在和时间,和他们的长期影响,仍然不明朗。
这里我们使用了严格的种系基因组学方法〔补充图1;补充方法里的详细信息〕,以测试单子叶植物和真双子叶植物的分化之前发生的一个或多个古老的基因组复制的假设。
由重复的事件映射到系统进化树,我们判断旁系同源物是否在一个给定的物种事件〔图1a〕之前或之后复制。
虽然单个基因可能会丧失一些系统发育,但从很多或者全部的基因家族来同时考虑,一张广阔的蓝图可以绘制。
我们使用同种完全测序的基因组〔补充表1,两个单子叶植物〔水稻和高粱〕和五个真双子叶植物〔拟南芥,番木瓜,毛果,黄瓜和葡萄〕〕来构建基因科或亚科。
当给基因重复和在单子叶植物、双子叶植物分化之前发生的潜在全基因组复制测定年份时一种lycophyte〔卷柏moellendorffii〕和一种苔藓〔小立碗藓〕作为外类群〔对照组〕。
总体而言,所有基因组测序中的蛋白质编码基因的77.03%被分成31,433个多基因'核心纯粹群'。
我们定义纯粹群是发源于中心类群的有共同祖代单个基因的同源基因簇,并参考纯粹群九个测序的基因组为核心纯粹群。
其中,7470个核心纯粹群包含至少一个单子叶植物,一个双子叶植物,一个卷柏和/或小立碗序列。
这些核心纯粹群在我们推算单子叶植物双子叶植物分化的复制事件的调查中被用到。
我们为每个核心纯粹群的指示共享重复的拓扑构造〔图1a,分析I〕查询最大似然树〔MLTS〕。
我们挑选了基因树〔补充方法〕,要求七个核心品种中至少一个保存两个旁系,紧随一个单子叶植物、双子叶植物的共同祖代所推断出来的基因复制事件其后〔见补充资料1纯粹群的列表〕。
例如,纯粹群1711〔DEADboxRNA解旋酶〕的最大似然树〔包含在单子叶和真双子叶植物而MLTS为纯粹群2312〔亚精胺合酶〕重复基因和纯粹群396〔功能未知〕说明,无论是单子叶植物或双子叶植物旁系同源物之一是丧失后单子叶植物和真双子叶植物的分歧〔见典范树补充图2a,3a和4〕。
在这个保守的标准的根底上,我们发现了大量的核心纯粹群与单子叶植物和真双子叶植物〔共享重复重复829799核心纯粹群与引导支持〔BS〕大于或等于50%;474重叠在451核心纯粹群符合BS>=80%;补充资料2〕。
的C三重〔它可被限制在真双子叶植物〕之前发生的这些重复。
正如所料,取样双子叶植物谱系中的许多年轻的重复也观察到在这些树上〔1,146纯粹群存活至少一个双子叶宽一式三份〔c〕条〕,但在本研究中,我们专注于该单子叶植物的分化之前发生的古老的重复和真双子叶植物。
和裸子植物〔松属,云杉属,Zamia,柳杉等;补充表2〕,从基部被子植物〔补充表2马兜铃,鹅掌楸,Nuphar和Amborella〕额外的同系物中参加799芯纯粹群以形成扩大纯粹群。
这些关键系统发育谱系增加基因采样,并提供更好的分辨率古代重复的时机。
由“根本被子植物〞我们的意思是开花植物单子叶植物和真双子叶植物别离之前出现的最早分支谱系。
在重新估算的扩大纯粹群基因树,我们又增加了质量控制步骤,除去短期或高度分散的基因数据库〔从表达序列标签数据集组件中所产生的序列;补充方法〕。
过滤后,仍然有540和338纯粹群与基因数据库一起分别从基部被子植物和裸子植物采样。
这其中,322纯粹群含有由基底被子植物和裸子植物〔图1b〕个单一。
对于540纯粹群从基部被子植物个基因数据库,树木的数量中,我们发现了一个重复祖先被子植物起源之前〔图1a,分析第IIa〕大大超过了我们被子植物起源后,确定了共同的重复数〔图1a,分析IIb〕中。
一个重复的推论预先约会基底被子植物〔祖先被子植物重复〕的多样化是由262〔BS>=80%〕的支持或343〔BS>=50%〕纯粹群,而只有一个〔BS>=80%〕或五个〔BS>=50%〕纯粹群支持一个基因复制的推断只是被子植物冠组〔图1b,分析II〕的由来之后。
我们还发现,只有五个与幸存的重复使用一些共享纯粹群,但不是全部,采样根底被子植物。
虽然基底被子植物是一个档次的〔而不是一个分支〕,我们代表他们与图一行。
1A因为重复信号是包括所有根底被子植物。
338个纯粹群填充裸子植物基因数据库额外的分析鉴定62〔BS>=80%〕或147〔BS>=50%〕,其中包含一个种子植物全基因复制和59〔BS>=80%〕树木或110〔BS>=50%〕树木以后的复制只能通过共享被子植物〔图1b,分析三〕。
此外,分析了322纯粹群扩大了与来自基底被子植物和裸子植物直系同源物也检测到了两个古老的共享重复类似的信号:
65〔BS>=80%〕或130〔BS>=50%〕的树木呈现一个祖先的种子植物的重复〔见典范树补充图2b〕,和54〔BS>=80%〕或88〔BS>=50%〕树木支撑被子植物的祖先重复〔补充图3b和图1b,分析四〕。
总之,我们的保守滤波程序确定的799棵有合适有关古代重复的存在假设检验的拓扑构造。
这些树提供了两组重复的,一个在所有种子植物的共同祖先的所有被子植物和其他的共同祖先存在压倒性的支持。
有几种机制可以解释基因复制的协同形式在基因树透露,包括WGD或多个节段或染色体复制。
现有数据的最简约的解释是古WGD。
我们进展分歧时间分析,以进一步研究这一假说。
假如拟议的WGDs是真实的,估计日期的独立基因树木基因复制事件预计将是相似的。
可选地,假如重复是无关〔即,独立的事件的集合〕中,重复次裸子植物和被子植物的起源之间的区间内的均匀分布所预期的祖先被子植物重复或导致种子植物的分支为祖种子植物重复。
我们校准的799核心纯粹群支持〔BS>=50%〕单子叶植物和真双子叶植物从我的分析别离前古重复和估计的使用程序R8S〔补充方法〕在774核心纯粹群860节点的分歧时间。
然后,我们分析了使用分配的分歧时间估计要由混合模型中指定的类贝叶斯方法的推断重复时间的分布。
重复时间的分布是双峰,峰值19262〔95%置信区间〕和319.63亿年〔MYR〕前。
日期被集中在两个相对短的时间间隔,这说明这些重复没有均匀分布〔图2a〕。
此外,我们还分析了古代重复的499节点的435纯粹群符合BS>=80%〔图2b〕,并发现了类似的分布形式〔两个组成局部:
21064和32164秘耳前〕。
然后,我们研究古代重复仅限于在分析三纯粹群已被填充了近全长裸子植物基因数据库的年龄分布。
其中338纯粹群与推断的绝对年代,有110〔BS>=50%;5980BS%〕是放置一个重复的被子植物分支从裸子植物发散后。
重复次从这些纯粹群推断的分布表现为一侧显著峰〔23469或23669秘耳前;。
补充图5A,B〕。
现存被子植物中存在的最近的共同祖先一直追溯到130-190秘耳前。
因此,所识别的事件的重复现存被子植物的辐射,这与从系统发育分析的结果〔图1b,分析Ⅱ〕之前发生。
一个额外的分析仅限于那些147〔BS>=50%〕或62〔BS>=80%〕纯粹群〔图1b,分析Ⅲa〕中所包含的种子,植物全重复的根底上的系统发育分析。
混合模型分析确定了重复时间的分布只有一个显著组成局部〔34963或34764秘耳前;。
补充图5C,D〕,这是年纪比祖节点为现存种子植物〔310秘耳前〕。
因此,无论是分子约会和系统发育分析支持另一种古老的全基因组复制所有现存种子植物〔图3〕共享。
的同义位点发散的重复基因和同线性分布的分析也支持这一结论〔补充讨论〕。
基因重复提供了新颖功能的进化原的遗传物质。
WGD在古代种子植物会产生每一个基因的多个副本,其中一些表型新奇的起源可以有至关重要的作用,并最终在起源和被子植物的迅速多样化。
虽然这些保存从祖先WGDs重复基因代表了所有功能类别,有来自几个功能类,包括转移和结合蛋白,转录因子和蛋白激酶〔补充图6及补充资料3〕保存重复基因过剩。
这些类别显著富含纯粹群尚存在分析我所描绘的单子叶植物,双子叶植物的重复和纯粹群幸存的预被子植物和/或预种子植物中的重复分析三。
这些结果与基因保存的以下更近WGDs在拟南芥谱系〔参见23和其中的参考文献〕形式一致,并WGD在脊椎动物中,支撑的解释,在这里观察到的并发的重复是WGD的产品。
总而言之,这些形式说明,对于某些类型的基因复制下面的多倍体要保存的倾向一直是后-WGD二倍化过程中整个植物的进化史的一个共同特点。
本来可以到古老的种子植物和被子植物的创新奉献重复基因的一个子集,包括那些在繁殖和花发育的特殊角色。
在这项研究中,我们发现参与花发育途径与单子叶植物和真双子叶植物的分化之前至少有一个古老的复制事件〔补充表3〕35纯粹群。
例如,纯粹群361〔含拟南芥光敏色素基因〕,其中包括开花时间和种子发芽监管,保存重复基因下面两个假定WGDs预约会被子植物和种子植物,起源分别与已发布的亲缘关系的光敏色素一致基因家族。
其他已发表的基因家族系统发育还建议基因复制的常见形式,暗示在这里看到的全基因组规模的重复。
例如,TIR1/AFB已经现存被子植物的多元化经历过的一个古老的重复。
锌指同源盒〔ZHD〕系列,HD-ZIPIII基因家族,并MADS-box基因〔补充讨论〕的系统发育分析说明重复图案与WGDs预先约会被子植物和种子植物的起源是一致的。
因此,单个基因或基因家族,这些以前的研究支持我们的结论基于对成千上万个基因的全基因组的调查,并找出一些从这些重复的可能已经在种子植物和被子植物的演化有重要的作用所产生的许多基因。
方法综述
系统发育分析.我们使用OrthoMCL方法来建构一套核心纯粹群。
生成与肌肉所有纯粹群氨基酸比对,然后通过除去不良的对准区域使用TRIMAL1.2修整。
为核心纯粹群〔检索到HaMStR
分子约会的分析和95%的置信区间。
从每个重复得到的2旁系分支的发散时间从最好的最大似然拓扑宽松分子钟通过使用截断牛顿优化算法作为程序R8S施行施加半参数送给似然方法的假设下,估计。
平滑参数是由穿插验证来确定。
约会约束在方法中描绘。
该EMMIX软件包,用来拟合多元正态分布或t-分布式组件的混合模型给定的数据集。
对于确定EMMIX每个显著成分,然后计算平均日估计的95%置信区间。
方法
检测古WGD事件。
几种方法已经被提出并广泛地用于检测基因组复制的签名。
基因的基因组中大量同线块的识别提供了有力的证据来支持基因组复制。
WGDs的时序是通过跨物种基因组的比拟推断,但广泛的基因组重排和基因损失减少同线块的大小随着时间的推移,模糊识别古前CWGD。
另一种方法是估计的旁系同源基因对,这里同义现场发散〔KS〕或者非同义现场发散〔KA〕被用作用于复制事件的年龄的代理的年龄分布。
然而,这种方法可以通过基因过度损失,重复对估计上更近的节点浓度,Ks的旧旁系同源物对之间的饱和度和谱系的基因家族,甚至基因中的分子异质性率惭愧。
例如,推断在同线块分析的b和cGWDs也不明显了Ks的阴谋拟南芥旁系对。
因此,这两种方法提出了挑战,以推断可能发生接近或被子植物起源之前以及古基因组复制。
出于这个原因,我们使用种系基因组学分析,以确定单子叶植物和双子叶植物之前发生的古老基因重复,并评估其系统发育的时间和估计的年龄,以确定是否有时间集中基因重复〔补充图1〕的。
系统发育分析。
该OrthoMCL方法被用来构建了一套基于蛋白质的相似图形核心纯粹群。
这种方法已被证明能产生比其它方法,这对于本研究中的关键更少的假阳性。
假如基因从芯纯粹群在中心〔误报〕外都包括在分析中,核心纯粹群可能会不正确地评价为保持古重复。
与肌使用默认参数生成所有纯粹群氨基酸比对。
多序列比对通过除去不良的对准区域使用TRIMAL1.2与选项'automated1'修整。
为核心纯粹群〔检索到HaMStR
评价基因复制.通过仔细地解释所有的树木,重复事件被确定在使用小立碗基因根性树种〔或卷柏假如没有立碗藓的基因在纯粹群〕作为外群序列。
评估一个特定的重复支持时,三个相关的引导值考虑在内。
例如,给定的拓扑构造〔〔〔M1E1〕引导1,〔M2E2〕引导2〕引导3〕,引导1和引导2是自举值支撑theM1E1进化枝和M2E2clade,分别与引导3是自举值支撑大进化枝包括M1E1和M2E2。
置信度为50%〔或80%〕单子叶植物,双子叶植物的重复意味着自举3和自举1和引导2值中的至少一个是大于或等于50%〔or80%〕,当基底被子植物和/或裸子植物的基因,再参加引导1和2的引导,评价为节点级联ME1B〔图1a〕,而引导3是为节点级联的大分支,包括被子植物范围或种子全厂范围的重复计算。
基因树估计可能会受到长枝吸引,特别是稀疏的分类群抽样〔即,在基因树上上下文稀疏基因采样〕或当有错误指定用于系统发育重建的分子进化的模型,导致拓扑构造的错误结论。
例如,在系统发育形式〔水稻〔Oryza,杨树〕〔拟南芥〕〕的纯粹群是用基因复制由单子叶和真双子叶植物的共享,在双方的单子叶植物和双子叶植物的谱系〔图1a,分析Ib〕的后续旁系同源物的损失一致。
或者,它可能是拟南芥基因是特别发散并因此被置于作为姐姐到稻-胡杨对由于长枝吸引。
这些替代性的解释之间的区别可以通过增加基因采样来促进分裂长枝。
此外,基因重复的推断可能是模糊的,假如所有的类群是通过在给定的基因树中的一个单一的基因表示的〔如上面的例子〕。
有了这些考虑,我们挑选了基因树,要求七个核心品种的至少一个保存了两个旁系按照一个共同的单子叶植物,双子叶植物的祖先推断的基因复制事件。
因此,与单子叶植物,双子叶植物的重复最小可能的基因树的一个例子将是〔〔〔稻属,葡萄属〕〔葡萄属〕〕,卷柏〕,并在这些条件的根底上,我们获得了各纯粹群有或没有古重复,并计算纯粹群支持每个假设说明inFig.1a的总数。
补充资料2细节刻划为每纯粹群每种类型的重复次数。
基因组复制的有限混合模型。
探究基因组复制事件发生的时间,发散倍emmix/emmix.html〕。
混合群体进展建模有一至四个元件。
EM算法被重复100次随机的初始值,以及用K均值初始值10倍。
被认定利用贝叶斯信息标准的最正确混合模型。
分子追溯的分析和95%的置信区间。
最正确最大似然拓扑芯纯粹群或纯粹群用于发散时间的分析。
两个旁系分支的分化时间是一个松散分子钟的使用截断牛顿优化算法在程序R8S44施行应用半参数惩罚似然法的假设下估计。
平滑参数是由穿插验证来确定。
我们用我们的估计程序的日期如下:
4亿年的最低年龄和4.5亿年的最高年龄为体育藓的分歧,400Myr固定约束年龄的S.moellendorffii发散,309Myr的最低年龄冠组种子植物〔这种约束只在使用中报告补充图5的分析〕,1.25亿年的最低年龄为单子叶植物和真双子叶植物的分歧,并1.25亿年最大年龄rosids48的起源。
我们需要知道树木对我们同时通过穿插验证的程序,并提供重复节点的年龄估计。
推断的分歧时间,然后由EMMIX分析。
对于确定EMMIX每个显著成分,然后计算平均值的95%置信区间。
Ks的计算。
旁系同源序列对被确定的全部按全BLASTN搜索最好的倒数匹配。
只有蛋白质序列长度超过200个碱基对被用于Ks的计算。
由ESTSCAN产生个单一的翻译序列,采用肌3.6对齐。
核苷酸序列,然后被迫使用PAL2NAL以适应氨基酸比对。
使用在“codeml程序赋值分别〞包ofPAML施行的高盛阳最大似然法的简化版本,分别计算Ks〔又称DS〕值。
在Ks频率在0.05内的范围为[0,3.0]的每个时间间隔的大小作图。
基因本体论富集纯粹群与古老的重复。
纯粹群与早期古重复的基因本体〔GO〕的注释与没有这样的重复,来测试的GO术语富集纯粹群进展了比拟。
拟南芥GO超薄条款下载并分配到纯粹群假如直接在纯粹群包括拟南芥基因。
否那么,我们使用搜索的代表INTERPROSCAN53的InterPro域。
然后去注释被分配到使用InterPro2GO映射纯粹群。
随后,所有的GO注释被映射使用“map2slim'脚本GO苗条类别。
最后,我们评估了在使用agriGO通过Fisher准确检验和Yekutieli〔下依赖性的假发现率〕多测试调整方法GO超薄条款富集统计学差异。
图1|假设树的拓扑构造和纯粹群摘要
在单子叶植物和双子叶植物的分割前古老的基因重复是一致的。
一,分析I:
系统发生树表示保存或损失旁系的三个例如:
〔a〕两个旁系都保存有单子叶植物和真双子叶植物,〔b〕该旁系之一丧失在单子叶植物中,〔c〕旁系之一丧失在双子叶植物中。
分析II:
同源物从根本被子植物参加到核心纯粹群来缩短被子植物中古代基因复制的时间〔a〕基因的复制在被子植物间分享;〔b〕基因的复制只由单子叶和双子叶植物的共享。
分析三:
裸子植物的同源物在现存裸子植物和被子植物〔b〕分化前〔a〕和/或之后被添加到核心纯粹群来放置共享的基因复制。
分析四:
当我们用自基底被子植物和裸子植物其它同源物来扩展核心纯粹群时与由种子植物〔a〕,被子植物〔b〕和单子叶植物、双子叶植物〔c〕共同参与的基因复制时期相一致的三种不同的拓扑构造。
M,单子叶植物,E,真双子叶植物,B,根本的被子植物,G,裸子植物。
例如树分析II,III和IV展示了预期的形式与所有保存分支。
观察到的拓扑构造通常有局部类似分析I的b和c的基因损失。
b,纯粹群的概要显示了与纯粹群树推断提出的拓扑构造相对应的不同类型的基因复制。
图2|单子叶植物和双子叶植物共享的古老基因复制的年龄分布。
a,779个核心纯粹群〔BS>=50%〕中的866个祖代复制节点的推断分化时间通过EMMIX进展了分析,以确定这些复制是否随机发生在一段时间内或一些小的时间段。
每个组件被写为“彩色/平均分子定时/比例',其中'颜色'是组分〔曲线〕的颜色,'比例'是分配给所识别组分的复制节点的百分比。
有两种统计学上的显著成分:
blue,1.92亿年前,占0.48以及yellow,3.19亿年前,占0.52。
b,当我们需要单子叶植物、双子叶植物复制的置信度大于或等于80%时,有以EMMIX分析推断分化时间的439个核心纯粹群中的504个节点。
确定出了两个有统计学意义的重要成分:
blue/210/0.43和yellow/321/0.57。
〔EMMIX是一个常用的实现EM算法的工具。
EM算法是求参数极大似然估计的一种方法,广泛地应用于拟合数据缺损的混合分布〕
图3|种子植物和被子植物的全基因组复制事件。
由种系基因组学证据和陆地植物进化的分子钟综合确定的两个祖传基因复制。
椭圆形展示的是公认的在已测序基因组中确定的基因组复制〔见正文〕。
菱形说明三重事件可能由所有核心双子叶植物的共享。
两个单粗线分别表示祖代种子植物的全基因组复制和祖代被子植物的全基因组复制的置信区间,并绘制出来以反映图表2〔更多纯粹群〕和补充图5〔更多类群〕的平均估计的上界和下界。
该照片为真双子叶植物的生殖多样性举了例子〔上排左到右:
拟南芥,黄花耧斗菜,刺儿细叶,花菱草〕,单子叶植物〔第二排左到右:
直立延龄草,无芒雀kalmii,三叶天南星,杓兰acaule〕,根本被子植物〔第三排左到右:
无油樟,鹅掌楸,NupharAdvena〔北美中东部的常见睡莲〕,马兜铃黑斑病〕,裸子植物〔第四行,左起:
Zamiavazquezii〔泽米,一种主要生长在美洲热带地区的泽米属苏铁科植物〕,花旗松,外类群卷柏moellendorfii和小立碗藓。
〕如要照片清单见补充表4。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 复制 文献 最终 翻译