蛋白质组与转录组比较关联分析方案.docx
- 文档编号:7425060
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:10
- 大小:401.01KB
蛋白质组与转录组比较关联分析方案.docx
《蛋白质组与转录组比较关联分析方案.docx》由会员分享,可在线阅读,更多相关《蛋白质组与转录组比较关联分析方案.docx(10页珍藏版)》请在冰豆网上搜索。
蛋白质组与转录组比较关联分析方案
蛋白质组与转录组比较关联分析方案
一.概述
1.研究背景
生命体是一个多层次,多功能的复杂结构体系,高通量技术的发展积累了大量的组学数据,这使得由精细的分解研究转向系统的整体研究成为可能,整合多组学数据能够实现对生物系统的全面了解。
当部分层面上的研究都逐渐走向完善的时候,从部分到整体就是一种必然发展趋势。
相关研究表明,基因表达不仅仅是从转录组到蛋白质组的单向流动,而是两者的相互连接。
对这种功能调控的了解通常只限于特殊的信号途径,要了解转录组和蛋白质组之间的相互调控作用,就需要对RNA和蛋白质的表达进行同步监测。
正如RNA可作为部分生物学功能的酶反应的效益物一样,蛋白质也是大多数生物学功能的效益物。
因此,蛋白质水平广泛的基因组分析是基因表达更直接的反映。
质谱技术的发展,使得定量的蛋白组学研究成为可能。
然而,当细胞适应了转录水平、转录后(如mRNA的剪接)、翻译后(蛋白降解和输出)的精细调控机制后,转录物和蛋白质丰度测量结果可能会不一致。
因此,定量的转录物和蛋白质丰度测量可作为相互的标准,为高通量分析得出的基因表达数据做出合理的解释。
正如蛋白质和RNA之间类似点可以增加我们对新的生物标记的信任度一样,差异也能暗示我们“其他的转录后调控结合点可作为重要的调控研究靶点”。
在蛋白组学分析过程中,一些研究选择了双向凝胶电泳(2一DE)分析蛋白质混合物。
要么是对不同的凝胶染色,要么是让不同的细胞与不同的染料相结合,通过斑点染色亮度可以看到蛋白质的亮度。
随后用质谱仪对分离出的定量凝较斑点进行鉴定,与转录组学分析不同的是,双向凝胶电泳分析的鉴定结果与定量分析是散耦合(de一coupled)。
液相色谱法(LC)是作为一种替代2一DE的蛋白质分析方法而出现的。
LC一MS分析是典型的“自下而上(Bottom一up)”分析方法,通常要用特异的蛋白酶(如胰蛋白酶)将蛋白质消化为肽段。
与2一DE不同,LC一MS对肽的定量和鉴定是同时进行的,可以选择定量的MS峰(m/z)用于鉴定,通过肽段的信息推测对应蛋白质的定量信息。
虽然采用的技术不同,迄今为止公开发表的整合分析文章中,都指出了转录组学和蛋白组学的重要性。
转录组学或蛋白组学通常只考虑调节系统和分解作用平衡态的净效应,实际上,出现的不一致性只是合成与降解两种替换过程中的一种反映。
科学家可能对变化过程中的机制更感兴趣。
正如中心法则预测的那样,在转录物和蛋白质水平,如果只能通过严格的转录调控去控制蛋白质的合成,细胞是不太可能选择精细调节机制的。
当点对点进行比较时,蛋白质和转录物之间的一致性通常很弱,这些观察说明了“从个体基
因座的局部分析扩展到功能途径系统分析”为重要性。
转录组学和蛋白组学都是研究系统的生理化学状态的有用工具。
当然,没有一种工具可以为系统提供完全的覆盖范围及相应的精确度。
问题的核心,不是用工具找出mRNA和蛋白质之间一对一的相互关系,而是要用它们区别出真阳性和假阳性,即区别出真正的mRNA-蛋白质一致性或者是不一致性。
没有这些整体分析,就无法观察到真正的mRNA-蛋白质不一致性,并且这些不一致性要比一致性更吸引科学家,因为它们透露出的更多的转录后干涉情况。
更重要的是,在转录物和蛋白质水平上的整合表达分析,能对整体的基因-基因相互作用网进行描述,提供单个基因活性中的功能内容,这些内容会影响到生物学功能。
新的分析软件工具将帮助研究者储存在蛋白组学和转录组学中新出现的高通量技术的全部力量。
二.蛋白质组与转录组比较关联分析研究
1.蛋白质组与转录组比较关联分析的优势
虽然转录组和蛋白质组在实验方法上差异很大,但由于这两种方法的首要目的都是获得基因的表达情况,其间存在着某种共同之处。
从生物学角度上看,mRNA水平代表了基因表达的中间状态,能代表着潜在的蛋白质表达情况。
转录组能在较低消耗下实现较高的通量,并能在某种程度上捉供较详细的信息。
然而蛋白质是直接的功能执行体,因而,对蛋白质表达水平的度量有着不可取代的优势。
最近的文献也明确报道了转录组和蛋白质组的部分不相关或负相关的结果,并且用统计方法证明了这种显著差异很大程度上是由生物学因素造成的,而不仅仅是噪音,说明了基因表达情况不能单纯用转录组的方法解决。
由于这两种不同的表达谱研究手段的不完全性和互补性,现有的研究倾向于综合转录组和蛋白质组的研究,目的在于:
1)获得一个表达谱的“全景图”,并实现其问的互补和整合,对生物体特定状态下的基因和蛋白质表达水平进行全方位分析;
2)通过全局上获得对差异表达谱的广泛理解,挖掘受转录后调控的关键蛋白/基因,寻找验证某些重要的生物学调控,这种研究方式在基础研究上己经有不少报道。
3)对于一些蛋白数据库少的物种,通过转录组数据构建蛋白质搜索库,大幅度提高蛋白鉴定数,这同时也是本方案的一大亮点。
由于转录组和蛋白质组的比较关联研究能揭示基因表达的转录后调控状态,因此,转录组和蛋白质组之间的关系很可能将是未来的系统生物学研究中不可忽略的一部分。
2.研究目标分析
有意向采用多组学分析策略来研究一些动植物的重要生物过程的调控机制;
己有转录组数据,希望通过蛋白质组学技术从另一层面去验证所获得结果(如
mRNA可变剪接在转录和蛋白水平的相互验证):
同时,对所获得的两组学数据进行比较关联分析,以期更加深入的探讨某种重要的生命调控机理。
总的来讲,本方案的目标客户为已在华大做过转录组,希望通过进一步深入研究,发更高点数文章的客户:
或者是将要做蛋白组/转录组的潜在客户。
三.研究方案
1.材料
根据研究目的,选取不同处理组动植物样本(某种生物或非生物压力胁迫诱导、野生型与突变体),分别提取相同组织样本中的总RNA和总蛋白,即转录组与蛋白质组分析所用的样本尽量保持一致,以最大限度的减小对后续基因与蛋白差异表达比较分析中所产生的误差。
2.蛋白质与转录组比较关联分析的整体方案
分别进行转录组和蛋白质组两组学水平分析,经相应的生物信息学分析之后,整合两组学的信息分析数据进行比较关联研究,具体的方案流程如图3-l所示。
2.1转录组测序分析
1)技术路线
采用IlluminaHiseqTM2000进行转录组分析(图3-2):
分别取对照组和处理组样本(不同时期、不同组织样本)进行RNA提取,将提取的总RNA分离纯化出mRNA,随机打断并反转录成cDNA,加接头纯化后上机测序,过滤接头序列、去污染。
每个样本的测序量为4Gb的数据。
2)生物信息分析内容
数据处理
对原始数据进行去除接头、污染序列及低质量reads的处理。
标准信息分析(无参考序列)
A.数据产出统计及测序数据的成分和质量评估
B.组装结果分析(contig长度分布、Unigene长度分布)
C.Unigene功能注释
D.Unigene的GO分类
E.Unigene代谢通路分析
F.预测编码蛋白框(CDS)
G.Unigene表达差异分析(两个或两个以上样品)
H.Unigene在样品间的差异GO分类(需两个或两个以上样品)和Pathway富集性分析
标准信息分析(需提供参考基因序列、参考基因组序列及基因注释结果)
a)测序评估(比对统计、测序随机性评估、Reads在基因组上的分布)
b)基因表达注释(基因覆盖度、覆盖深度分布等)
c)基因差异表达分析(两个或两个以上样品)
d)对基因结构进行优化(仅针对真核生物)
e)鉴定基因的可变剪接(仅针对真核生物)
f)预测新转录本
g)SNP(singlenucleotidepolymorphism:
单核昔酸多态性)分析(仅针对真核生物)
2.2定量蛋白质组分析(iTRAQ)
(1)
技术路线
(2)生物信息学分析内容
1)标准信息分析:
2)数据产出统计及QC评估
3)蛋白质鉴定结果
4)蛋白质定量结果
5)蛋白质GO分析
6)蛋白质COG分析
7)蛋白质pathway代谢通路分析
8)差异蛋白的GO富集分析
9)差异蛋白的pathway富集分析
10)差异表达蛋白聚类分析
2.3蛋白质组与转录组数据比较关联分析
2.3.1蛋白质组与转录组测序的组装结果关联分析
利用转录组数据来建立蛋白搜索数据库,这将大大提升肽段及蛋白的鉴定数量。
实验表明,基于转录组数据建立蛋白搜索数据库,平均可以增加蛋白鉴定数量20%~50%,对于一些目前仅发现少许蛋白序列的物种,采用转录组数据建库,可以比仅采用NCBInr全库的鉴定数据增加100%以上。
下图为利用转录组数据建库和不利用转录组数据建库对比图。
2.3.2差异蛋白与差异基因表达水平比较关联分析
对于上述两组学水平研究所获得的数据,首先将鉴定到的所有可靠性蛋白和与之相对应的基因的转录本进行综合关联比较分析。
在此基础上,根据各自的表达变化的定量信息,对关联上的差异表达蛋白和与之相对应的差异基因的转录本进行比较分析。
2.3.3蛋白质组与转录组表达模式聚类分析
为了更加直观地展示两组学水平上不同基因或蛋白表达水平的变化情况利用Cluster聚类分析软件对所获得的组学数据进行表达量聚类分析,包括l)对所有可定量蛋白质及其关联转录本作表达量关联聚类分析;2)对差异蛋白质及其关联转录本作表达量关联聚类分析。
最终分别以不同颜色来表示表达水平的变化情况(一般情况下,红色-上调,绿色-下调,灰色或黑色-表达量无变化)。
2.3.4mRNA可变剪接在转录组与蛋白质组两水平的相互验证(个性化分析)
可变剪接使一个基因产生多个mRNA转录本,不同mRNA可能翻译成不同蛋白质。
因此,通过可变剪接一个基因可能产生多个蛋白,极大地增加了蛋白多样性(Black,2003;Stamm,2005;Lareau,2004)。
虽然己知可变剪接在直核生物中普遍存在,但我们可能仍低估了可变剪接的比例,基于高通量测序的可变剪接研究在小鼠(Tang,2009;Mortazavi,2008)、拟南芥(Filichkin)中发现了很多新的可变剪接事件。
在生物体内,主要存在7种可变剪接类型:
A)Exonskjpping;B)Intronretention;C)Alternative5’splicecite;D)Alternative3’splicecite;F)Alternativefirstexon;F)Alternativelastexon;G)Mutuallyexclusiveexon。
图3-7是我们利用高通量测序数据鉴别出来的4种可变剪接类型,图中每个位置的Explevel等于log2(Reads数)。
转录组Reference分析里有对mRNA可变剪接结果的预测,通过mRNA的可变剪接可能会产生新的蛋白质(蛋白序列我们可以根据核酸序列推断出来),而我们在蛋白层面对这些新蛋白进行鉴定,从而来验证转录组中可变剪切的分析。
2.3.5转录组和蛋白组GO功能、Pathway的关联比较分析
无论是转录组测序还是蛋白质组分析的结果中,都会给出差异基因或差异蛋白的Pathway代谢通路富集分析结果,比较关联分析两组学水平上的不同的Pathway代谢通路,之后对能关联上的代谢通路中的蛋白/基因的相互对应及表达情况进行一致性分析,从而挖掘出通路中几个代表性的关键基因/蛋白,此项分析内容需要结合老师的研究背景,具体情况具体分析。
四小结
1拟解决科学问题
(1)利用这两种不同的表达谱研究手段的不完整性和互补性,通过综合分析而获得一个表达谱的“全景图”,系统而全方位地研究动植物重要生物过程的调控机制。
(2)通过合理的实验设计,从RNA和蛋白水平同时去研究及验证一些重要功能基因响应某种生物或非生物压力后的表达调控模式及代谢调控网络,实现其间的互补与整合。
2.运转周期
整个项目的运转周期为转录组与iTRAQ定量蛋白质组标准分析时间(二者可同时进行),加上两组学数据比较关联分析时间(信息分析时间大约需要5天)。
感谢您的支持与配合,我们会努力把内容做得更好!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质 转录 比较 关联 分析 方案