计算表观遗传学PPT资料.pptx
- 文档编号:13157770
- 上传时间:2022-10-07
- 格式:PPTX
- 页数:123
- 大小:5.62MB
计算表观遗传学PPT资料.pptx
《计算表观遗传学PPT资料.pptx》由会员分享,可在线阅读,更多相关《计算表观遗传学PPT资料.pptx(123页珍藏版)》请在冰豆网上搜索。
,
(二)甲基化对转录的调控,DNA甲基化影响转录的机制,1.DNA甲基化阻碍转录因子的结合2DNA甲基化识别染色质标记DNA甲基化募集其它蛋白引起染色质沉默DNA甲基化影响核小体定位,(三)DNA甲基化的意义,CpG二核苷酸的甲基化与重复元件沉默CpG二核苷酸的甲基化与染色体的选择性沉默DNA甲基化与组织特异表达,二、通过实验和计算方法识别CpG岛,
(一)CpG岛的定义及预测
(二)实验方法寻找CpG岛,(三)CpG岛的定位有助于发现新基因,
(一)CpG岛的定义及预测,Gardiner-Garden和Frommer长度最短200bp,GC含量至少50%,CpGo/e最小0.6。
许多启动子缺乏严格定义的CpG岛,但是有组织特异的甲基化模式,和转录活性有密切联系。
1.最初的CpG岛定义2.改进的CpG岛定义,Takai和Jones增加最短长度、CpGo/e值和GC含量分别到500bp,0.65%和55%对预测精度的影响。
通过使阈值更加严格,Alu重复元件得到最大程度的排除,但此时却排除了原来数量10%的CpG岛,这表明一些真正的CpG岛可能也被排除。
常见的CpG岛预测算法,差异取决于以下因素:
(1)任意阈值的应用;
(2)没有考虑到CpG岛的异质性;
(3)基于DNA序列的预测方法忽略了DNA甲基化状态。
3.排除重复元件对CpG岛预测算法的干扰,重复元件例如“年轻”的Alu元件的碱基组成和CpG岛十分类似,这显著地增加了鉴别CpG岛的假阳性率。
大多数的多拷贝序列可以通过Repbase数据库中已知的重复类型得以剔除。
在Takai和Jones的基础上应用重复元件筛选后剔除1890个非CpG岛,从而得到更加保守的CpG岛数目的估计即27000。
4.基于窗口滑动法的CpG岛预测算法,首先准备实验得到的候选CpG岛集合或全基因组序列,然后设定窗口宽度的大小。
接着考察窗口内的序列片段是否满足CpG岛定义中的长度、GC含量和CpGo/e值中的一个或几个阈值。
一旦发现窗中的序列片段满足了CpG岛的定义,该片段就被选为候选CpG岛,同时扫描窗右移1bp。
如果扫描窗中的序列片段不满足CpG岛的定义,扫描窗右移一个窗口的长度。
如果扫描得到的CpG岛区域有重叠,则将重叠部分合并。
这种依赖于长度,GC含量和CpGo/e值的一个或全部阈值的CpG岛识别算法有显而易见的缺陷:
(1)由于这三个阈值的使用使得参数空间变得很大。
(2)预测的CpG岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任意性。
(3)CpG岛的起始点一般不是CpG双核苷酸。
(4)预测和筛选过程依赖于相同的参数。
(5)方法经常需要针对特定物种进行调整。
(6)运行时间长。
窗口法,Annoat,lyszliedeatwointhdeorwig.ht,Andanalyzeagain.,Untilitmeetsthecriteria,TAhnednajguaminp.aheadandcheckthewindowadjacenttotheislandonthe3side.,Repeatasneeded,untilthenewwindowdoesnotmeettheCpGislandcriteria,Thenslidethewindowbacktowardtheisland.,KeepslidinguntilthewindowmeetsCpGislandcriteria.,削减,IOfnitcdeoietsmneetsmCepeGttihselacnrditecrriiate,rtiray,tmrimovmeionngtaobthaesenepxatiradojfafceeancthweinnddoawndaanndaalynzailnygzeagthaaint.,5.基于相邻CpG二核苷酸距离的CpG岛预测算法,CpGcluster是一种独特的方法,它并不依赖于任何CpG岛阈值,并且由于只涉及算术运算,计算速度提高很多。
工作原理是计算基因组范围的相邻CpG二核苷酸之间的距离。
该算法利用几何分布估计出该距离的理论分布,从而计算出CpG二核苷酸进行汇聚的统计学阈值(40bp)。
最终,该算法得到197727个CpG岛。
这个算法得到的CpG岛的特点是短而多,但其中包含大量的重复元件。
(1)假设有如下一条序列:
TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC
(2)CpGcluster首先找到所有的CpG双核苷酸的位置(粗体):
TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC(3)然后得到CpG双核苷酸的位置的列表:
4;
18;
26;
34;
38;
52;
57,(4)通过公式计算相邻二核苷酸之间的算术距离:
13;
7;
3;
4(5)考虑到假设:
CpG是伯努利实验的结果,这里设成功为CpG,失败为non-CpG。
伯努利实验的概率p可以通过大量的序列算出。
令序列的长度为L,N为CpG的数目,则。
(伯努利实验,例如投掷硬币N次,最后一次正面朝上的概率,满足几何分布)。
所以临近的CpG双核苷酸的距离满足几何分布,距离d等于失败的次数。
(6)绘制长度(d)分布和几何分布的直方分布图(图13-4)。
从中,我们可以发现观测值分布和理论分布差别很大。
短距离出现的概率较大。
中位数值恰好可以作为CpG二核苷酸富集的阈值。
(7)为了计算之前步骤找到的CpG簇是CpG岛的概率,需要给出统计学p值,该p值可由负二项分布给出(伯努利实验,例如投掷硬币N次,r次正面朝上的概率,满足负二项分布)。
通过描述CpGcluster的算法原理,我们知道:
存在比随机出现CpG二核苷酸之间距离距离更短的CpG簇,通过合并重合的簇,最终得到的簇就被认为是CpG岛。
人类基因组1号染色体的邻接CpG二核苷酸之间距离的概率密度函数。
观察值的分布以空心圆圈表示,而理论分布即几何分布则用实线表示。
中位数值恰好和理论值吻合。
距离小于中位数值的两个CpG二核苷酸则被纳入CpG岛的一部分。
X轴为距离d,Y轴为概率p。
Median为中位数,Mean为均值,带圈实线代表观测值的连线,实线代表几何分布的概率密度曲线。
(来自于CpGcluster:
adistance-basedalgorithmforCpG-islanddetection),算法,表格展示的是LRRMT1的上游序列的预测结果,6.结合功能基因组数据的CpG定位方法,大多数的预测算法和序列选择技术鉴别的CpG岛数目在24000到27000之间。
尽管这些方法之间的差别不大,但是许多鉴别出来的CpG岛在不同的预测结果中并不一致。
这种不一致的现象可以通过结合包括DNA甲基化状态和染色质修饰在内的不同类型的信息到预测方法中来而得以解决。
在CpG岛预测算法中融合表观遗传信息和基因组属性可能有利于探测方法去除一些看起来有些任意的阈值。
例如,Bock等人使用了DNA结构,组蛋白修饰,DNA甲基化,转录因子结合谱,重复元件,进化保守,DNA序列模式等信息定位人类基因组CpG岛,是目前较好的CpG岛定位方法。
但该方法很难扩展到非人类的物种中,因为注释数据在其它物种并不全面,甚至十分缺乏。
(二)实验方法寻找CpG岛,为了克服算法带来的问题,Illingworth等人最近开发了一项CXXC亲和纯化技术(CAP,CXXCaffinitypurification)以富集非甲基化的CpG富集的DNA片段(CpG岛)。
该技术使用了半胱氨酸富集的对非甲基化的CpG位点有高亲和性的CXXC3结构域。
CXXC结构域对只包含甲基化的CpG位点或缺乏CpG位点的DNA片段几乎没有亲和性。
从小鼠Mbd1中得到的重组的CXXC结构域对非甲基化的CpG位点有高的结合特异性,并被用于从全基因组DNA中提取CpG岛。
他们从人类血液中提取了超过17000个CpG岛。
实验方法确定的基因组范围CpG岛图谱,来自于:
ANovelCpGIslandSetIdentifiesTissue-SpecificMethylationatDevelopmentalGeneLoci,(三)CpG岛的定位有助于发现新基因,CpG岛是重要的调控元件,是基因起始的标志,可用于新基因的发现。
同时,CpG岛通常是不被甲基化的,作为管家基因的重要标志之一。
http:
/202.97.205.61:
8080/cpgmi/,三、实验检测技术测定DNA甲基化状态
(一)DNA甲基化的检测方法
(二)基因组范围的DNA甲基化检测方法(三)基于高通量测序的DNA甲基化检测方法(四)高通量检测技术的选择策略,
(一)DNA甲基化的检测方法,目前常用的DNA甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其它碱基组成的变化。
最新的检测方法还用到了基因微阵列(microarray)。
限制性内切酶法重亚硫酸钠法亲和纯化,1.限制性内切酶法,2.重亚硫酸钠法,重亚硫酸钠(sodiumbisulfite)法,3.亲和纯化,
(二)基因组范围的DNA甲基化检测方法,高通量测序是最新发展起来的但却是最有前途的全基因组DNA甲基化分析方法。
高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。
目前,两种高通量的测序平台最为流行:
一种是454生命科学公司开发的焦磷酸测序方法,另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。
(三)高通量检测技术的选择策略,DNA甲基化大规模分析可用平台一览表,四、计算方法预测DNA甲基化,
(一)从DNA序列预测胞嘧啶甲基化,1CpG位点甲基化预测,预测的原理如下:
基于n个样本xi,yi,i=1,n(其中xi为d维特征构成的向量,yi取自-1,1而代表类别,-1作为甲基化标记,1作为非甲基化标记)作为训练数据,SVM利用下面的判别函数进行训练和检验:
。
其中,和b为待估参数,使得判别函数更好地拟合训练数据。
当进一步增加窗宽时,SVM的性能并没有显著地提高。
由于单个CpG位点的甲基化状态一般不是一成不变的,因此Methylator几乎没有实用价值,不能满足组织特异分析的要求。
实际上,目前尚缺乏有效的CpG位点的预测工具。
2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 表观 遗传学