用R进行基因进化速率的计算和相关分析Word格式.docx
- 文档编号:15884590
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:6
- 大小:20.18KB
用R进行基因进化速率的计算和相关分析Word格式.docx
《用R进行基因进化速率的计算和相关分析Word格式.docx》由会员分享,可在线阅读,更多相关《用R进行基因进化速率的计算和相关分析Word格式.docx(6页珍藏版)》请在冰豆网上搜索。
其次,P(0)=I,这是没有核酸位点的改变,也就是进化没有发生。
第三,只考虑λt的值,也是说只要λt固定,所有情况对我们来讲没有区别。
第四,pij(t)趋近于1/4,该马尔可夫模型的极限分布是(1/4,1/4,1/4,1/4),也就是说此时目标序列每个位点都以1/4的概率随机分布四种核酸。
从前面的叙述,我们已经知道每种核酸的总取代率是3λ,那么如果两个基因在时间t之前分开,则这两个序列之间的距离d=3λt。
简单的讲,我们假定四种碱基之间的突变概率是一致的,但实际情况当然不是,因为这个跟化学结构的差异有关系。
这个情况下,我们可以找出两个物种基因内部出现差异的碱基,再观察对应的三个碱基所编码的氨基酸是否是一样的。
因为三个碱基有64种可能编码,而其中一些不同的编码可能对应相同的20种中的一种氨基酸,这时我们定义为一个同义变异Ks,同理,如果碱基变异后所编码的氨基酸出现了不同,这时我们就定义为异义变异Ka。
等概率变异情况,则计算在一个基因中相应的个数,并且计算Ka/Ks的值作为基因进化的指标。
一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。
如果Ka/Ks>
1,则认为有正选择效应。
如果Ka/Ks=1,则认为存在中性选择。
如果Ka/Ks<
1,则认为有纯化选择作用,即很有可能突变造成了蛋白质的失活而影响了机体的生存最终被进化作用所淘汰。
对样本1600多个的序列比对,我们要研究,进化速率高的基因是否会相应的有更高的,或者更低的表达量。
数据是从HumanGenome数据库中随机选取的大约1600个基因的编码区在三个物种人类、大猩猩和猴子中的同源序列的比对结果。
数据库中包含了45个物种所有的编码序列,这里选取这大约1600个基因,主要是因为冷泉港实验室已经对其表达量进行测量,后面可以将基因表达量作为一个影响因素进行分析。
这里需要指出的是冷泉港实验室对三个物种不同性别的6个样本进行了测量,性别间的区别也会成为比较内容。
文件中序列的格式如下:
>
NM_203342_hg19_1_175400chr1:
29320001-29320054+
ATGCACTGCAAGGTTTCTTTGTTGGATGACACAGTTTATGAATGTGTTGTGGAG
其中“NM_203342”是ReferenceID,代表基因的名字。
hg19则代表了物种,hg19是human,panTro2是大猩猩,rheMac2是猴子。
1代表了17个外显子中的第一个,后面的chr1:
29….等信息表明的是这一段序列在基因组上的坐标,最后为该基因的序列。
定义物种间基因在序列水平的演化速度为Ka/Ks,而在表达的差异为(log2(X)-log2(Y))/(log2(X)+log2(Y)),X指基因在物种A的表达量,Y指基因在物种B的表达量。
这时候首先选取输出结果中的基因编号一栏,与表达量数据中的基因编号栏进行match,并且再反match回kaks数据中,这样能够找到在两者中都具有的基因,以用来做相关性分析。
得到的结果大约为900个数据对。
此时分别做散点图,并且ka/ks>
0,因此调整横轴坐标。
同时也可以使用cor(x,y)计算两个变量间的相关系数。
下图是人类和猴子的进化速率与表达差异,横轴为进化速率,纵轴为表达差异。
大猩猩和猴子的进化速率与表达差异,横轴为进化速率,纵轴为表达差异如下:
人类和大猩猩的进化速率与表达差异,横轴为进化速率,纵轴为表达差异
二基因进化速率与功能
既然基因的进化速率和表达差异不存在明显差异,下面我们就进化速率与功能稍作讨论。
利用刚刚生成的KaKs矩阵,计算Ka/Ks并进行排序,之后利用GenBank所提供的API接口,得到进化速率最快的30个基因的功能。
ID
Vsspecies
Ka/Ks
Function
NM_000798
rheMac2
54.99143243
D5subtypeofthedopaminereceptor
NM_002341
14.08734465
TNFsuperfamily,member3
NM_152308
panTro2
13.59065657
chromosome16openreadingframe75
NM_015326
13.04769249
SLIT-ROBORhoGTPaseactivatingprotein2
NM_000190
11.99951905
hydroxymethylbilanesynthase
NM_001005487
11.60989607
olfactoryreceptor,family13,subfamilyG,
member1
NM_016120
11.38441703
ringfingerprotein,LIMdomaininteracting
NM_001031809
11.13806742
membrane-spanning4-domains,subfamilyA,member
3
NM_001900
10.76315242
cystatinD
NM_173644
9.78075552
chromosome20openreadingframe197
NM_001012456
9.665625341
Sec61gammasubunit
NM_002099
9.037433303
glycophorinA(MNSbloodgroup)
NM_001006655
8.863350751
familywithsequencesimilarity149,memberA
NM_207352
cytochromeP450,family4,subfamilyV,
polypeptide2
NM_198492
8.460999047
C-typelectindomainfamily4,memberG
NM_001004741
8.406537948
olfactoryreceptor,family5,subfamilyM,member
10
NM_001122834
8.315430071
hedgehogacyltransferase
NM_006072
8.237683925
chemokine(C-Cmotif)ligand26
NM_001146333
7.835034285
sulfatasemodifyingfactor2
NM_001007551
7.788487115
cancer/testisantigenfamily45,memberA5
NM_001007272
7.712338837
dualspecificityphosphatase13
NM_173487
7.619466474
chromosome4openreadingframe33
NM_001912
7.541731476
cathepsinL1
NM_152548
7.511077919
familywithsequencesimilarity81,memberB
NM_058192
7.478620447
RNApseudouridylatesynthasedomaincontaining1
NM_030636
7.47601075
endonuclease/exonuclease/phosphatasefamily
domaincontaining1
NM_006117
7.390280883
peroxisomalD3,D2-enoyl-CoAisomerase
NM_000504
7.254875852
vitaminK-dependentcoagulationfactorXofthe
bloodcoagulationcascade
NM_002958
7.216840091
RYKreceptor-liketyrosinekinase
NM_016201
7.203190433
angiomotinlike2
从表中可以看出,进化速度快的基因大多和信号转导以及酶相关,这也体现了信号转导和酶功能在生物进化中的重要意义。
类似地也可以得到进化速率最慢的基因,这个不一一列出,进化速率较慢的基因一般都是具有相当重要功能的保守基因,这和维持物种的稳定性有重要关系。
性染色体和常染色体上基因进化速率的比较X染色体上基因的Ka/Ks平均值为1.455517825,而常染色体上基因的Ka/Ks平均值为1.809762066。
但二者分布上各具特点,下图为X染色体上基因演化速度分布
下图分别为常染色体上基因演化速率的分布,以及对局部的放大
可以看出,常染色体上基因演化速度平均值较高,但大多集中在0~0.5之间,X染色体上基因的集中程度比常染色体高。
下图横轴为human不同性别间表达差异,纵轴为human和chimpanzee间表达差异。
若存在某一值显著大于另一值,则图中点应该分布在y=x直线的上方或下方。
实际做图后发现,并没有明显的分布
规律,t检验也证明两组值没有显著差异。
[attach]1885[/attach]
基因功能聚类与通过表达谱进行的物种亲缘性分析
通常生物个体基因都有许多不同功能,但是有许多的基因可能有相近的功能,也即它们可能编码了同一个蛋白质的不同组成部分,因而其相应的表达量会呈现同步现象。
同时,通过基因之间的序列相似距离,或者我们这里利用同一个基因在三个物种中的表达量距离作为衡量指标,能够建立起各个物种之间的亲缘关系,也就是进化树的构建。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 进行 基因 进化 速率 计算 相关 分析