蛋白质Cα原子接触数理论分析及.docx
- 文档编号:11390815
- 上传时间:2023-02-28
- 格式:DOCX
- 页数:15
- 大小:203.90KB
蛋白质Cα原子接触数理论分析及.docx
《蛋白质Cα原子接触数理论分析及.docx》由会员分享,可在线阅读,更多相关《蛋白质Cα原子接触数理论分析及.docx(15页珍藏版)》请在冰豆网上搜索。
蛋白质Cα原子接触数理论分析及
蛋白质Ca原子接触数理论分析及
modi(总13页)
-本页仅作为文档封面,使用时请直接删除即可-
-内页可以根据需求调整合适字体及大小-
蛋白质Ca原子接触数统计分析及应用*
章社生,范宁,何康,王星
(武汉理工大学统计系,武汉430070)数字技术与应用
*武汉理工大学自主创新研究基金资助(批准号001)资助项目,
*国家自然科学基金(批准号)资助项目
作者简介:
章社生,男,1955岀生年,教授,博士,email:
;
联系地址:
余家头联盟小区9-3-402,电话:
摘要
Ca是蛋白质分子中重要原子,是蛋白质折叠和设计中重要研究对象。
根据a-氨基酸和Ca原子的理化特性,本文研究蛋白质中Ca原子空间拓扑结构,引入Ca原子接触数的概念,讨论了蛋白中Ca原子数目比重、平均接触数以及平均接触数变化率。
发现在蛋白质中,多于65%Ca原子间距大于3个原子单位,间距在4T0之间时,平均接触数变化率波动大,且Ca原子分布不均匀。
关键字
蛋白质;Ca原子;接触数;数字特征;
Thestatisticalanalysisandapplicationofthe
contactnumberofCaatoms
ZhangShe-sheng、HeKang、WangXing、FanNing
DepartmentofStatistics,WuhanUniversityofTechnology,FinanciaIIysupportedbyself-determinedandinnovativeresearchfundsofWUT
(GrantNo.001)
ThegrantedprojectoftheNationalNaturalScienceFoundationofChina(GrantNo.)
EmaiI:
Abstract
CapIaysanimportantroIeinprotein.aswellasinthestudyofproteinfoldinganddesign・AccordingtothephysicaIandchemicaIpropertiesofa-aminoacidandCaatoms.thestudyofProteintopoIogyinCaatomsisconcernedindetail.WiththeintroductionoftheconceptofcontactnumberofCaatoms,theatomicnumberproportionofCaatomsinprotein・Theaveragecontactnumberandaveragerateofchangeofcontactnumberarediscussedrespectively.Consequently.theinteratomicdistanceofmorethan65%ofCaatoms
o
isgreaterthan3A;aIsotheaveragerateofchangeofcontact
numberfluctuatesdrasticaIIywithinthedistancebetween4to10A・Additionally.thedistributionofCaatomsisfairlyuneven・
Keyword
Protein;Caatoms;contactnumber;digitalfeatures;
1v引言
虽然基因组规定了蛋白质的氨基酸序列,但是,蛋白质只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能,蛋白质结构构象多样性导致了不同的生物学功能。
研究蛋白质的结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。
目前,研究蛋白质结构普遍使用的是实验,理论分析和计算。
学者江凡[1]介绍了X射线晶体学、二维核磁共振(2D-NMR)和低温冷冻电镜等蛋白质空间结构的实验测定方法。
应用这些方法,已测定大量蛋白质空间结构,并以PBD等文件形式贮存在公共数据库中,免费供世界各地研究者使用。
文献[2]应用统计分析方法,利用数据挖掘中的数据分布拟合理论对生物科学领域中的蛋白质侧链空间结构进行统计分析。
以世界上广泛使用的生物分子三维结构数据库PDB为基础,利用残基侧链碳原子间距离的统计分析方法,通过正交试验设计和信息论中的嫡函数等相关知识•给出了不同位置、不同氨基酸残基种类对侧链结构的影响.文献[3-4]用统计和几何方法给出了氨基酸在蛋白质空间结构中的深度计算,并利用PDB数据库得到了不同氨基酸在蛋白质中的深度倾向性因子,并得到了这些倾向性因子与氨基酸的物理、化学综合特性的相关性质。
文献[5]就蛋白质结构预测的方法和应用进行了综述,介绍了比较建模、折叠识别、从头计算等3种方法及其在结构基因组学研究、药物设计、蛋白质设计中的应用,并且对蛋白质结构预测存在的主要问题进行了讨论■指出了今后蛋白质结构预测研究重点在于优化比对算法和计分函数以及膜蛋白的结构预测.文献[6]以''相对嬌“作为优化函数.仅用蛋白质主链上的两两连续的Ca原子间的距离信息以及20种氨基酸的接触势的一个扩展形式,提出了一个有效快速的折叠预测优化算法,对几个真实蛋白质做了算法测试•预测构象相对于它们天然结构的均方根偏差(RMSD)为5〜.为原子单位,本文坐标和距离所用单位皆为原子单位,且省略书写单位符号。
文献[6]的工作表明Ca原子在a-氨基酸中的重要作用决定着整体分子的性质与物理形态。
但文献[6]没有计算Ca原子的接触数及其数学特征。
文献[7-9]讨论了蛋白质的结构和性质,认为Ca是研究蛋白质的一个生不可缺少的原子,有必要进一步研究。
因而,应用数理统计方法,研究蛋白质中Ca构成的空间拓扑结构及其数字特征有助于蛋白质的折叠预测和设计。
本文将研究蛋白质中Ca原子,文中第二节在简述Ca原子在蛋白质中的化学性质的基础上,给出Ca接触数的定义;第三节讨论接触数的计算;第四节对接触数的计算结果进行分析。
2、Ca原子接触数理论分析
蛋白质二级结构指蛋白质分子中某一段肽链的局部空间结构,即该段肽链主链骨架原子的相对空间位置,并不涉及氨基酸残基侧链的构象。
而肽键平面是二级结构的基础,这些肽键存在于氨基酸之间。
因此我们深入分析Q-氨基酸,并且对其组成成分ca进行讨论。
、a-氨基酸的分析
a-氨基酸是蛋白质的主要组分,是生物体中最重要的氨基酸。
蛋白质分子是由上百或更多的作为单体缩合而成的由20种a-氨基酸构成的多肽链组成的。
所谓a-氨基酸是指氨基连在竣酸的a位,-C00H和-NH2连接在同一个C原子上。
a-氨基酸的立体结构除甘氨酸外,Ca原子上所连结的4个基团都不相同,因此存在立体异构体,其绝对构型见图1。
每个氨基酸或其残基中竣酸根a位上的Ca原子直接与氢原子、氨基和侧链R基相连。
图仁a-氨基酸结构通式图
对于蛋白质分子的结构层次,蛋白多肽链往往不是一个完全伸展的链。
肽键因具双键成分而无旋转的自由,但它周围的每个Ca原子与相邻两个肽键中的氮和碳原子所形成的Ca-N和Ca-Ca单键都具有较大的回旋余地,从而一个多肽键可能存在于不计其数的构象或立体结构中,其中有些构象使未成键原子间形成较多较强的氢键并产生其他能使整个分子趋于稳定的相互作用。
、Ca原子分析
Ca原子指的是对应残基上最接近談基的碳原子,是主链骨架的组成原子。
在Q-氨基酸中,如图2所示,Sa”原子连接着4个不同类别的原子或基团:
一个氨基、一个竣基、一个氢原子(略去氢原子)和一个条侧链。
图2、Q-氨基酸结构示意图
.Ca原子接触数概念
用。
然而Ca原子分布散布于整个分子空间(如图3)。
等进行深入分析之前,必须先初步掌握该原子的分布情况、转角特点等。
为了方便问题研究,我们引入接触数的概念。
假设:
1某个蛋白质分子包括N个原子,其中有n个Ca原子,记为
CA1.CA2,…,CAn。
2所有的原子散布在蛋白质分子空间。
简化处理分子结构,选择以原子为基准的立体空间结构(不考虑其他的基团)。
接触数的定义:
对于第i个Ca原子CAJ坐标(x.y.zjo以CAi为球心,「为半径作一个球Q,统计Q内部包含的Ca原子的个数(不包括CAi),记为K,,即球Q内部除CAi外包含有K,个Ca原子。
则我们称K,为CAi原子的接触数(contactnumber)。
令
—1H
K七K,
则丘为该蛋白质分子Ca原子的平均接触数。
显然,K,及斤是关于r的增函数
(不是严格递增),表示为:
K产KO)K=K(r)
3、接触数计算方法
、数据预处理
(1)导入目标数据。
即打开已有的1653个蛋白质分子PDB文件,选择每个分
子中所有ATOM的相应数据导入。
(2)提取与统计数据。
重点利用PDB文件中原子(尤其是Ca原子)的信息。
3.2、蛋白质平均接触数的计算
对某蛋白质分子,从已提取出来的数据中读取原子坐标信息。
⑴构造距离矩阵”仏h。
其中心表示CAi与CAj之间的距离,即
如=J(召一&)2+(必一兀『+(勺一勺『
(2)对于每一个Ca原子CAi,以其为球心,求在半径为/■时,该原子的接触
数“)。
«(/•)=card{)y•,丿•=1,2,…,f一1J+1,?
/?
}
card(A)表示集合A中元素的个数。
(3)计算该蛋白质分子Ca原子的平均接触数。
K(’)七K")
nl-i
(4)计算该蛋白质分子所有Ca原子接触数的方差:
1-1
(5)计算『取不同值时,平均接触数斤(『)以及接触数方差W/r(r),并绘制疋(r)1,Var(rYr曲线。
(说明:
从r=1开始,以1为步长增加,直到调整r恰好将所有的Ca原子包括即结束)
4、数据结果分析
对1653个蛋白质PDB数据处理计算,将结果进行分析,得到以下的结论:
、对所考察蛋白质的整体分析
(1)C册子数目百分比:
蛋白质分子由4个基本原子C,H,O.N组成。
在蛋白质中,Ca原子数量为蛋白质中原子数量的百分比在范围内,尤其集中在11%-14%范围,见图4;1653个蛋白质分子平均百分比为%,所占比重不大。
12C0
图4、所考察蛋白分子中Cct原子所占百分比分布图
(2)平均接触数:
在相同的半径下,对所考察的全部蛋白质分子的平均接触数求均值,结果见表1。
表仁所考察蛋白质在不同半径下平均接触数的均值
r
1
2
3
4
5
6
7
8
9
10
K
r
11
12
13
14
15
16
17
18
19
20
k
结合上表和图5,可以看出,在一个Ca原子的半径为3au的球空间内几乎没有其他的Cq原子出现。
一般情况下,之间的间距是大于等于3au。
随着半径增加,平均接触数也累积增加。
值得补充的是,这里只考察半径为20以下的情况。
事实上蛋白分子中Ca原子数目有限,所以在r达到一定值后,平均接触数稳定为一个具体值。
进一步,通过绘制若干个蛋白质分子斤(r)1关系曲线,发现走势相近。
图5、所考察蛋白质在不同半径下平均接触数均值曲线图
为了分析不同蛋白质中CQ原子分布的共性与差异,计算所考察蛋白质在各半径下接触数的方差。
结果见下表2:
表2、所考察蛋白质分子在不同半径下平均接触数方差
半径
r=1
r=2
r=3
r=4
r=5
r=6
r=7
r=8
r=9
r=10
方差
半径
r=11
r=12
r=13
r=14
r=15
r=16
r=17
r=18
r=19
r=20
方差
从上表中看出,半径在8以内,各蛋白质之间差异很小(平均接触数的方差在1以内);随着半径增大,差异慢慢体现出来,所考虑的半径越大,差异越显著。
这证明了不同的蛋白质分子具有共性与特性的事实。
(3)平均接触数变化率:
在这里我们引入接触数变化率的概念:
接触数变化率斤指的是单位空间体
积平均接触数变化大小。
定义为:
为便于计算,离散化处理,取近似值:
Ka+i)—K(c
主要反映c嫄子在半径为厂的球面附近,单位体积包含的Cg原子个数。
研究平均接触数变化率(图7),所考察整体蛋白分子的平均接触数变化率在波动中递减。
平均接触数变化率在半径3处为转折点。
即在半径0-3之间,几乎没有变化(为0);在半径3-4的同心球的过渡空间内,平均接触数骤升。
从半径为4的球面向半径为10的同心球面渐近时,出现较大的振荡。
然而在半径10以后的空间内,一致递减,直至Ca原子全部包含于球内。
图7、所考察的蛋白质在半径以步长1变化的平均接触数变化率曲线
进一步,为了深入分析半径在4到10之间变化率的波动情况,将步长缩小至,通过图8,可以看出波动情况基本保持一致,保证其收敛性。
图8、所考察的蛋白质在半径以步长变化的平均接触数变化率曲线
综合分析,蛋白质分子ca原子的平均接触数变化率是先突増,进而在波动中缓慢减小至0。
通过k(r)可以侧面反映Ca原子分布不均。
该研究为预测蛋白质a-氨基酸的位置等物理性质提供依据;也从数学的角度定量化说明了蛋白质的结构组成。
通过定量的分析,利用结构规律统计方法,我们猜测一般蛋白质分子中存在相似的性质:
分子中只有一定量的Ca原子;任意两个Ca原子存在一定间距;并且分布不均匀,不同单位体积内Ca原子密集程度不同。
、对个体蛋白分子的分析
由于蛋白质总数多,结构各异,很难一一进行说明。
针对每一个蛋白质分子的特性区别,我们随机选择一些蛋白质分子详细分析。
具体算例:
蛋白质分子1EXS
在1EXS蛋白分子中,总共有1248个原子构成,其中有160个Ca原子,约占总原子数的%。
作出1EXS分子在不同半径下接触数曲线图(图9),在半径r>3后,才会出现相邻的Ca,即该分子的一个Ca原子独立空间体积至少是半径为3的球空间。
这与由整体平均得到的结论是一致的。
在r=0到25左右,平均接触数增长迅速。
图9、1EXS分子不同半径下接触数曲线图
同理,从表3看出,Ca原子的附近与远处只有少数的Ca存在。
大致在r二45时,平均接触数达到饱和。
根据Ca原子是蛋白质肽链中主链的“骨
节“,贯穿于始终,因此,我们推断该蛋白质分子的立体空间半径可能在50左
右o
表3、1EXS分子不同半径下平均接触数取值表
r
k
r
k
r
k
r
k
r
k
1
0
11
21
31
41
2
0
12
22
32
42
3
0
13
23
33
43
4
14
24
34
44
5
15
25
35
45
159
6
16
26
36
46
159
7
17
27
37
47
159
8
18
28
38
48
159
9
19
29
39
49
159
10
20
30
148
40
50
159
基于以上分析,得到半径3为出现接触数的分界点。
观察平均接触数变化率曲线(图10),其走势也与又整体平均得到的结果基本吻合(如图7)
图10、1EXS分子Cct平均接触数变化率图门、1EXSVar^r曲线
进一步研究该蛋白分子所有Ca原子接触数方差(图11),随着半径的增加,Ca原子之间接触数差异就会增加,离散程度明显;当半径增加到20后接触数差异又缩小(原因是此时r逐渐包括了该蛋白分子所有的Ca原子,各Ca原子接触数的差异逐渐变小)。
这验证了我们的推测一一Ca原子的分布不均匀,不同的Ca原子有不同的特性,有些Ca原子附近没有多少Ca原子(接触数较小),而有些附近则有很多Ca原子(接触数较大)。
因此对于1EXS分子,半径20处可以作为研究Ca原子特征的参考方法。
5、总结与应用
在蛋白质空间结构研究进程中,二级空间结构的科学研究突破已较为成熟,可以利用数学知识、统计原理等理论,从不同的角度应用与改进。
针对a-氨基酸主链骨架的组成原子一Ca原子,我们引入接触数概念,定量与定性相结合,利用结构规律统计与计算机模拟手段,对1653个研究对象进行了处理分析,分别对蛋白质分子中Ca原子的接触数,r(r)>关系曲线、接触数变化率等进行了讨论。
通过信息收集整理探索,得到了较为满意的效果。
其中,在每个蛋白分子中Ca原子并不是大量存在,一般占所有原子数目的11%-15%o然而任意一个Ca原子都不尽相同,各有各的表征性质。
一般的,每一个Ca原子都有自身专有“空间区域”,互不干扰且分布不均;大多数Ca原子的间距都在r二3以上。
同时根据平均接触数变化率波动较大,可以推测出Ca原子较为密集的空间。
本文是关于生物、统计学科结合的研究,在数字表征、数据挖掘层面上,分析了二级结构Q—氨基酸的关节Ca原子,为人工组合蛋白质提供了数字支持。
同时也对氨基酸理化特性指出了以Ca原子为基准的新方向。
本文下一步工作为:
研究不同类别蛋白质和氨基酸中Ca原子的空间分布数学特征。
6、参考文献
[1]江凡;蛋白质空间结构的实验技术和理论方法;物理,2007(4).272-279.[2王昕.毛炳蔚,王福伟,张婿;蛋白质空间结构的统计分析,山西大同大学学报(自然科学版),2008,(5):
3~8
[3]沈世镒胡刚张华;氨基酸在蛋白质空间结构中的深度倾向性因子;生物数学学报,2007,(7):
305^310
[4]沈世镒;胡刚;张华;蛋白质空间形态特征分析与计算方法;工程数学学报;2006,
(2):
225*234.
[5]宁正元;林世强;蛋白质结构的预测及其应用;福建农林大学学报(自然科学版),2006(3),308-313;
[6]卢本卓,王存新,王宝翰;用于真实蛋白质结构预测的一种新的优化方
法;化学物理学报;2003
(2).117-121;
[7]E・Faraggi,Y.Yang,S・ZhangandY.Zhou,Predictingcontinuous
IocaIstruetureandtheeffectofitssubstitutionforsecondarystruetureinfragment-freeproteinstruetureprediction[J].Strueture,2009,17:
1515^1527.
[8]S.Liang,G.Wang,andY・Zhou,Refiningnear-nativeprotein-proteindockingdecoysbyIocaIre-sampIingandenergyminimization[J],Proteins.2009.76.309^316・
[9]B・Xue,E・Faraggi.andY・Zhou.Predictingresidue-residuecontactmapsbyatwo-layer,integratedneuraHnetworkmethod[J].Proteins.2009,76:
176^183.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质 原子 接触 理论 分析