HIV1整合酶四聚体的模建及结构基础研究.docx
- 文档编号:10656157
- 上传时间:2023-02-22
- 格式:DOCX
- 页数:8
- 大小:20.88KB
HIV1整合酶四聚体的模建及结构基础研究.docx
《HIV1整合酶四聚体的模建及结构基础研究.docx》由会员分享,可在线阅读,更多相关《HIV1整合酶四聚体的模建及结构基础研究.docx(8页珍藏版)》请在冰豆网上搜索。
HIV1整合酶四聚体的模建及结构基础研究
HIV―1整合酶四聚体的模建及结构基础研究
艾滋病(acquiredimmunedeficiencysyndrome,简称AIDS)是由人类免疫缺陷病毒(humanimmunodeficiencyvirus,简称HIV)[1]感染引起的具有较强传染性的一种疾病,据世界卫生组织(worldhealthorganization,简称WHO)统计[2],截至2014年,全球有超过3800万人感染了艾滋病,其中受灾最严重的是非洲,平均1000个5岁以下的儿童中有95个患有艾滋病。
近年来,在亚洲,尤其是中国的艾滋病患者也越来越多了,因此研究抗艾滋病药物刻不容缓。
HIV-1整合酶(integrase,简称IN)是HIV病毒生命周期中不可缺少的酶之一,能够通过3′-端加工(3′-processing,简称3′-P)和链转移(strandtransfer,简称ST)2步反应,将病毒DNA整合到宿主DNA上,形成新的DNA,并随着宿主DNA的复制而复制[3-5]。
因此,HIV-1整合酶是开发抗艾滋病药物的重要靶点。
HIV-1IN是由288个氨基酸组成的蛋白质,折叠成3个结构域,分别是C-端结构域(C-terminaldomain,简称CTD)、催化核心结构域(catalyticcoredomain,简称CCD)和N-端结构域(N-terminaldomain,简称NTD)。
其中NTD由1~45个氨基酸组成,含有1个保守的HHCC基序,该基序可以结合Zn2+离子,文献[6]显示,NTD可以与病毒DNA相互作用,但在体外分离后不能与DNA特异性结合[7];另外,相关研究显示,NTD还具有促进IN多聚化的重要功能[8]。
CCD由50~212个氨基酸组成,是IN参与催化反应的核心结构,含有聚核苷酸转移酶、核酸内切酶酶切位点,以及3个保守的氨基酸(D64、D116和E152)组成的DDE基序[9],高度保守的DDE基序与二价金属离子结合,共同构成了CCD的活性中心。
CTD由220~270个氨基酸组成,是3个结构域中最不具有保守性的[10-11]。
Vink等发现,CTD可以与病毒DNA以非特异性的方式结合[12],另外,CTD在IN与其他蛋白的相互作用中,尤其是与逆转录酶的相互作用密切相关[13-14]。
研究结果表明,HIV-1IN在人体细胞中表现为稳定的四聚体,因此HIV-1IN的四聚体结构是HIV-1IN能完整发挥其生物学催化功能的结构单元[15]。
但截至目前,全长的IN四聚体尚未被解析出来,这也极大地限制了基于IN结构的药物分子设计研究。
鉴于蛋白质数据库(proteindatabank,简称PDB)已经含有IN的3个区域的片段结构,可以通过多模板同源模建以及结构组装的方法获得完整的IN四聚体模型。
另外,由于IN的生命周期中是与病毒DNA的结合密切相关的,但PDB库中没有IN-DNA复合物的结构,因此为了更深入地研究IN的结构与功能的关系,得到IN-DNA的复合物是十分重要的。
在所有与IN功能相似的蛋白质中,Tn5转座酶是相似度最好的,它与IN一样,在核心区均存在1个类似RNaseH状的折叠区域,并且同属于聚核苷酸转移酶超家族[16]。
Rice等发现,Tn5转座酶与IN一样,可以通过3′-P、ST2步反应重排转座子[9]。
此外,Tn5转座酶的结构中同样含有1个保守的DDE基序,并且可以结合二价金属离子,Davies等人已用X-ray晶体衍射法解析出了Tn5转座酶与病毒DNA的复合物晶体结构。
因此,本研究使用Tn5转座酶晶体结构中的病毒DNA作为模板来模建完整HIV-1IN-病毒DNA复合物结构是合理可行的。
在得到完整的IN四聚体与DNA复合物结构后,模建结果的合理性、四聚体各个区域的运动情况以及与其生物学功能的关系尚需要进一步研究。
本研究将分别采用多模板同源模建、结构叠落(structuresuperposition)、高斯网络模型(Gaussiannetworkmodel,简称GNM)和各向异性网络模型(anisotropicnetworkmodel,简称ANM)方法对上述重要科学问题进行阐述。
1体系与方法
1.1完整HIV-1IN四聚体结构的模建
IN四聚体总的模建策略是先通过组装PDB数据库中的不同片段的晶体结构来获得全长二聚体结构,再通过结构组装成完整四聚体。
具体模建过程如下:
CCD的结构从1BL3[17]的A、C链得到,Mg2+的位置与1BL3中的一致;通过叠落1WJA[18]和上一步得到的CCD,得到二聚体NTD;最后,采用包含CCD、CTD的1EX4[19]搭建得到二聚体的CTD。
结构中缺失的残基使用DiscoveryStudio2.5程序补全,最后得到完整的IN二聚体模型。
通过与1K6Y[20]进行结构叠落,最终得到完整的四聚体模型。
采用分子优化方法将四聚体模型进行长时间的结构优化,修复一些不合理的结构。
1.2模建结构优化
采用Amber程序包和Amber力场对复合物模型进行能量优化,溶剂采用TIP3P水模型[21],在溶质外围加上1.2nm去头八面体水盒子,总共加入110459个水分子,此时含水体系的总原子数为349411个。
能量优化分为2步:
首先为约束溶质优化[约束力常数为2.09×105kJ/(mol?
nm2)],用最陡下降法优化10000步,再用共轭梯度法优化10000步,去约束后再分别进行10000步的最陡下降法和共轭梯度法优化,收敛条件为能量梯度小于4.18×10-4kJ/(mol?
nm)。
1.3模型的评价
对同源模建并优化后的复合物用2种不同的方法进行评价,分别是RamachandranPlot、Profile-3D,具?
w来说Ramachandran图中二面角适合区域的氨基酸越多,则模建结构越可信;Profile-3D评估得到的结构兼容性得分(verifyscore)越接近期望值(verifyexpectedhighscore),则模建结构质量越好[22]。
计算中各参数均设为缺省值。
1.4高斯网络模型
在GNM中,生物大分子的三维结构被简化为1个弹性网络。
在蛋白质结构中,Cα原子作为节点,在DNA/RNA结构中,则采用三节点模型,节点之间用弹性系数固定的弹簧连接[23]。
每个残基的均方涨落(mean-squarefluctuation)以及不同残基的涨落的交叉相关性分别与Kirchhoff矩阵的逆矩阵的对角元素和非对角元素成正比,因此,网络的拓扑结构可以写成1个N×N的Kirchhoff矩阵(Γ),矩阵中的元素则可表示为[24]
式中:
Rij为第i与第j个Cα原子间的距离;rc为截断半径。
节点i、j的均方涨落的交叉相关性可以依据式
(2)求出[25]:
式中:
kB为Boltzmann常数;T为绝对温度;γ为弹性系数;Г为N×N的对称矩阵,称为Kirchhoff矩阵,当节点在截距范围rcGNM(本研究取7.3)内时,非对角元素取-1,否则取0,对角元素表示每个节点的配位数。
根据Debye-Waller理论,描述蛋白质内每个原子涨落的温度因子可写成下式:
1.5各向异性网络模型
GNM只能提供每个节点的运动幅度,而不能得到节点的绝对运动方向信息。
在ANM中,则可以提供节点运动的方向信息[26],蛋白质的运动模式由3N×3N的Hessian矩阵H所决定:
2结果与分析
2.1四聚体模型的建立验证
IN四聚体模建的初始模板是Tn5转座酶1BL3的核心区结构,模建流程:
将1BL3与1WJA进行结构叠落,得到核心区、N端区的结构,再将该结构与1EX4进行叠落,得到完整的IN二聚体结构,最后通过与1K6Y叠落,可以得到IN四聚体的结构。
1K6Y是目前为止解析出来的唯一的IN四聚体结构,因此采用它来进行模建的结果是合理的。
RamachandranPlot可以用于描述蛋白质或肽的立体结构中肽键内α-碳和羰基碳原子间键的旋转度(Psi)对α-碳和氮原子间键的旋转度(Phi),Psi、Phi主要用来说明蛋白质、肽类中氨基酸的允许、不允许的构象。
从图1可以看出,绝大部分的氨基酸均落在允许区。
具体来说,有83.6%的氨基酸在最适区,97.5%的氨基酸在允许区,另外还有2.5%的氨基酸在模建不合理区。
考虑到整个模型比较大(有1152个氨基酸),因此,2.5%的不合理氨基酸在可以接受的范围内。
另外,通过查看这些不合理的氨基酸,发现它们主要分布在P58~K71、G190~T210、R269~A282这3个区域内,这些区域均处于IN的3个结构域的连接区,因此对整个IN四聚体的生物学功能影响不大。
Profile-3D是一种用打分函数来检测模型与自身氨基酸序列匹配程度的评估程序,分数越高说明匹配度越好,模型可信度越高。
用DiscoveryStudio2.5中的Profile-3D程序来分析模建的IN四聚体,其中verifyscore、verifyexpectedhighscore和verifyexpectedlowscore分别为450.481、529.879和238446。
由于模型的verifyscore大于verifyexpectedlowscore,同时非常接近verifyexpectedhighscore,说明模建的模型很好。
从图2-A可以看出,除了虚线以下的4个区域以外,其余氨基酸的得分均为正值,这4个区域均为IN单体的Q214~N222段α螺旋,该区域处于CCD与CTD的连接处,对IN的催化作用以及病毒DNA的结合无影响,因此模建结果比较合理。
由于IN四聚体是由二聚体完全对称得到的,所
以图2-B给出了四聚体中二聚体(A、A′)的结构,其中黑色部分表示图2-A中verifyscore 1MUH中的DNA作为模板,将1MUH与IN叠落得到IN-DNA的复合物。
2.3HIV-1整合酶与病毒DNA复合物的获得
由于PDB数据库中没有IN与病毒DNA结合的晶体结构,因此本研究采用与IN在功能上具有高度同源性的Tn5转座酶中的病毒DNA的晶体结构,通过叠落的方法将其叠加到IN二聚体上。
由图3可以看出,IN的催化核心区(1BL3的C链)与Tn5转座酶(1MUH)核心区的90~360位氨基酸之间的RMSD值为2.4,具有较高的结构同源性。
图3中蓝色、青色的部分为二者结构相同的部分,可以看出,Tn5转座酶的核心部分与IN的CCD区具有较高的同源性,并且3个金属Mn2+的空间位置也非常接近,都位于DNA末端与酶的催化核心区的结合部位。
因此,用Tn5转座酶与DNA结合的复合物结构来得到IN-DNA,这个过程是合理的。
由图4可知,从整体上看,2个二聚体通过A和B的NTD连接,并且病毒DNA的末端距离较近,而二者交汇的位置就是宿主DNA结合的部位,这样更有利于IN将病毒DNA整合到宿主DNA上,同时也证明了模型的合理性。
2.4复合物模型的运动性分析
2.4.1柔性分布生物大分子的运动可以分为快运动、慢运动2种模式。
快运动模式具有局部谐波运动的特性,因此,快运动模式中的残基可以看作动力学热点残基,对分子间的识
别具有重要作用[27-28]。
而慢运动模式表示分子功能上的全局大幅度运动情况,其中第一慢运动模式对于生物大分子发挥其生物学功能具有重要的作用。
图5-A是快运动模式,其中A-K156、A-V225、A-I251、A′-I60、A′-Q62、A′-A248、A′-V260、B-K156、B-E157和B-K160处于峰值。
通过观察模型的三维结构发现,除了A′-I60、A′-Q62外,其余的氨基酸均位于病毒DNA结合的部位附近,并且A-K156、A′-A248、B-K156、B-E157和B-K160直接参与病毒DNA的结合,因此推测这些区域的较大运动幅度与DNA的运动有关,这将在后面继续讨论。
图5-B给出了四聚体模型的第一慢运动模式,纵坐标表示节点均方涨落。
从整体上来看,单体A和B,A′和B′的慢运动模式完全一样,并且A′、B′的运动幅度较A、B大,这是由于A、B处于四聚体模型的内侧,与2个DNA直接结合,故它们的运动性较低。
另外,从图5-B中可以看出,运动幅度较大的分别是单体A′和B′的NTD区域,这是由于它们处于四聚体模型的最外侧,因此运动幅度较大,这也证明了该分析的可靠性。
四聚体的4个CCD区域的运动幅度均较小,由于DNA末端是结合在CCD区域的,因此推测其较稳定的状态与IN的整合作用有关。
2.4.2运动相关性运动相关性可以表示蛋白中每个氨基酸与其他所有残基的运动方向的关系。
图6给出了模建的四聚体的运动相关性,并分别标出了每个单体以及DNA的残基范围,可以看出,四聚体的4个单体以及病毒DNA都存在较好的内运动正相关性,并且四聚体主要分为两大运动区域,分别由AA′、BB′组成,说明2个二聚体都有各自相对独立的运动方向,这是由于二者结合DNA的位置为相对位置的前和后,运动方向均朝向各自结合的DNA,所以这种运动模式可以使DNA的结合更加稳定,有利于发挥IN的整合作用。
另外还发现A、B的NTD与其他区域的运动方向的相关性较低,而A-NTD与B-NTD呈现明显的正相关性,并且从图5-B中看出,这2个区域的运动幅度较低,推测这可能与二聚体的聚合作用有关,这将在后面的运动方向中继续讨论。
2.4.3慢运动方向分析运动相关性能够给出IN各个区域运动方向之间的关系,但是各个区域的绝对运动方向对于研究生物大分子功能的发挥具有更重要的作用。
图7给出了四聚体各区域的绝对运动方向,并画出了运动示意,可以看出,运动最明显的是A′、B′的NTD,方向均为朝四聚体的中心运动,这种运动模式可以减少四聚体与环境中水的接触,增加其稳定性;而A、B的NTD由于处于四聚体的中间,运动的阻力较大,因此运动性较弱。
另外,4个单体的CTD区均向病毒DNA的结合位置运动,并且病毒DNA的运动方向也是朝向各自结合的二聚体,它们的这种运动模式有利于DNA的结合。
而CCD区的运动性很弱,说明其比较稳定,这是由于IN将病毒DNA整合到宿主DNA上主要依靠CCD来完成,因此其稳定的状态是IN发挥整合作用的前提,这也验证了图5中的结果。
从整体上来说,四聚体模型各个区域的运动均可以使整个体系更加稳定,这也证明了该模型的可靠性。
2.5分子对接
整合酶抑制剂是近年来才开发的一类抗艾滋病药物,其中二酮酸类化合物(diketoacid,简称DKAs)及其衍生物最有希望成为高效低毒的整合酶抑制剂,目前上市的IN抑制剂有雷特格韦(Raltegravir,简称RAL)、埃替格韦(Elvitegravir,简称EVG)和度鲁格韦(Dolutegravir,?
称DTG),其中RAL、EVG均为DKAs衍生物。
为了研究DKAs与IN四聚体的结合的偏好性,本研究将RAL与模建得到的四聚体模型进行分子对接。
首先进行全局搜索的分子对接,结果表明,四聚体模型主
要有6个小分子结合区域,分别是4个单体的CCD区,以及2个单体形成的二聚体中间的结合部位。
图8分别给出了RAL的结构以及与各个结合区域的对接结果(由于RAL与单体A、B的CCD区的对接结果一样,因此只给出了其中1个)。
从打分结果上来看,图8-B~图8-F对应的值分别为5235、5.026、5.098、6.279、5.964,仅从对接结果来看,图8-E、图8-F对应的二聚体之间的空穴区域是小分子的最适结合区,小分子与周围残基形成了较多的作用。
然而据文献[32]报道,RAL的结合区域在IN的CCD区,并与金属离子螯合,进而干扰病毒DNA的结合。
因此,图8-B~图8-D对应的CCD区是小分子RAL实际结合的区域。
虽然三者的对接打分值很接近,但是从图8-B中可以看出,虽然由于空间位阻的原因,二酮基并未与Mg2+螯合,但RAL与D116形成了较稳定的氢键,而C、D中RAL的二酮基与Mg2+距离较远,并且没有与周围残基形成较强的作用力。
另外可以看出,图8-B的对接打分也较C、D好,因此推测小分子RAL更加偏向于结合在四聚体模型中间的CCD与病毒DNA结合的区域,这也验证了Dayam等的结论[33]。
3?
Y论
采用同源模建及叠落的方法得到了IN四聚体模型,并用Tn5转座酶结合的DNA作为病毒DNA,建立了四聚体与DNA复合物的模型。
用RamachandranPlot和Profile-3D参数验证了模型的可靠性,有97.5%的残基落入允许区,仅有2.5%的残基位于错误区,整体来说,由于模建体系较大,该模建结果是可靠的。
采用基于GNM、ANM的粗粒化方法,深入分析了IN-DNA四聚体模型的运动情况,发现模型的各个区域均存在较强的内运动相关性,说明每个结构域都有特定的运动方向。
另外,A、B的CTD与病毒DNA呈现相向的运动,这种运动模式更有利于DNA的结合,并且证明CCD区的稳定状态是IN发挥整合作用的前提。
最后,采用分子对接方法分析了模型的4个CCD区结合小分子的偏好性,结果显示抑制剂小分子更偏向于结合在四聚体模型中间CCD与病毒DNA结合的区域,从而干扰金属离子的催化作用,阻碍病毒DNA与IN的结合。
模建结果、运动性分析以及分子对接结果对于更深入认识IN的结构与功能,以及DKAs类IN抑制剂的新药设计具有一定的指导意义。
[HS2][HT8.5H]
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HIV1 整合 酶四聚体 结构 基础 研究