柔性多肽片段–蛋白质相互作用的全局对接方法

doi:10.12677/HJCB.2014.42005

期刊菜单

柔性多肽片段–蛋白质相互作用的全局对接方法
Global Docking Method for Flexible Peptide Segment-Protein Interactions

DOI: 10.12677/HJCB.2014.42005, PDF, HTML, 科研立项经费支持
作者: 来瑞颖, 万波, 黄强：复旦大学生命科学学院，上海
关键词: 多肽–蛋白质相互作用；多肽结合位点；分子对接；Protein-Peptide Interaction； Peptide-Binding Site； Molecular Docking

摘要: 多肽–蛋白质的相互作用在生物细胞中发挥着各种各样重要的作用。通常情况下，它们之间的结合信息是未知的。所以，利用计算方法预测结合位点具有重要意义。而以Rosetta为代表的常用对接软件通常具有很强的初始位置依赖性。为克服这一局限性，本研究提出了一种全局对接的方法，以受体蛋白为球状系统的中心，将多肽平均地分布在球面26个位置上；同时定义了一个区分天然结合构象和非天然结合构象的筛选参数。用上述方法预测多肽–蛋白质的结合构象，结果显示该方法能成功预测蛋白质的结合位点，且多数多肽的预测构象的Cα-RMSD在5.5 Å以下。因此，研究结果表明，所发展的方法在蛋白质多肽结合位点预测方面有很好的应用价值。

Abstract: Protein-peptide binding plays various important roles in living cells. In many cases, the peptide- binding sites of proteins are not known in prior. Then, computational prediction of the peptide- binding sites is desirable. Popular programs for protein-peptide docking usually depend strongly on the initial positions of peptides, such as Rosetta. To overcome this limitation, here we develop a global docking approach in which the peptide is initially distributed evenly on 26 surface locations of a virtual sphere around the protein, and define a selection parameter for discriminating native-like binding site from non-native sites. We used this approach to predict the native-like binding conformations of peptide-protein complexes, and in most cases the peptide-binding sites were correctly predicted, with Cα-RMSDs below 5.5 Å with respect to the crystal structures of peptides. The results of this study suggested that our approach may be very useful for the identification of peptide-binding sites of proteins.

文章引用：来瑞颖, 万波, 黄强. 柔性多肽片段–蛋白质相互作用的全局对接方法[J]. 计算生物学, 2014, 4(2): 42-52. http://dx.doi.org/10.12677/HJCB.2014.42005

1. 引言

新药设计通常基于体内重要的蛋白质–蛋白质相互作用位点，其中相当一部分是由柔性多肽所介导的，在活细胞中，它们控制了众多至关重要的生理过程[1] 。目前，蛋白质–多肽相互作用已经在制药、生物技术(如蛋白质功能检测) [2] 、生物标记物、生物传感器[3] 以及多肽药物治疗等领域得到广泛应用[4] 。因此，预测和设计多肽–蛋白质相互作用对于生物技术和新药发现具有重要的意义。高分辨率的结构解析法已经在多肽–蛋白质的晶体结构方面得到了广泛应用，包括：核磁共振法和X射线衍射法[5] 。然而，蛋白质结晶过程(包括蛋白质纯化和条件选择)仍存在很大的困难和挑战，而且实验周期长，花费昂贵。

为解决上述问题，可以通过计算模拟的方法来直接预测蛋白质–多肽相互作用。分子对接是预测蛋白质–多肽相互作用最重要的计算技术之一。目前，相关的对接软件包括：AutoDock[6] ，RosettaDock[7] 和DOCK[8] 等等。但是在完全未知互作信息的前提下，进行蛋白质–多肽的相互作用预测尚没有较为系统的方法。AutoDock是盲对接常用的一种软件，其所适用的多肽全长上限仅仅为四个[9] 。另外一种盲对接方法能够克服上述缺陷，然而在入选例子中，互作位点一般均在最大和次大的口袋中[10] 。另外，在许多例子中，非结合态的蛋白质结构通常没有明显的口袋出现在结合位点附近[11] 。

此外，在计算结构生物学中，预测多肽的结合构象是最具有挑战性的，主要因为，多肽具有很大的自由度[12] ，再加上有很多自然状态下的蛋白质并没有稳定的构象[13] ，其内部构象也可能会迅速地发生转变[14] 。有研究表明，考虑多肽的柔性能够增加对接预测的准确性[15] [16] 。同时，相关研究显示，Rosetta FlexPepDock模块能够边实现多肽的从头预测，边实现对接，但是必须已知部分互作信息[7] 。为了解决上述难题，我们提出了一种新的盲对接方法，即在未知互作信息的前提下，用Rosetta FlexPepDock程序实现相互作用位点的系统预测，其整个研究流程见图1A。

2. 材料与方法

2.1. 多肽–蛋白质复合物结构的准备

用于对接的蛋白质–多肽复合物的结构均来自PDB (Protein Data Bank)蛋白质库(见表1)。对于每一

Figure 1. (A) Flowchart of the global docking approach for protein-peptide interactions; (B) The sketch map of the systematic docking with 26 initial locations; (C) The bindingscore-RMSD landscapes with the example of Calmodulin-MLCK docking pair

图1. (A) 多肽–蛋白质相互作用的全局对接流程图；(B) 全局对接系统示意图(26个初始位置)；(C) 以Calmodulin-MLCK为例的bindingscore-RMSD散点图

Table 1. Structures of protein-peptide complexes for systematic docking

表1. 系统对接的多肽–蛋白质复合物结构

¹表示在实现对接时，将来自3MI9的Tat多肽也考虑进来，因为有关研究显示，Tat多肽和AFF4也有直接的相互作用[18] 。

个结构，首先将其离子、配体以及水分子去掉。另外，如果蛋白质中存在不连续的片段，使用经典建模程序MODELLER将其补齐。从蛋白质–多肽的复合物结构中，选取连续9个氨基酸片段的多肽作为对接多肽片段。原因如下：在Rosetta FlexPepDock中，用于对接的多肽平均长度是9个[7] ，另外，在分析蛋白质序列的疏水性时，其默认的窗口序列长度也是9[17] 。那么，9个连续的多肽片段可以视为性质较为稳定的结构单元。

2.2. 球状对接系统的构建

在未知互作信息的前提下，Rosetta程序通常不能准确预测蛋白质–多肽相互作用位点。为了找到对接的最佳初始位置，通过编写Python脚本来实现全局对接系统的构建：以蛋白质为球心，将多肽均匀地放置在球面26个初始位置上。Rosetta程序中的FlexPepDock模块可以同时实现对接和从头预测，为简化模型，同一多肽在26个初始位置上的构象均设置为相同(图1B)。

2.3. 构象筛选的经验参数法

基于上述构建的系统实现平行对接，并设置相关的参数[19] ，每个位置对接产生5000个构象，并把这些对接构象按其结合自由能(即结合亲和性)大小进行排序：结合自由能越低，排序越前。在这里，结合自由能值直接使用Rosetta经验能量函数值表示，即Rosetta程序计算所得的binding score。按常规的配体–蛋白对接分析过程[7] [20] ，以最低binding score的构象为参考构象，计算得到其它构象对参考构象的RMSD (均方根偏差)值(参考构象的RMSD = 0)。以构象的RMSD值为横坐标，其binding score为纵坐标，获得关于5000个对接构象的binding score-RMSD散点图。

为从26个初始位置中确定出多肽的最佳对接初始位置，我们对binding score-RMSD散点图进行了深入分析，不断摸索与总结，获得了一个筛选最佳初始位置的经验公式。其过程是：对从某一初始位置出发对接所得的5000个构象，把binding score排在前20、且其RMSD值大于0且小于7Å的构象取出，构成一个构象总数为N (0 £ N < 20)的子集, 并设子集中最小RMSD值RMSDmin，对应构象在子集中binding score排序为Rankmin。我们发现，这些从散点图中获得的特征参数存在以下规律：N、RMSDmin和Rankmin越小，binding score也越小，越有利于筛选出好的初始对接位置。因此，有如下用于筛选最佳初始位置的经验公式：

(1)

上式中的BS₀是5000个构象中的最低binding score值，因为5000个对接构象中绝大部分的binding score为负值，所以这个最小值是小于零的，为负值。还有，我们发现上式中的N 对于最佳位置的筛选作用较大，为强化它的作用，将其做平方处理；类似地，Rankmin对于最终结果作用较小，将其进行开方处理。

这样，利用每一个对接初始位置所获得的5000个构象，如果其N > 0，可用上式确定计算该位置对应的SP值，最大SP值的位置即为最佳对接初始位置。对N = 0的位置，不需计算而直接认定其为非最优位置。另外，在与晶体结构对比中，对接能量排在前10低的构象当中，其C_α-RMSD在5.5 Å以内的构象被视为成功预测构象。

2.4. 应用于小分子的ISR法

ISR的全称即固有专一率，ISR法是一种适用于小分子–蛋白质全局对接的定量虚拟筛选法[21] ，它表示对接双方的特异性高低。这种ISR方法适用于小分子化合物与蛋白质的对接[22] 。计算公式如下[21] ：

(2)

(3)

(4)

δE指的是能隙，即最小能量与构象的平均能量的差值，指的是构象的能量波动。

ISR法通过ISR-Affinity散点图来进行直观展示，将本研究提出的SP法与ISR法进行比较，进一步证明其可靠性。

3. 结果与讨论

3.1. Bindingscore-RMSD散点图的经验参数筛选

为了找出正确的或者近似的初始位置，基于收敛状散点图(以Calmodulin-MLCK为例，见图1C)，按照经验公式计算筛选参数。根据经验公式(1)，将符合公式适用条件的初始位置筛选出来，具体地包括：位置2，4，8，10，12，18，25 (PKA-PKI)，位置7，9，10，12 (CycT1_Tat-AFF4)，位置2，5，8，11，13，17，18，23 (LAS17-SLA1)，位置4，5，7，10，14，15，19 (Androgen-FxxLF)，位置2，6，12，16，17，18，19 (Chymotrypsin A-TATI)，位置1，2，3，4，5，8，11，12，15，16，18，23，24，26 (ABL1-7C12)，位置1，2，3，4，8，12，21，24 (Calmodulin-MLCK)，位置2，5，10，12，18，24，26 (SLAM-CD150)。对于上述每个对接例子的粗略筛选位置，计算相应的SP值，最大SP值所在的初始位置即最佳初始位置，见表2。结果显示，PKA-PKI的最佳初始位置是10 (SP value =1.646)，CycT1_Tat-AFF4的最佳初始位置是7 (SP value = 0.800)，LAS17-SLA1的最佳初始位置是2 (SP value = 1.487)，Androgen-FxxLF的最佳初始位置是15 (SP value = 1.543)，Chymotrypsin A-TATI的最佳初始位置是19(SP value = 1.751)，ABL1-7C12的最佳初始位置是23 (SP value = 1.021)，Calmodulin-MLCK的最佳初始位置是24 (SP value = 1.142)，SLAM-CD150的最佳初始位置是26 (SP value = 1.376)。

3.2. 基于初始位置的构象选择

基于筛选得到的初始位置，计算结合自由能排在前10低的构象的C_α-RMSD值(与晶体结构相比，见表3)。与晶体结构相比，其中6个例子的最终C_α-RMSD值在5.5Å以内，被视为正确的预测构象，包括：Chymotrypsin A-TATI，Androgen-FxxLF，LAS17-SLA1，Calmodulin-MLCK，ABL1-7C12和CycT1_TatAFF4。只有PKA-PKI和SLAM-CD150 (C_α-RMSD分别为7.71 Å和8.05 Å)不在正确预测的范畴内。总之，

Table 2. The SP value results docking from 26 initial locations of each protein-peptide pair

表2. 每对蛋白质–多肽基于26个初始位置的SP值

Table 3. The lowest C_α-RMSD with respect to the crystal structure, binding score and rank of the binding score

表3. 与晶体结构相比的最小C_α-RMSD值，binding score及其排序

大多数例子的预测结果是成功的，见图2A。

统计数据显示(见图2B)，在结合自由能TOP1的构象中，预测正确率为25%，包括CycT1·Tat-AFF4和Calmodulin-MLCK，对应的C_α-RMSD值分别是2.10 Å (Rank1)和3.55 Å (Rank1)。在结合自由能TOP2的构象中，预测正确率为50%，包括CycT1·Tat-AFF4，Androgen-FxxLF，Chymotrypsin A-TATI，Calmodulin-MLCK，对应的C_α-RMSD值分别是2.10 Å (Rank1)，4.03 Å (Rank2)，5.24.Å (Rank2)和3.55 Å (Rank1)。在结合自由能TOP5的构象中，预测正确率为50%，包括CycT1·Tat-AFF4，Androgen-FxxLF，Chymotrypsin A-TATI，Calmodulin-MLCK，对应的C_α-RMSD值分别是2.10 Å (Rank1)，4.03 Å(Rank2)，5.24.Å (Rank2)和3.55 Å (Rank1)。在结合自由能TOP10的构象中，预测正确率在75%，包括CycT1·Tat-AFF4，LAS17-SLA1，Androgen-FxxLF，Chymotrypsin A-TATI，ABL1-7C12，Calmodulin-MLCK，对应的C_α-RMSD值分别是2.10 Å (Rank1)，5.35 Å (Rank9)，4.03 Å (Rank2)，5.24 Å (Rank2)，5.16 Å (Rank10)和3.55 Å (Rank1)。因此，SP法能够成功识别天然结合构象。当然，为了能够更加全面地检验该方法的可靠性，需要更多的例子加以验证。

Figure 2. (A) The crystal and predicted conformations. Shown are the native binding pose (magenta) and the final predicted binding pose (blue); (B) The percentages of near-native models of C_α-RMSD values below 5.5 Å with respected to crystal structure in binding score poses of top 1, top 2, top 5 and top 10; (C) ISR-Affinity plots of the eight docking pairs

图 2. (A) 晶体构象(紫色)和预测构象(蓝色)；(B) 结合自由能的排序分别在top 1, top 2, top 5 和top 10，近似天然结合构象(与晶体结构相比，C_α-RMSD在5.5 Å以内的构象)的预测成功率；(C) 八个例子的ISR-Affinity散点图

Table 4. Comparison of SP selection results those of ISR selection

表4. SP法与ISR法比较

注：粗体划线的位置表示SP法与ISR法的精准匹配，斜粗体位置表示SP法与ISR法的模糊匹配。

3.3. 与ISR法的比较

最终结果显示，SP筛选法能够在大多数例子中找到最优构象。其他相似的研究揭示，ISR值能够反映小分子–蛋白质对接的特异性。通过对比SP筛选法与ISR筛选法，我们找到了两者间存在的合理关系。在ISR-Affinity的散点图中，处于右上方的点，其ISR值以及亲和性都是最大的。在8个例子当中，SP法选出的点分别在ISR-Affinity散点图的右上方能够找到准确或者模糊的对应(图2C，表4)。与ISR法相比，准确预测结果包括：CycT1_Tat-AFF4(位置7)，Androgen-FxxLF(位置15)，Chymotrypsin A-TATI(位置19)，Calmodulin-MLCK(位置24)，SLAM-CD150(位置26)。模糊预测结果包括：PKA-PKI(位置10与ISR法预测的位置1相邻)，LAS17-SLA1 (位置2与ISR法预测的位置12相邻)，ABL1-7C12 (位置23与ISR法预测的位置15相邻)。结果显示，SP法与ISR法具有62.5%的精准匹配率和100%的模糊匹配率。此外，与SP筛选法相比，ISR筛选法得到的结果并不精准，它能够在前5个结果中找到较为匹配的位置，无法直接找到最优的位置。因此，SP筛选法具有更大的精准度和优势。

4. 结论

本研究提出了一种多肽–蛋白质系统盲对接法，将多肽均匀地分布到以蛋白质为中心的球面上实现平行对接，并提出了经验参数筛选法(即SP法)来筛选预测构象，最终结果显示，多数多肽的预测构象的C_α-RMSD在5.5 Å以下，得以成功识别和预测多肽–蛋白质的相互作用，得到成功的预测结合构象。另外已被证明，我们所提出的这种新的研究方法，与适用于小分子–蛋白质对接的ISR法相比，具有高度的一致性，而且可以将预测结果的范围更进一步地缩小。综上，在未知任何互作信息的前提下，利用该方法能够成功预测蛋白质–多肽的结合位点，在蛋白质与多肽结合位点的预测方面，所发展的方法将有很好的应用价值。

项目基金

上海市重点学科建设项目(B111)。

参考文献

[1]	Petsalaki, E. and Russell, R. (2008) Peptide-mediated interactions in biological systems: New discoveries and applica- tions. Current Opinion in Biotechnology, 19, 344-350.
[2]	Karanicolas, J. and Kuhlman, B. (2009) Computational design of affinity and specificity at protein-protein interfaces. Current Opinion in Structural Biology, 19, 458-463.
[3]	Hao, J., Serohijos, A., Newton, G., Tassone, G., Wang, Z., Sgroi, D., Dokholyan, N. and Basilion, J. (2008) Identifica- tion and rational redesign of peptide ligands to CRIP1, a novel biomarker for cancers. PLOS Com-putational Biology, 4, e1000138.
[4]	Vlieghe, P., Lisowski, V., Martinez, J. and Khrestchatisky, M. (2010) Synthetic therapeutic peptides: Science and market. Journal of Neuroscience Methods, 15, 40-56.
[5]	Doyle, D., Lee, A., Lewis, J., Kim, E., Sheng, M. and MacKinnon, R. (1996) Crystal structures of a complexed and peptide-free membrane pro-tein-binding domain: Molecular basis of peptide recognition by PDZ. Cell, 85, 1067-1076.
[6]	Morris, G., Goodsell, D., Huey, R. and Olson, A. (1996) Distributed automated docking of flexible ligands to proteins: Parallel applications of AutoDock 2.4. Journal of Computer-Aided Molecular Design, 10, 293-304.
[7]	Raveh, B., London, N., Zimmerman, L. and Schueler-Furman, O. (2011) Rosetta FlexPepDock ab-initio: Simultaneous folding, docking and refinement of peptides onto their receptors. Plos One, 6, e18934.
[8]	Shoichet, B. and Kuntz, I. (1993) Matching chemistry and shape in molecular docking. Protein Engineering Design & Selection, 6, 723-732.
[9]	Hetényi, C. and van der Spoel, D. (2009) Efficient docking of peptides to proteins without prior knowledge of the binding site. Protein Science, 11, 1729-1737.
[10]	Aita, T., Nishigaki, K. and Husimi, Y. (2010) Toward the fast blind docking of a peptide to a target protein by using a four-body statistical pseudo-potential. Computational Biology and Chemistry, 34, 53-62.
[11]	Coleman, R. and Sharp, K. (2010) Protein pockets: Inventory, shape, and comparison. Journal of Chemical Informa- tion and Modeling, 50, 589-603.
[12]	Dagliyan, O., Proctor, E., D’Auria, K., Ding, F. and Dokholyan, N. (2011) Structural and dynamic determinants of protein-peptide recognition. Structure, 19, 1837-1845.
[13]	Vallee-Belisle, A., Ricci, F. and Plaxco, K. (2009) Thermodynamic basis for the optimization of binding-induced bio- molecular switches and structure-switching biosensors. Proceedings of the National Academy of Sciences India Section B, 106, 13802-13807.
[14]	Uversky, V. and Dunker, A. (2010) Understanding protein non-folding. BBA-Proteins Proteom, 1804, 1231-1264.
[15]	Humphris, E. and Kortemme, T. (2008) Prediction of protein-protein interface sequence diversity using flexible back- bone computational protein design. Structure, 16, 1777-1788.
[16]	Ding, F., Yin, S. and Dokholyan, N. (2010) Rapid flexible docking using a stochastic rotamer library of ligands. Jour- nal of Chemical Information and Modeling, 50, 1623-1632.
[17]	Chou, S., Upton, H., Bao, K., Schulze-Gahmen, U., Samelson, A., He, N., Nowak, A., Lu, H., Krogan, N., Zhou, Q. and Alber, T. (2012) HIV-1 tat recruits transcription elongation factors dispersed along a flexible AFF4 scaffold. Pro- ceedings of the National Academy of Sciences India Section B, 110, E123-E131.
[18]	Schulze-Gahmen, U., Upton, H., Birnberg, A., Bao, K., Chou, S., Krogan, N. and Zhou, Q. (2013) Building a super elon- gation complex for HIV. Elife, 2, e00577.
[19]	Bradley, P. (2005) Toward high-resolution de novo structure prediction for small proteins. Science, 309, 1868-1871.
[20]	Zhu, J., Yang, Q., Dai, D. and Huang, Q. (2013) X-ray crystal structure of phosphodiesterase 2 in complex with a highly selective, nanomolar inhibitor reveals a binding-induced pocket important for selectivity. Journal of the Ameri- can Chemical Society, 135, 11708-11711.
[21]	Yan, Z., Zheng, X., Wang, E. and Wang, J. (2013) Thermodynamic and kinetic specificities of ligand binding. Chemi- cal Science, 4, 2387.
[22]	Yan, Z. and Wang, J. (2012) Specificity quantification of biomolecular recognition and its implication for drug discov- ery. Science Report-UK, 2, srep00309.

为你推荐

友情链接