摘要
蛋白质三维结构决定了其特殊的生物功能,蛋白质三维结构对蛋白质功能研究、疾病的诊断与治疗、创新药物研发都有着重要的科学意义。利用计算机技术从氨基酸序列预测蛋白质三维结构是获取蛋白质三维结构的有效方法。片段组装是一种广泛采用的蛋白质结构预测技术,它将连续的构象空间优化问题转换成离散的实验片段组合优化问题,从而有效地减小了构象搜索空间。首先介绍了片段组装技术;其次总结了基于片段组装的蛋白质结构预测的发展历程,并对部分具有代表性的方法进行了简要阐述;然后介绍了蛋白质结构预测研究中常用的数据库和评价指标,并比较了不同预测方法的性能;最后分析并指出了当前基于片段组装的蛋白质结构预测方法所存在的挑战性问题,并对该领域未来的研究方向进行了展望。
蛋白质是生命活动的主要承担者,几乎支撑着生命的所有功能,细胞内发生的大部分反应都依赖于蛋白质。蛋白质的功能取决于其独特的三维结构,也就是常说的“结构决定功能”。随着2003年人类基因组计划宣布完
目前,主要通过X射线衍射、核磁共振和冷冻电镜等生物实验手段来测定蛋白质的三维结构,这些方法不仅费钱费力,而且周期长,导致已测定蛋白质结构的数量远远低于已测定蛋白质的序列数量。2021年4月最新统计数据显示,UniProtKB/TrEMBL数据库中共存储蛋白质序列214 406 399条(数据来源于http://www.ebi.ac.uk/uniprot/TrEMBLstats),其中177 426条序列结构被实验测定(数据来源于http://www1.rcsb.org/stats/growth/growth-released-structures),仅占序列总数的0.083%,而且这一差距仍然在不断增加。显然,实验测定方法无法满足高效获取蛋白质结构的需求。
在理论研究和实际应用双重需求的推动下,依据Anfinsen准
从头蛋白质结构预测不受限于模板信息,能够正确预测具有未发现的整体拓扑结构的蛋白质结构,一直受到生物信息学领域和进化计算社区的高度关注。片段组装技术在从头蛋白质结构预测领域应用广泛,事实证明片段组装方法是最有前景的蛋白质结构预测方法之
由于蛋白质构象空间的高维特性,在巨大的构象空间中进行采样是不合适的。片段组装技术利用已测定蛋白质结构的局部信息,将每一个残基的二面角约束在一组离散值内,从而极大地缩小了构象搜索空

图1 片段组装示意图
Fig.1 Schematic diagram of fragment assembly
蛋白质结构预测一直受到计算生物学领域和计算智能社区的高度关注,是一个前沿研究课
华盛顿大学Baker实验室开发的Rosett
(1) |
Rosetta 片段组装折叠模拟主要分为4个阶段,在每个阶段采用不同的能量函数,每个能量项的权重逐渐增加。在Rosetta的前3个阶段使用残基数目为9的片段执行片段组装,实现大规模的构象空间探索,在第4阶段使用残基数目为3的片段来更精细地调整构象拓扑结构。Rosetta的每个阶段执行大量的片段插入,并根据片段插入情况动态调整温度因子。当片段插入连续失败150次,通过提高温度因子来降低构象接受的条件,从而提高片段插入成功率;当片段插入成功后,将温度因子恢复为初始值。为了生成可靠的蛋白质模型,通常需要运行成千上万次的片段组装折叠模拟最终生成最低能量模型,这是一个极其耗时且消耗计算代价的过程。
密西根大学张阳实验室开发的QUAR
(2) |
式中:、和为原子级能量项,分别表示主链原子对势能、侧链中心成对势能和排除体积;、、和为残基级能量项,分别表示氢键作用力、溶剂可及性、主链扭转角势能和基于片段的距离谱能量;、、和为拓扑级的能量项,分别表示回转半径、β⁃α⁃β惩罚项、α⁃α能量项和β对能量项。
QUARK设计了11个局部构象运动来增强算法的采样能力,这些局部运动分为残基级、片段级、拓扑级3个层次,在40个平行副本中运行蒙特卡洛模拟。虽然在低温下的模拟可以探测到较低能量的构象,但很容易陷入到局部能量盆地中。副本交换的目的是利用高温副本模拟帮助低温副本跳出局部低能源盆地。因此,对于交换每一对相邻的副本,保持高接受率是必要的。每个副本在每个周期内单独运行,其中将根据Metropolis准则尝试30
除Rosetta和QUARK之外,FRAGFOL
进化算
Garza⁃Fabre等在Rosetta片段组装协议的基础上提出多阶段模因算法RMA(Rosetta⁃based memetic algorithm
本课题组在基于进化算法的片段组装方面进行了深入研究。由于蛋白质的高维特性,需要搜索的构象空间过于庞大,传统的片段组装方法通常分为多个阶段来搜索构象空间。针对不同蛋白质的阶段切换问题,本课题组提出了包含探索和增强两阶段的群体蛋白质结构预测算法PAI
自CASP12以来,基于深度学习的蛋白残基间接触(contact)预测和距离(distance)预测取得了重大进展,使得结构预测精度显著提
早在2014年,Jones团队就发现了将基于片段组装的折叠算法FRAGFOLD与残基间接触预测方法PSICOV相结合的潜在好
本课题组在片段组装的基础上,结合残基间接触距离信息,提出了一些有效的采样策略和优化方法来提升蛋白质结构预测的精度和效率。利用残基间接触和二级结构信息,设计了基于二级结构和残基-残基接触的选择策略来引导构象采样,分别用于提高算法在构象空间中探索近天然二级结构区域和合理结构的能力;此外,还设计了一个概率函数来平衡这两种选择策略;实验结果表明,该方案可以提高近天然态结构的采样能
随着残基接触和距离预测精度的不断提升,基于几何优化的蛋白质结构建模方法得到了广泛应用。这类方法没有采用片段组装等精巧的折叠方法,而是利用预测的contact或distance构建几何约束,通过CNS或梯度下降能量极小化协议生成结构模型。CONFOL
PD
UniPro
均方根偏差(Root mean square deviation, RMSD)和TM⁃scor
(3) |
式中:和分别表示模型和结构第i个原子的三维坐标。
TM⁃score也是通过刚体旋转平移比对结构的相似度。不同于RMSD的是,结构的局部差异对TM⁃score的影响较小。TM⁃score的大小不受蛋白质序列长度的影响,取值在(0,1]之间,其计算公式
(4) |
式中:为目标蛋白的序列长度;为两个结构对齐区域的长度;为距离归一化参数,;为第i个残基对间的距离。两个结构越相似,它们之间的TM⁃score越大;当TM⁃score≥0.5时,表明两个结构的拓扑形状大致相
为了真实反映近几年基于片段组装的蛋白质结构预测方法的性能,本节根据最新的基于片段组装的结构预测相关论文进行了方法描述,并对论文中的实验结果进行性能分析与比较。
CGLFol
MMpre

蛋白质三维结构的测定对疾病研究、诊断医疗和药物设计等有着重要的作用。然而,利用生物实验方法测定蛋白质结构耗时费力,代价极高。以计算机技术为手段实现蛋白质结构从头预测得到广泛关注。片段组装作为一种有效的插件式蛋白质构象空间优化技术,在蒙特卡洛构象优化算法中得到了广泛的应用。然而随着基于深度学习的残基间距离预测精度的不断提升,越来越多的方法直接采用几何优化方法来快速生成三维结构。为了进一步提升基于片段组装的蛋白质结构预测的性能,以下几个方面的研究方向是潜在的突破口。
(1) 从已有研究成果来看,对于基于片段组装的蛋白质结构预测方法而言,构象空间采样仍然是一个瓶颈问题,尤其是随着蛋白质长度的增加构象空间呈几何倍数扩大。因此,设计高效的采样策略是提高算法效率和预测精度的关键之一。此外,片段组装将连续的二面角优化问题转换成了离散的实验局部结构的组合优化问题,虽然有效缩小了构象搜索,但也导致极有可能无法搜索最优解,并且随着蛋白质长度的增加这种影响会不断累计扩大。因此,如果能设计一个连续的二面角优化策略与离散的片段组装形成互补,将有望弥补片段组装这一固有缺陷。
(2) 蛋白质能量模型不仅崎岖复杂,其构象搜索空间也十分庞大,这使得现有方法极易收敛到局部极值解。另外,即使搜索到全局最优解,能量模型的不准确性使得最优解不一定是最稳定的天然结构。进化计算社区的多模态优化方法,不仅能够发现全局最优解,而且可以获得更多样化的次优解,从而缓解能量模型的不准确性,提高搜索算法本身的稳定性(比如,全局最优解不一定对应于天然结构,某一个次优解可能更接近稳定的天然结构)。因此,基于群体的多模态优化方法是提高预测精度的重要保障。
(3) 深度学习技术在蛋白质残基间距离预测中的成功应用使得蛋白质结构预测的精度取得了突破性进展,基于几何约束的能量极小化方法逐渐成为主流。然而,片段组装仍然具有其独特优势,既利用了已知蛋白质结构信息,又避免了同源建模方法高度依赖模板质量的缺陷,这使得片段组装方法能够正确预测具有未发现的整体拓扑结构的蛋白质结构。如果能够针对精细的残基间距离信息设计具有针对性的搜索算法,或是将能量极小化协议引入到构象采样过程中形成互补,可能会推动基于片段组装和基于几何约束能量极小化方法的进一步发展。
参考文献
苏青, 陈广仁, 齐志红. 中国具有重大影响的50项科技事件(上) [J]. 科技导报, 2008, 26(13): 19-28. [百度学术]
SU Qing, CHEN Guangren, QI Zhihong. 50 china’s influential science and technology events(I)[J]. Science & Technology Review, 2008, 26(13): 19-28. [百度学术]
KOLATA G. Trying to crack the second half of the genetic code[J]. Science, 1986, 233(4768): 1037-1039. [百度学术]
LISTED N. So much more to know[J]. Science, 2005, 309(5731): 78-102. [百度学术]
ANFINSEN C. Principles that govern the folding of protein chains[J]. Science, 1973, 181(4096): 223-230. [百度学术]
KRYSHTAFOVYCH A, SCHWEDE T, TOPF M, et al. Critical assessment of methods of protein structure prediction(CASP)-Round XIII[J]. Proteins: Structure Function and Bioinformatics, 2019, 87(12): 1011-1020. [百度学术]
MOULT J, FIDELIS K, KRYSHTAFOVYCH A, et al. Critical assessment of methods of protein structure prediction: Progress and new directions in round Ⅺ[J]. Proteins: Structure Function and Bioinformatics, 2016, 84(S1): 1-14. [百度学术]
BRADLEY P, MISURA K, BAKER D. Toward high-resolution de novo structure prediction for small proteins[J]. Science, 2005, 309(5742): 1868-1871. [百度学术]
ZHANG C X, MORTUZA S M, HE B J, et al. Template-based and free modeling of I-TASSER and QUARK pipelines using predicted contact maps in CASP12[J]. Proteins Structure Function and Bioinformatics, 2017, 86(S10): 136-151. [百度学术]
KUHLMAN B, BRADLEY P. Advances in protein structure prediction and design[J]. Nature Reviews Molecular Cell Biology, 2019, 20(11): 681-697. [百度学术]
LIU J, ZHOU X G, ZHANG Y, et al. CGLFold: A contact-assisted de novo protein structure prediction using global exploration and loop perturbation sampling algorithm[J]. Bioinformatics, 2020, 36(8): 2443-2450. [百度学术]
ROHL C A, STRAUSS C, MISURA K, et al. Protein structure prediction using Rosetta[J]. Methods in Enzymology, 2004, 383: 66-93. [百度学术]
邓海游, 贾亚, 张阳. 蛋白质结构预测[J]. 物理学报, 2016, 65(17): 178701. [百度学术]
DENG Haiyou, JIA Ya, ZHANG Yang. Protein structure prediction[J]. Acta Physica Sinica, 2016, 65(17): 178701. [百度学术]
BOWIE J U, EISENBERG D. An evolutionary approach to folding small alpha-helical proteins that uses sequence information and an empirical guiding fitness function[J]. Proceedings of the National Academy of Sciences of the United States of America, 1994, 91(10): 4436-4440. [百度学术]
MOULT J, FIDELIS K, KRYSHTAFOVYCH A, et al. Critical assessment of methods of protein structure prediction(CASP)—Round Ⅺ[J]. Proteins: Structure, Function, and Bioinformatics, 2018, 86: 7-15. [百度学术]
SENIOR A W, EVANS R, JUMPER J, et al. Improved protein structure prediction using potentials from deep learning[J]. Nature, 2020, 577(7792): 706-710. [百度学术]
ZHENG W, LI Y, ZHANG C X, et al. Deep‐learning contact‐map guided protein structure prediction in CASP13[J]. Proteins: Structure, Function, and Bioinformatics, 2019, 87(3): 1149-1164. [百度学术]
SIMONCINI D, SCHIEX T, ZHANG K. Balancing exploration and exploitation in population-based sampling improves fragment-based de novo protein structure prediction[J]. Proteins-Structure Function & Bioinformatics, 2017, 85(5): 852-858. [百度学术]
ZHANG G J, XIE T Y, ZHOU X G, et al. Protein structure prediction using population-based algorithm guided by information entropy[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2021, 18(2): 697-707. [百度学术]
OVCHINNIKOV S, PARK H, KIM D, et al. Protein structure prediction using Rosetta in CASP12[J]. Proteins: Structure, Function, and Bioinformatics, 2018, 86: 113-121. [百度学术]
DONG X, ZHANG Y. Ab initio protein structure assembly using continuous structure fragments and optimized knowledge‐based force field[J]. Proteins: Structure, Function, and Bioinformatics, 2012, 80(7): 1715-1735. [百度学术]
XU D, ZHANG Y. Toward optimal fragment generations for ab initio protein structure assembly[J]. Proteins: Structure, Function, and Bioinformatics, 2013, 81(2): 229-239. [百度学术]
JONES D T. Predicting novel protein folds by using FRAGFOLD[J]. Proteins: Structure, Function, and Bioinformatics, 2001, 45(S5): 127-132. [百度学术]
CHENG J L, RANDALL A Z, SWEREDOSKI M J, et al. SCRATCH: A protein structure and structural feature prediction server[J]. Nucleic Acids Research, 2005, 33: 72-76. [百度学术]
LEE J, KIM S Y, JOO K, et al. Prediction of protein tertiary structure using PROFESY, a novel method based on fragment assembly and conformational space annealing[J]. Proteins: Structure Function & Bioinformatics, 2010, 56(4): 704-714. [百度学术]
STORN R. Differential evolution—A simple and efficient heuristic for global optimization over continuous space[J]. Journal of Global Optimization, 1997, 11(4): 341-359. [百度学术]
常珊, 陆旭峰, 王峰. 蛋白质-配体分子对接中构象搜索方法[J]. 数据采集与处理, 2018, 33(4): 586-594. [百度学术]
CHANG Shan, LU Xufeng, WANG Feng. Review of conformational searching method for protein-ligand molecular docking[J]. Journal of Data Acquisition and Processing, 2018, 33(4): 586-594. [百度学术]
GARZA-FABRE M, KANDATHIL S M, HANDL J, et al. Generating, maintaining, and exploiting diversity in a memetic algorithm for protein structure prediction[J]. Evolutionary Computation, 2016, 24(4): 577-607. [百度学术]
SIMONCINI D, BE RENGER F, SHRESTHA R, et al. A probabilistic fragment-based protein structure prediction algorithm[J]. PLoS ONE, 2012, 7(10): e38799. [百度学术]
DAVID S, ZHANG K, ZHANG Y. Efficient sampling in fragment-based protein structure prediction using an estimation of distribution algorithm[J]. PLoS ONE, 2013, 8(7): e68954. [百度学术]
OVCHINNIKOV S, PARK H, VARGHESE N, et al. Protein structure determination using metagenome sequence data[J]. Science, 2017, 355(6322): 294-298. [百度学术]
ZHANG G J, ZHOU X G, YU X F, et al. Enhancing protein conformational space sampling using distance profile-guided differential evolution[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2016, 14(6): 1288-1301. [百度学术]
ZHANG G J, WANG X Q, MA L F, et al. Two-stage distance feature-based optimization algorithm for de novo protein structure prediction[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020, 17(6): 2119-2130. [百度学术]
KOSCIOLEK T, JONES D T. De novo structure prediction of globular proteins aided by sequence variation-derived contacts[J]. PloS ONE, 2014, 9(3): e92197. [百度学术]
ZHANG G J, MA L F, WANG X Q, et al. Secondary structure and contact guided differential evolution for protein structure prediction[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2018, 17(3): 1068-1081. [百度学术]
PENG C X, ZHOU X G, ZHANG G J. De novo protein structure prediction by coupling contact with distance profile[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020. DOI: 10.1109/TCBB.2020. 3000758. [百度学术]
ZHAO K L, LIU J, ZHOU X G, et al. MMpred: A distance-assisted multimodal conformation sampling for de novo protein structure prediction[J]. Bioinformatics, 2021. DOI: 10.1093/bioniformatics/btab484. [百度学术]
XIA Y H, PENG C X, ZHOU X G, et al. A sequential niche multimodal conformation sampling algorithm for protein structure prediction[J]. Bioinformatics, 2020. DOI: 10.1093/bioinformatics/btab500. [百度学术]
ADHIKARI B, BHATTACHARYA D, CAO R, et al. CONFOLD: Residue‐residue contact‐guided ab initio protein folding[J]. Proteins: Structure, Function, and Bioinformatics, 2015, 83(8): 1436-1449. [百度学术]
XU J. Distance-based protein folding powered by deep learning[J]. Proceedings of the National Academy of Sciences, 2019, 116(34): 16856-16865. [百度学术]
GREENER J G, KANDATHIL S M, JONES D T. Deep learning extends de novo protein modelling coverage of genomes using iteratively predicted structural constraints[J]. Nature Communications, 2019, 10(1): 1-13. [百度学术]
SENIOR A W, EVANS R, JUMPER J, et al. Protein structure prediction using multiple deep neural networks in the 13th critical assessment of protein structure prediction(CASP13)[J]. Proteins: Structure, Function, and Bioinformatics, 2019, 87(12): 1141-1148. [百度学术]
YANG J, ANISHCHENKO I, PARK H, et al. Improved protein structure prediction using predicted interresidue orientations[J]. Proceedings of the National Academy of Sciences, 2020, 117(3): 1496-1503. [百度学术]
ROSE P W, BI C, BLUHM W F, et al. The RCSB protein data bank: New resources for research and education[J]. Nucleic Acids Research, 2013, 41: 475-482. [百度学术]
罗静初. UniProt蛋白质数据库简介[J]. 生物信息学, 2019, 17(3): 131-144. [百度学术]
LUO Jingchu. A brief introduction to UniProt[J]. Chinese Journal of Bioinformatics, 2019, 17(3): 131-144. [百度学术]
ZHANG Y, SKOLNICK J. Scoring function for automated assessment of protein structure template quality[J]. Proteins: Structure, Function, and Bioinformatics, 2004, 57(4): 702-710. [百度学术]
XU J, ZHANG Y. How significant is a protein structure similarity with TM-score=0.5[J]. Bioinformatics, 2010, 26(7): 889-895. [百度学术]