bioRxiv|微软研究院推出蛋白质平衡态构象生成的大模型
bioRxiv|微软研究院推出蛋白质平衡态构象生成的大模型
2024年9月5日,微软研究院科学智能中心的Frank oe团队在bioRxiv发布了预印本文章:Scalable emulation of protein equilibrium ensembles with generative deep learning。该工作推出了一个蛋白质平衡态构象生成的大模型。
在蛋白质序列和结构的革命性突破之后,如何可靠且高效地确定其功能仍然是一个未完全解决的问题。具体而言,包括以下几个方面:i. 不同的结构(“构象”);ii. 与其他分子结合的不同配置;iii. 在特定温度、pH 值下的概率和速率。
虽然可以通过分子动力学(MD)模拟或实验测量来预测(i-iii),但是这些方法并不具备良好的扩展性。例如,对两个小蛋白质解离过程进行直接模拟的计算代价极高。这就是著名的采样问题,一个已经存在了70年的挑战。
该工作推出了大模型Biomolecular Emulator(BioEmu),其基于AlphaFold的evoformer蛋白质序列表示,并利用扩散模型从平衡态集合中采样三维结构。通过这些样本,可计算相关状态和概率,从而深入揭示分子机制。
一个主要的挑战是,与蛋白质结构预测(如PDB、CASP)不同,蛋白质的平衡态采样缺乏高质量的训练集或测试集,甚至几乎没有相关的基准数据集。解决这一问题也是该工作的关键任务之一。
该工作结合了不同数据集的优势,同时尽量克服其局限性。首先在处理过的AlphaFoldDB上进行预训练,以促进多样结构的采样。随后,在大量处理后的分子动力学(MD)模拟数据和实验蛋白质稳定性数据上进行微调。
对于该大模型的第一个测试,是其能否定性采样到与功能相关的不同结构。文章定义了一个包含约100种蛋白质的基准数据集,分为三类构象变化:
类别1:结构域运动Domain motion。若采样结构与参考结构的RMSD小于Å,则视为成功。成功率约为80%。
类别2:局部解折叠Local unfolding。蛋白质的一部分解折叠或脱离,以与其他分子相互作用或者暴露结合位点。模型需要能够预测不同结构部位的相对稳定性,从而采样到正确的结构。成功率为70%-80%。
类别:隐性口袋Cryptic pocket。配体结合位点在apo(无配体)状态下不可见,但可以通过局部变化或大规模重排生成,平均成功率约为70%。值得注意的是,对于有配体(holo)态的生成显著优于apo态,这一点仍有改进空间。
该研究还进行了若干个定量评估,探讨模型是否能够准确采样到蛋白质的平衡态结构。
DESRES fast folders。将模型仅在11个来自D.E. Shaw快速折叠蛋白的数据上进行微调,并在第12个蛋白上测试。结果显示,模型在自由能景观、采样结构和二级结构含量方面与真实情况高度一致,误差小于1 kcal。
BioEmu的推理成本显著低于分子动力学(MD)模拟:在单块GPU上,推理时间仅需数分钟到数小时,而传统MD模拟通常需要数年的GPU计算时间。误差范围与不同MD力场之间的差异相当。如果能够在全蛋白质组范围内保持类似的预测质量,这一效率将为该领域带来革命性变化。
大规模测试集CATH上的进一步验证。该研究模拟了1100个CATH结构域(蛋白质结构的基本组成单元),对每个结构域进行了长达100微秒的分子动力学(MD)模拟。在完整训练集上进行训练,并在收敛性最好的系统上测试。结果显示,自由能分布与真实情况在定性上高度一致,预测的三维结构和二级结构也具有良好的一致性。
关于训练集大小的趋势表明,更多的训练数据带来更高的预测精度。团队使用了仅在CATH数据上训练的模型来研究这个趋势,发现随着训练数据的增加,误差持续降低,预测的构象种类也在增加。经过完整训练的BioEmu模型,其预测误差已降至1 kcal/mol以下。
一项零样本(zero-shot)预测展示了BioEmu的强大能力:对于像Complexin II这样的大型本征无序蛋白(Intrinsically Disordered Proteins),这是MD模拟中极难采样的场景。不同的MD力场往往会得出不同结果,而未经过IDP专门训练的BioEmu预测结果看起来合理,与实验证据一致,同时预测速度极快。
为了解决无结构实验数据的微调问题,该工作还开发了一种名为属性预测微调(PPFT)的高效方法。PPFT能够对扩散模型或流匹配模型进行微调,基于分布中可计算的量实现对实验数据的有效利用。
模型利用PPFT方法对Rocklin实验室202年发表的MEGAscale高通量蛋白质稳定性数据集进行微调。通过直接统计BioEmu生成的结构集合中折叠态与解折叠态的分布,模型实现了预测误差小于0.8 kcal/mol,相关性超过0.65,与现有的黑箱方法相比表现良好。
模型还进行了合理性检验:1. 采样高稳定性蛋白质:验证结果显示,这些蛋白质保持了折叠状态。2. 采样低稳定性蛋白质(IDPs):尽管未经过无折叠IDP数据的专门训练,结果显示这些蛋白质保持解折叠状态。实验还发现,回转半径与实验数据具有相关性,尽管数值上略有高估。
由于BioEmu大模型通过采样结构集合来预测属性,其输出可像分子动力学(MD)模拟一样用于分析,揭示结构与属性之间的相关性。例如,可以用于研究某些突变如何通过特定机制导致蛋白质折叠不稳定化。
该工作由微软研究院科学智能中心的9位研究员担任共同一作,Frank oe为通讯作者。
论文链接:
.1101/2024.12.05.626885v1
本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2024-12-19,如有侵权请联系 cloudcommunity@tencent 删除工作集合模型数据测试#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 17 条评论) |
本站网友 最近热门话题 | 4分钟前 发表 |
首先在处理过的AlphaFoldDB上进行预训练 | |
本站网友 厦门妇科医院 | 10分钟前 发表 |
发现随着训练数据的增加 | |
本站网友 百度影音老版本 | 5分钟前 发表 |
从而深入揭示分子机制 | |
本站网友 304医院官网 | 7分钟前 发表 |
若采样结构与参考结构的RMSD小于Å | |
本站网友 中融信托公司 | 24分钟前 发表 |
并利用扩散模型从平衡态集合中采样三维结构 | |
本站网友 兴业网上银行登录 | 11分钟前 发表 |
2. 采样低稳定性蛋白质(IDPs):尽管未经过无折叠IDP数据的专门训练 | |
本站网友 为了即将到来的时刻 | 3分钟前 发表 |
解决这一问题也是该工作的关键任务之一 | |
本站网友 万网域名证书查询 | 14分钟前 发表 |
误差小于1 kcal | |
本站网友 广汽本田汽车 | 25分钟前 发表 |
这一效率将为该领域带来革命性变化 | |
本站网友 鬼入侵 | 12分钟前 发表 |
并利用扩散模型从平衡态集合中采样三维结构 | |
本站网友 千古诗才蓬莱文章建安骨 | 17分钟前 发表 |
与现有的黑箱方法相比表现良好 | |
本站网友 世茂首府 | 27分钟前 发表 |
DESRES fast folders | |
本站网友 昆山整容医院 | 3分钟前 发表 |
基于分布中可计算的量实现对实验数据的有效利用 | |
本站网友 grd | 13分钟前 发表 |
并利用扩散模型从平衡态集合中采样三维结构 | |
本站网友 中国光大银行网上银行 | 6分钟前 发表 |
一项零样本(zero-shot)预测展示了BioEmu的强大能力:对于像Complexin II这样的大型本征无序蛋白(Intrinsically Disordered Proteins) | |
本站网友 双流二手房 | 3分钟前 发表 |
为了解决无结构实验数据的微调问题 |