bioRxiv｜微软研究院推出蛋白质平衡态构象生成的大模型

2025-07-29 15:11:11

bioRxiv｜微软研究院推出蛋白质平衡态构象生成的大模型 2024年9月5日，微软研究院科学智能中心的Frank oe团队在bioRxiv发布了预印本文章：Scalable emulation of protein equilibrium ensembles with generative deep learning。该工作推出了一个蛋白质平衡态构象生成的大模型。在蛋白质序列和结构的革命性突破

bioRxiv｜微软研究院推出蛋白质平衡态构象生成的大模型

2024年9月5日，微软研究院科学智能中心的Frank oe团队在bioRxiv发布了预印本文章：Scalable emulation of protein equilibrium ensembles with generative deep learning。该工作推出了一个蛋白质平衡态构象生成的大模型。

在蛋白质序列和结构的革命性突破之后，如何可靠且高效地确定其功能仍然是一个未完全解决的问题。具体而言，包括以下几个方面：i. 不同的结构（“构象”）；ii. 与其他分子结合的不同配置；iii. 在特定温度、pH 值下的概率和速率。

虽然可以通过分子动力学（MD）模拟或实验测量来预测（i-iii），但是这些方法并不具备良好的扩展性。例如，对两个小蛋白质解离过程进行直接模拟的计算代价极高。这就是著名的采样问题，一个已经存在了70年的挑战。

该工作推出了大模型Biomolecular Emulator（BioEmu），其基于AlphaFold的evoformer蛋白质序列表示，并利用扩散模型从平衡态集合中采样三维结构。通过这些样本，可计算相关状态和概率，从而深入揭示分子机制。

一个主要的挑战是，与蛋白质结构预测（如PDB、CASP）不同，蛋白质的平衡态采样缺乏高质量的训练集或测试集，甚至几乎没有相关的基准数据集。解决这一问题也是该工作的关键任务之一。

该工作结合了不同数据集的优势，同时尽量克服其局限性。首先在处理过的AlphaFoldDB上进行预训练，以促进多样结构的采样。随后，在大量处理后的分子动力学（MD）模拟数据和实验蛋白质稳定性数据上进行微调。

对于该大模型的第一个测试，是其能否定性采样到与功能相关的不同结构。文章定义了一个包含约100种蛋白质的基准数据集，分为三类构象变化：

类别1：结构域运动Domain motion。若采样结构与参考结构的RMSD小于Å，则视为成功。成功率约为80%。

类别2：局部解折叠Local unfolding。蛋白质的一部分解折叠或脱离，以与其他分子相互作用或者暴露结合位点。模型需要能够预测不同结构部位的相对稳定性，从而采样到正确的结构。成功率为70%-80%。

类别：隐性口袋Cryptic pocket。配体结合位点在apo（无配体）状态下不可见，但可以通过局部变化或大规模重排生成，平均成功率约为70%。值得注意的是，对于有配体（holo）态的生成显著优于apo态，这一点仍有改进空间。

该研究还进行了若干个定量评估，探讨模型是否能够准确采样到蛋白质的平衡态结构。

DESRES fast folders。将模型仅在11个来自D.E. Shaw快速折叠蛋白的数据上进行微调，并在第12个蛋白上测试。结果显示，模型在自由能景观、采样结构和二级结构含量方面与真实情况高度一致，误差小于1 kcal。

BioEmu的推理成本显著低于分子动力学（MD）模拟：在单块GPU上，推理时间仅需数分钟到数小时，而传统MD模拟通常需要数年的GPU计算时间。误差范围与不同MD力场之间的差异相当。如果能够在全蛋白质组范围内保持类似的预测质量，这一效率将为该领域带来革命性变化。

大规模测试集CATH上的进一步验证。该研究模拟了1100个CATH结构域（蛋白质结构的基本组成单元），对每个结构域进行了长达100微秒的分子动力学（MD）模拟。在完整训练集上进行训练，并在收敛性最好的系统上测试。结果显示，自由能分布与真实情况在定性上高度一致，预测的三维结构和二级结构也具有良好的一致性。

关于训练集大小的趋势表明，更多的训练数据带来更高的预测精度。团队使用了仅在CATH数据上训练的模型来研究这个趋势，发现随着训练数据的增加，误差持续降低，预测的构象种类也在增加。经过完整训练的BioEmu模型，其预测误差已降至1 kcal/mol以下。

一项零样本(zero-shot)预测展示了BioEmu的强大能力：对于像Complexin II这样的大型本征无序蛋白（Intrinsically Disordered Proteins），这是MD模拟中极难采样的场景。不同的MD力场往往会得出不同结果，而未经过IDP专门训练的BioEmu预测结果看起来合理，与实验证据一致，同时预测速度极快。

为了解决无结构实验数据的微调问题，该工作还开发了一种名为属性预测微调（PPFT）的高效方法。PPFT能够对扩散模型或流匹配模型进行微调，基于分布中可计算的量实现对实验数据的有效利用。

模型利用PPFT方法对Rocklin实验室202年发表的MEGAscale高通量蛋白质稳定性数据集进行微调。通过直接统计BioEmu生成的结构集合中折叠态与解折叠态的分布，模型实现了预测误差小于0.8 kcal/mol，相关性超过0.65，与现有的黑箱方法相比表现良好。

模型还进行了合理性检验：1. 采样高稳定性蛋白质：验证结果显示，这些蛋白质保持了折叠状态。2. 采样低稳定性蛋白质（IDPs）：尽管未经过无折叠IDP数据的专门训练，结果显示这些蛋白质保持解折叠状态。实验还发现，回转半径与实验数据具有相关性，尽管数值上略有高估。

由于BioEmu大模型通过采样结构集合来预测属性，其输出可像分子动力学（MD）模拟一样用于分析，揭示结构与属性之间的相关性。例如，可以用于研究某些突变如何通过特定机制导致蛋白质折叠不稳定化。

该工作由微软研究院科学智能中心的9位研究员担任共同一作，Frank oe为通讯作者。

论文链接：

.1101/2024.12.05.626885v1

本文参与腾讯云自媒体同步曝光计划，分享自。原始发表：2024-12-19，如有侵权请联系 cloudcommunity@tencent 删除工作集合模型数据测试

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1240664.html

本站网友最近热门话题	4分钟前发表
首先在处理过的AlphaFoldDB上进行预训练
本站网友厦门妇科医院	10分钟前发表
发现随着训练数据的增加
本站网友百度影音老版本	5分钟前发表
从而深入揭示分子机制
本站网友 304医院官网	7分钟前发表
若采样结构与参考结构的RMSD小于Å
本站网友中融信托公司	24分钟前发表
并利用扩散模型从平衡态集合中采样三维结构
本站网友兴业网上银行登录	11分钟前发表
2. 采样低稳定性蛋白质（IDPs）：尽管未经过无折叠IDP数据的专门训练
本站网友为了即将到来的时刻	3分钟前发表
解决这一问题也是该工作的关键任务之一
本站网友万网域名证书查询	14分钟前发表
误差小于1 kcal
本站网友广汽本田汽车	25分钟前发表
这一效率将为该领域带来革命性变化
本站网友鬼入侵	12分钟前发表
并利用扩散模型从平衡态集合中采样三维结构
本站网友千古诗才蓬莱文章建安骨	17分钟前发表
与现有的黑箱方法相比表现良好
本站网友世茂首府	27分钟前发表
DESRES fast folders
本站网友昆山整容医院	3分钟前发表
基于分布中可计算的量实现对实验数据的有效利用
本站网友 grd	13分钟前发表
并利用扩散模型从平衡态集合中采样三维结构
本站网友中国光大银行网上银行	6分钟前发表
一项零样本(zero-shot)预测展示了BioEmu的强大能力：对于像Complexin II这样的大型本征无序蛋白（Intrinsically Disordered Proteins）
本站网友双流二手房	3分钟前发表
为了解决无结构实验数据的微调问题

bioRxiv｜微软研究院推出蛋白质平衡态构象生成的大模型

bioRxiv｜微软研究院推出蛋白质平衡态构象生成的大模型

《C++智驱：人工智能数据噪声的精准识别与过滤之道》

GBase 数据库在企业大数据仓库中的应用与优化

CAN 转 PN 网关连接 can 设备的配置路径与方法解读

WPS怎么创建迷来自你图