MaskMol:基于自监督学习的分子图像框架破解活性悬崖识别难题

AI快讯 2025-10-20
在药物研发领域,活性悬崖现象一直是困扰科学家的难题——两个分子结构高度相似,生物活性却天差地别。传统方法由于表征坍塌问题,难以精准识别这些微妙差异。 近日,湖南大学等研究团队在《BMC Biology》期刊上发表了突破性研究《MaskMol: knowledge-guided molecular image pre-training framework for activity cliffs with pixel masking》,提出了名为MaskMol的创新框架。这一基于自监督学习的分子图像预训练系统,通过知识引导的像素掩码策略,实现了对活性悬崖的精确评估。 **活性悬崖挑战与现有模型局限** 药物研发中普遍遵循"结构相似则性质相似"的原则,但活性悬崖恰恰打破了这一规律。如图1所示,仅一个原子的差异就可能导致分子活性从高效(红色)骤降至低效(绿色)。这种"结构相近、活性相远"的现象,正是传统模型难以逾越的障碍。 图2的对比分析揭示了问题根源:随着分子相似度增加,图神经网络模型的特征距离急剧缩小,导致表征坍塌;而分子图像的特征距离变化更为平缓,保留了关键的差异信息。 **MaskMol框架:知识驱动的智能学习** 活性悬崖通常源于分子层面的细微变化,如原子替换、键修饰或官能团调整。例如,苯环上的氢原子被氯原子取代,就可能显著改变分子与受体的结合能力。 MaskMol框架巧妙地将化学知识融入模型学习过程,其核心包含两大创新模块: 1. 三级知识引导的像素掩码策略:将分子SMILES转化为二维图像后,通过RDKit工具对原子、化学键和子结构进行分层标记,生成三个知识层次的掩码图像 2. 多层级预训练任务:训练Vision Transformer模型预测被掩码区域对应的化学知识,迫使模型深入理解分子结构的化学语义 **卓越的性能表现** 在活性悬崖估计和化合物效能预测任务中,MaskMol展现出卓越性能。与25种先进方法对比,MaskMol在10个不同数据集上均取得最低的RMSE值。特别是在骨架划分测试中,相比传统图像模型性能提升超过17%,显示出强大的泛化能力。 **深入的系统验证** 消融实验证实了框架各组件的重要性:移除任何预训练任务都会导致性能下降,其中子结构级任务影响最为显著。研究还发现,分子图像的最佳掩码比例为50%,这与传统文本或图像任务的设置截然不同。 **透明的决策机制** 通过特征空间分析发现,MaskMol学习到的表征能够清晰区分高、低活性分子,有效缓解了表征坍塌问题。注意力可视化显示,模型能精准聚焦于关键原子和子结构,而非分散关注无关区域。 **广阔的应用前景** 在前列腺癌治疗靶点EP4受体的虚拟筛选中,MaskMol不仅在内外部测试集上表现优异(R²分别达0.789和0.755),还成功识别出9个经实验验证的抑制剂候选物,包括Grapiprant、CJ-042794等知名化合物。 **未来展望** MaskMol研究开创性地解决了活性悬崖识别中的表征坍塌难题,为药物发现提供了新的技术路径。未来,通过多模态知识融合、3D构象建模等方向的拓展,这一框架有望在人工智能辅助药物研发中发挥更大价值。

想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/5bccc175-74b1-4288-aeb3-aaa721b438d1

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章