Nature Machine Intelligence | 望石智慧3D分子生成模型v2.0发布

发布时间: 2024-01-19
 浏览次数: 10
分子生成是AI助力小分子新药研发的核心技术,理想能力的生成模型可以带来早期研发流程的重塑,并撬动巨大的商业价值。截至目前,业内依然没有达到工业标准使用的模型。
望石从成立起即始终专注于分子生成技术的开发。2024年1月15日,望石的研究团队在期刊《Nature Machine Intelligence》发表了题为《Generation of 3D molecules in pockets via a language model》的研究论文,并随文上线了学术版服务 (https://sw3dmg.stonewise.cn)。这是望石智慧第三代分子生成模型,也是3D分子生成模型的v2.0版本 (Lingo3DMol)。模型在分子生成关键指标——信息不泄漏情况下的已报道活性分子的复现、分子-口袋结合打分,以及分子构象方面均有优异表现。 
2020年底,针对ligand-based场景,望石智慧发布了首代以骨架跃迁和衍生为主的2D生成模型(成果 | JCIM: AIScaffold基于深度学习的在线骨架衍生工具,该模型在生成分子的新颖性上有出色表现,帮助多家国内外药企在BIC项目上完成了专利的突破和项目进度的赶超。2022年,望石研究团队在pocket-based场景中,首次提出了基于实验电子密度的3D分子生成技术JCIM封面文章|望石原创研究成果助力AIDD行业突破数据困境Scientific Reports | 望石理论体系延伸,助力创新小分子药物设计)并发布3D分子生成模型v1.0,模型v1.0优化了传统表征下pocked-based 生成模型中口袋和生成分子的形状互补以及相互作用,加速了多个FIC项目的研发,自发表以来已经为全球51个研究机构提供了支持。
望石研究团队在模型v1.0的基础上继续迭代,推出了本次发表的v2.0版本(Lingo3DMol),望石3D分子生成模型v1.0和v2.0使用不同的模态对分子、口袋、分子间相关作用进行表征,同时,不同于业内常规基于Graph Neural Network建模用于3D生成,Lingo3DMol采用了Language Model结合Geometric Deep Learning技术进行建模,是望石多模态分子生成大模型的基础
针对AI分子生成面临的类药性、结合模式、分子构象等多约束同时存在的挑战, 望石研究团队提出了Lingo3DMol,用于在给定口袋3D结构的情况下生成小分子配体的3D结构。模型的主体架构如图1所示。该模型有三个主要特点:1. 研究者引入了大规模的类药分子的力场级别低能态3D结构进行预训练,使得模型更倾向于生成构象相对合理的分子;2. 研究者设置了两个解码器,先根据口袋条件预测下一个元素类型,再预测能够确定分子构象的内坐标,然后以口袋和内坐标作为条件,预测分子在口袋中的绝对位置,这样的设计降低了预测任务的难度,使之能够适配fine-tune数据集较小的场景;3. 研究者在传统的SMILES分子表征的基础上,开发了FSMILES,通过“a. 引入片段间分隔符;b. 片段间以深度优先的原则遍历;c.把环的大小编码到环原子上”, 在保持表达能力不变的情况下最大程度的压缩了表达方式,同时使得片段中的相关原子可以携带其所在环的整体信息,这降低了自回归生成过程的难度。
图1. Lingo3DMol分子生成模型架构
Lingo3DMol生成分子的表现在DUD-E的101个靶点上进行了测试。测试主要在活性分子复现,分子-口袋结合打分,以及分子构象三个方面展开。其中,分子-口袋结合打分是对分子-口袋结合模式的评价,主要通过min-in-place GlideSP score指标进行衡量;分子构象合理性主要通过r.m.s.d. versus low-energy conformer 指标进行衡量;对已知口袋的中报道的活性分子的复现比例,是对相关方法是否有能力生成活性分子的评价,主要通过ECFP_TS>0.5指标进行衡量。如图2所示,Lingo3DMol在基础指标(生成分子中的类药分子比例),以及上述三个主要指标上,与对照方法相比,均有优异表现。
图2 Lingo3DMol与对标模型在测试集上的表现
望石智慧会继续专注于AI分子生成模型的研发,目前公司内部已有更新版本的多模态分子生成大模型,期待能与更多学术界及工业界同仁合作,共同促进更快、更好的新药研发。
论文链接:https://www.nature.com/articles/s42256-023-00775-6
  • toolbar
    返回顶部