在大语言模型领域处处被OpenAI压一头的谷歌,还是凭借自己在AI生物学领域的优势成功抢得了一次头条。
北京时间5月8日晚,谷歌DeepMind和谷歌旗下药物发现子公司Isomorphic Labs联合发布了其生物学预测模型AlphaFold的最新版本——AlphaFold 3。这是在AlphaFold 2发布三年后,谷歌在AI生物学领域的又一次突破,相关成果已发表在Nature上。
与前代相比,AlphaFold 3不仅可以预测蛋白质的结构,还可以预测生物生命中几乎所有元素(DNA、RNA、配体等)的结构,并且可以准确预测蛋白质与其他分子的相互作用。与现有的预测方法相比,AlphaFold 3发现蛋白质与其他分子类型的相互作用至少提高了50%,对于一些重要的相互作用类别,如蛋白质与配体的结合以及抗体与其靶蛋白的结合等,预测准确率甚至提高了一倍。
DeepMind首席执行官德米什·哈萨比斯(Demis Hassabis)在新闻发布会上表示:“发布 AlphaFold 3 对我们来说是一个重要的里程碑,生物学是一个动态系统,你必须了解生物学特性是如何通过细胞中不同分子之间的相互作用而出现的。你可以将AlphaFold 3视为我们朝着这个目标迈出的第一步。”
Isomorphic Labs已经将该模型用于科研,并与制药公司合作,探索新的疾病治疗方法。
一、基于扩散模型解决分子预测泛化难题
DeepMind比OpenAI成立时间更早,但它没有像OpenAI一样在大语言模型领域越走越深,而是在蛋白质结构预测上大放异彩。
2018年,谷歌DeepMind推出了首个蛋白质结构预测模型AlphaFold,并在国际蛋白质结构预测竞赛中获得第一名。2020年,DeepMind发布了AlphaFold软件的第二个版本,AlphaFold 2整合了一个子网络系统到单一的可微模型中,应用Transformer来预测基于氨基酸序列的复杂3D结构。
在2020年的CASP14,AlphaFold 2脱颖而出,预测精确到原子精度,即使对于缺乏模板的蛋白质,它也能在几分钟内产生出色的结果。
2021年,DeepMind发布了AlphaFold蛋白质结构数据库,与欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)合作创建,为全球研究人员提供了数百万预测的蛋白质结构。
如今,全球已有数百万研究人员将AlphaFold 2应用在疟疾疫苗、癌症治疗和酶设计等领域。AlphaFold已被引用超过20000次,其科学影响力通过许多奖项得到了认可,其中最近的一个是生命科学突破奖(Breakthrough Prize in Life Sciences Awarded),之后发布的AlphaFold-Multimer则推动了对蛋白质-蛋白质复合物的预测。
AlphaFold 3解决了一个生物分子预测悬而未决的难题——由于不同分子类型的特异性相互作用差异太大,难以通过扩大单一深度学习模型来预测所有复合物范围。
AlphaFold 3在AlphaFold 2的基础上更进一步,采用了AI绘画的常见技术——去噪扩散模型(DDPM,Denoising Diffusion Probabiblistic Model)。
想象一下,这个模型像是一位艺术家,从一团模糊的原子“泥浆”开始,一步步雕琢,最后呈现出了清晰的分子结构,连每个原子的三维位置都能精准给出。于是,AlphaFold 3预测分子之间相互作用的本事,比现在所有的工具都要厉害。
比如,在一个案例里,AlphaFold 3预测了一个蛋白质(我们可以想象成蓝色的积木)和DNA双螺旋(粉红色的梯子)如何紧密拥抱,而且这个预测几乎和科学家辛苦实验发现的真实样子一模一样。
7R6R - DNA 结合蛋白:AlphaFold 3 对分子复合物的预测,其特征是蛋白质(蓝色)与 DNA 双螺旋(粉色)结合,与通过艰苦实验发现的真实分子结构(灰色)近乎完美匹配。
AlphaFold 3的工作方式很简单,你给它一份分子名单,它就能画出这些分子怎么拼在一起的立体图像。不管是蛋白质、DNA还是RNA这样的大块头,还是药物小分子这样的小配件,它都能搞定。要知道,很多药物就是通过这些小分子和特定大分子的“握手”(指相互作用)来治病的。
不仅如此,AlphaFold 3还能模拟这些分子的化学修饰(就像开关,控制着细胞的健康功能),这些细胞一旦受到破坏就会导致疾病。研究团队表示,其预测准确度无人能敌,而且作为全能选手,它能一次性计算出整个分子团队的行动策略,这是前所未有的科学洞察力。
也正是得益于AlphaFold 3的这种能力,其在“药物发现”中作用巨大,实现了前所未有的准确性,包括蛋白质与配体的结合以及抗体与其靶蛋白的结合。
论文显示,在无需输入任何结构信息的情况下,AlphaFold 3比PoseBusters基准测试中最好的传统方法准确率高50%,这使得AlphaFold 3成为第一个超越基于物理的生物分子结构预测工具的人工智能系统。
预测“抗体-蛋白质”结合的能力,对于理解人类免疫反应的各个方面和新抗体的设计至关重要,这是一种不断增长的治疗方法。哥伦比亚大学系统生物学助理教授Mohammed AlQuraishi表示, “AlphaFold 2只了解氨基酸,因此它对于生物制药的效用非常有限。”他说,“但现在,AlphaFold 3原则上可以预测药物与蛋白质结合的位置。”
AlQuraishi表示,尽管在某些方面,AlphaFold 3的成功率是RoseTTAFold等类似领先模型的两倍,已经是AI在生物学研究领域的一个巨大的飞跃,但它也不是完全没有缺点,比如蛋白质-RNA相互作用上,它仍然非常不准确。
对此,DeepMind回应称,在建模的交互过程中,AlphaFold 3的预测准确度可以从40%提高到80%以上;同时在回答一些基础性的科研问题时(比如“哪些酶可能分解水瓶中的塑料”等),AlphaFold 3比其他模型靠谱得多。
目前,DeepMind旗下的Isomorphic Labs正在使用AlphaFold 3来加速药物设计,将其应用在疾病靶点靠近、新靶点发现等项目上。
免费赋能科学家,但尚未发布源代码
在推出AlphaFold 3的同时,Google DeepMind也基于AlphaFold 3推出了一个免费平台——AlphaFold Server,供全世界的科学家进行非商业性研究,预测蛋白质如何与细胞中的其他分子相互作用。
只需点击几下,科学家就可以利用AlphaFold 3为由蛋白质、DNA、RNA以及选择的配体、离子和化学修饰组成的结构进行建模。
对此,Francis Crick研究所Uhlmann实验室的研究科学家Céline Bouchoux评价道:“AlphaFold 3一经发布,有可能像AlphaFold一样具有开创性。有了AlphaFold Server,其不再仅仅是预测结构,而是慷慨地提供访问权限:允许研究人员提出大胆的问题,并加速发现。”
然而,Nature报道指出,科学家对AlphaFold 3服务器的访问是有限的,目前每天只能进行10次预测,而且不可能获得可能与药物结合的蛋白质结构,也不能将其用于商业用途。同时,DeepMind似乎也没有发布AlphaFold 3的开源代码,而是只发布了AlphaFold 2的开源代码。
对此,有Narure论文的审稿人在X平台上呼吁,应该尽快发布AlphaFold 3的开源代码,以促进更广泛的科学研究:“我们已经用AlphaFold 2代码制作了大约10万个模型,如果不发布AlphaFold 3的代码,我们怎么能用AlphaFold Server处理这些研究数据呢?”
AI制药商业化提速
尽管对于外界的科学家提供了访问限制,但是对于自家“亲兄弟”Isomorphic Labs,DeepMind却给予了广泛的权限——不仅拥有无限制的访问次数,Isomorphic Labs的研究人员还拥有对AlphaFold 3商业用途的独家访问权限。
2021年AlphaFold数据库推出后,谷歌积极为其寻找商业化途径,在同年成立了Isomorhpic Labs子公司,旨在运用AI尤其是机器学习的方法、从第一性原理重构药物发现过程,通过建立新的生物现象预测和生成模型,最终找到一些人类最具破坏性疾病的治疗方法。
如果说DeepMind的工作主要聚焦基础研究,那么Isomorphic就专注于更具体的药物发现。
在2023年9月Endpoints News的专访中,Demis Hassabis表示,AlphaFold只是整个药物发现过程的一小部分,AlphaFold不会做ADME(药代动力学和药理学中吸收、分布、代谢和排泄的英文首字母缩写,描述了药物化合物在生物体内处置的动态变化)属性之类的事情。言外之意是,这些事情都由Isomorphic Labs来做。
Isomorphic Labs的诞生,代表了从AI模型到AI制药工业的落地。它预示着“AI制药”真正从实验室走向了产业,为人类研发出真正有效的创新药提供了更多的可能。
创立以来,Isomorphic Labs也相当争气,与DeepMind密切配合,取得了不少成果:
2023年9月19日,Science杂志的封面文章发表了DeepMind和Isomorphic团队在AlphaFold的基础上改进衍生的错义变异致病性预测模型AlphaMissense。AlphaMissense总共分析了7100个可能的错义,其中的89%进行了分类,其中有32%可能是疾病的,另外57%则可能是良性的;
两天后的9月21日,被誉为诺奖风向标的“2023拉斯克奖”,颁给了DeepMind的首席执行官Demis Hassabis博士,和John Jumper博士,代表了主流科学界的认可;
2023年10月,Google DeepMind联合Isomorphic Labs共同发布了新一代AlphaFold模型,它可以预测蛋白质数据库(PDB)中几乎任何分子的结构,通常具有原子精度,包括配体(小分子)、蛋白质、核酸(DNA 和 RNA)以及含有翻译后修饰(PTM)的生物分子;
2024年1月,Isomorphic Labs宣布与礼来(Eli lilly)和诺华(Novartis)达成药物研发外包合作,通过人工智能方式针对多个靶点开发小分子疗法,交易价值达30亿美元,这是lsomorphic Labs首次建立制药合作关系。
目前,关于Isomorphic自身药物项目的细节仍处于保密状态,但Isomorphic已将大约20个靶点的清单缩短到几个,并且正在利用CRO来制造和测试潜在的化合物。
近些年来,“AI+医药”成为热门赛道。在国外,以英伟达为代表,不仅有CEO黄仁勋在公共场合力推、投入重金布局(2023年有10家AI制药企业获得英伟达的投资),更是在2023年推出BioNeMo云服务、在2024年推出新的医疗保健项目GenAI和聚焦医疗场景的25个微服务(Nim);在国内,阿里、百度、腾讯等互联网巨头也纷纷成立了医疗AI部门,虽然目前尚无明确数据显示其将直接参与制药环节,但毫无疑问的是,科技巨头们正在试图用AI为制药打开无限的想象空间。
然而,近两年AI制药行业也出现了一些泡沫,降本增效的故事开始被质疑,临床阶段的药物也面临着有效性不足的难题。
对此,Demis Hassabis在Endpoints News的专访中似乎做出了回应:“如果我们是正确的并且能够实现另外六个AlphaFold级别的突破,我们可以将药物研发所需的时间减少一个数量级,也许是成本和时间,并且在下一阶段获得更高的成功率。”
本文来自微信公众号:甲子光年 (ID:jazzyear),作者:王艺,编辑:赵健