本文来自微信公众号:硅谷101 (ID:TheValley101),作者:泓君,文字:肖阳,原文标题:《“ChatGPT们”改变新药研发,高质量数据哪里来?|AIGC特辑》,题图来自:《阿凡达:水之道》


95 年前,细菌学家亚历山大·弗莱明在偶然中发现了青霉素,可谓是人类医药史上最重大的发现之一。虽然生命科学过去一百年已经有了很大的进步,但一定程度上还是在黑暗当中摸索,是靠盲筛或者是偶然的机缘。


最近几十年,有了 X 光、冷冻电镜、基因测序技术,它们正在一步步变成科学家手里越来越强大的工具。AlphaFold 预测蛋白质结构,打通了从序列到结构到功能的全链条;当进入到生成式AI的时代,科学家们能够在一个近乎无穷大的、广阔的蛋白质序列和结构的空间里面,去创造一些之前并不存在的蛋白。


一家初创公司 Profluent,用类似 ChatGPT 的蛋白质工程深度学习语言模型 Progen,首次实现了 AI 预测蛋白质的合成,研究成果已经于 1 月 26 日发表于《自然》杂志子刊。研究人员称,这项新技术会变得比定向进化(获得诺贝尔奖的蛋白质设计技术)更加强大。


ChatGPT 火出了圈,但这只是 OpenAI 推出的一个具体应用。不管是对话机器人 ChatGPT 背后这套基于大语言模型的技术,还是文字生成图片 DALL·E2 这类的扩散模型技术,正在帮助黑暗中探索的结构生物学,带来根本性的改变。而高质量的数据,是一切发生的前提


本期节目,《硅谷101》邀请到了水木未来 CEO 郭春龙 Allen,来聊一聊类似于 ChatGPT 的这类生成式AI,如何改变整个药物研发行业。以下是部分访谈精选:


一、从 AlphaFold2 到生成式 AI,数据积累是关键


《硅谷101》:很多人都在讨论 ChatGPT 在应用端可以做什么事情,今天我们从生物科技的角度在聊一聊它是如何跟生物医药领域的公司结合起来的?对公司的改变大吗?


郭春龙:2015 年开始我跟王宏伟教授(清华大学生命学院院长)便开始探讨规划当时的未来,今天我们已经在创造未来,将生命系统跟AI计算结合,但生命科学在各个学科和行业中是相对比较晚发展数字化的。我们从建立第一天就拥有全球最大的冷冻电镜(Cryo-EM)平台为客户提供结构生物学的服务,结构生物学用电镜去解析生物大分子结构就可以当成是碳基生命或生物世界一个数字化的过程,相当于 carbon based world 和 silicon based world 的接口。


集成电路的出现使得学科发展的规律由线性变为指数的增长。AlphaFold 的出现让生命科学行业觉得AI能够在一定程度准确地预测蛋白质结构,但离设计和生成还有点远,支持 ChatGPT 技术的这类生成式AI带来的影响,会改变整个生命科学的面貌。


《硅谷101》:它会怎么改变?对公司以及生命科学的实际帮助是什么?


郭春龙:对以电镜和结构生物学为核心的企业来讲,至少是两方面:一是 ChatGPT 未来要进一步能够在生命科学,尤其是要把结构数据利用得更好,基础条件是有高质量的实验数据,而电镜提供了训练下一代的生成式生物的基础和训练数据;二是有了数据,在新一代的生成式 AI 基础上,我们真的可以生成之前自然界完全不存在的新的蛋白,不止是蛋白,还包括其他的一些核酸生物大分子。


我们将AI或数字化计算在生命科学里的应用分成至少两个阶段:一是怎么利用这种计算或AI的手段帮助我们更好的理解自然界已有的蛋白结构,AlphaFold2 便是利用之前积累了几十年X光为主的结构生物学数据作为训练数据取得大的突破,它能够比较准确的预测出给定序列可能长成什么样子;二是进入生成式AI的时代,科学家可以根据功能、结构需求在近乎无穷大、广阔的蛋白质序列和结构的空间里去创造之前并不存在的新蛋白或核酸生物大分子。


生成式AI出来以前,大家最关心的事情是怎么利用这种计算或者 AI 的手段,帮我们更好地理解自然界已有的这些蛋白它们的结构。AlphaFold2 是你给它一个基因测序,它能够帮你比较准确地预测它可能会长成什么样子。AlphaFold2 在过去两年时间有一个大的突破,恰恰是之前是积累了几十年的 X 光为主的结构生物学的数据。有了这些训练数据,AlphaFold2 可以在之前 X 光比较擅长的领域,这种比较小的、中小型的单链蛋白,做得相当的准确,因为之前积累的数据都是围绕着这种比较小的中小型单链蛋白的结构的数据。


这个是上一段 AI 在生命科学里面的一个重点的应用,用这种预测的方式,来预测我们已知的这些基因序列的蛋白它会长成什么样子。


之后,进入到生成式AI的时代,科学家或者是生物医药公司能够在一个近乎无穷大的、广阔的蛋白质序列和结构的空间里面,去创造一些之前并不存在的蛋白。举个例子,我可以给 AI 说一句话,说帮我生成一个能够和 GPR75(一个很重要的肥胖症的靶点)相互结合的蛋白质或者是多肽。从功能和结构方面,我们提一个简单的需求AI,它就可以输出一堆,比如 78 个生物大分子。


当然最后我们还要去验证。验证的阶段仍然还是需要电镜去解决,最后提供生物和结构的验证。


《硅谷101》:你刚刚提到了针对肥胖症的一种靶点,在你们现在现实的工作中,你们已经会拿类似于ChatGPT这类生成式AI的模型去生成,还是它只是一种理想?我问这个问题的初衷是,我想知道它现在在生物领域的表现怎么样,因为对于这种大语言模型来说,它能够生成什么样的东西,取决于大家给它灌了什么样质量的数据,当你给它一个靶点,有一个需求,现有的数据量或者智能程度,是不是已经到了真的能输出有用的结果的地步了?


郭春龙:非常好的问题,应该说还没有准备好。生命科学,尤其是当我们谈到的是生物大分子的一些结构功能数据的时候,因为我们还是需要对数据做标签,这是 ChatGPT 能够突飞猛进发展的一个前提条件。但在生命科学领域里面,加标签的成本要高很多。你给一段话加上个标签,成本最多 1 分钟甚至几秒钟的事。但是你要希望给一个蛋白质的序列加上标签,往往需要大量的实验,包括电镜的收数据、解数据,它的成本要高很多。


《硅谷101》:优质的生物结构数据从哪里获取呢?AlphaFold 对蛋白质结构的预测是否能变成一种新的数据源?


郭春龙:好问题。一方面,我们有 PDB(Protein Data Bank,存储蛋白质、核酸和其他生物分子三维结构数据的国际性数据库)这样公开的数据库使得 AlphaFold2 得到很好训练,这是一个前提条件,但不能够很好地为生成式 AI 提供一个训练数据,因为 PDB 里面积累的数据主要是简单的蛋白和小分子复合物的结构,对于我们提到的目标和问题能贡献的有限。


生成式AI要面临的挑战和机会在于对 PPI(蛋白之间的相互作用)的数据集。我们预期需要由新一代的结构生物学平台去生成,或是像诺和诺德 、辉瑞这类大公司能够公开已有的实验室结构蛋白及一些基础的数据库,全世界的科学家联合起来搭建这样的公开数据库,这是我想 ChatGPT 时代在未来最重要的一个机会和挑战。


二、生成式AI在生物领域的两大流派


《硅谷101》:这一轮基于开放式大模型诞生了很多创业公司,比如做类似蛋白质语言生成的Profluent通过生成式AI的语言模型,创造了一个新型抗菌蛋白并验证后可以在实验室里面杀死细菌。这就是蛋白质语言模型创建出来的蛋白。除了这家公司以外,还有一些2015 年创建的公司,比如Generate Biomedicines;还有一个叫做 Huma.ai,他们跟 OpenAI 联合发布了一个叫做Life Science的平台。这些做应用层的公司,它的核心竞争力到底是什么?


郭春龙:GPT 和一众类似的底层的模型,打开了在各行各业,包括在生命科学创新药研发领域的一些应用的机会。


这些公司如果真正想建立壁垒,一方面取决于他们能够自己生成数据的能力,这是最根本的挑战和机会;另一方面在数据之上能不能很好地和生成式算法相互结合。


你刚刚提到的几家公司,比如 Profluent,它事实上就是一个典型的 ChatGPT 这样的基于Transformer 的模型。另外一家在波士顿的公司叫 Generate Biomedicines,它和Profluent不太一样,它是基于另外一个生成模型,叫做扩散型模型。扩散模型主要是基于文本生成图像,它可以生成蛋白质的骨架,但是没有办法给出精确的蛋白质氨基酸序列,反过来Profluent能够提供这样的序列,但它并不能够精准地提供蛋白质的结构。下一阶段的探索便是结合这两种模型从功能和结构上能直接生成一个全新的蛋白质的问题。


三、生命科学与新药研发


《硅谷101》:生成式AI跟生物的结合,它是在解决哪个环节的问题?


郭春龙:生命科学最关键的应用场景或终极目标是治病,解决人类或者生物界在疾病、衰老方面的终极问题。近点说是能够治愈癌症,这是到目前为止人类最大的生命威胁挑战,长点说是能够一定程度上战胜衰老。


过去这 100 多年的时间,生命科学取得了已经非常巨大的进步。从早年的青霉素的发现,衍生了一批抗生素,我们都还是一定程度上在黑暗当中摸索,是靠盲筛或者是偶然的机缘。青霉素是一个非常非常偶然的因素才发现的。这样的方法也好,场景也好,是广泛地存在于生命科学和生物医药的科研当中。一个底层的原因就是我们之前并不掌握一些今天具备的先进技术手段。


从 X 光到今天的冷冻电镜,它可以能够让科学家,在分子甚至原子层面清晰的看到生物大分子它的结构,从结构来推到功能,有这样的一个大的背景。


回到 AI 的话题, AI 最初的时候是作为一种技术手段来帮助科学家更好地理解已知的蛋白质的结构。测序的技术要早一段时间发展,到目前为止已经比较成熟了,我们很容易能拿到自然界当中存在的,包括人体内的这种蛋白或者生物大分子的序列信息。但是结构的信息在很长时间内都困扰着科学界。


我们在两边,通过测序的方法了解蛋白质或生物大分子的氨基酸序列,在另一端,功能方面,通过传统生化方法或看病知道它的功能,但在中间结构环节是一直断的。可是在两年前的时候,AlphaFold 2把序列到结构的链接建立起来了,这是它取得突破全世界欢呼的一个主要原因。


但是它的意义也只限于对于已知的这些蛋白,我开始能够从序列预测它的结构。还有一个更重要的问题就是我们要去治疗某一个疾病,针对某一个靶点,要找到一个能够和靶点相互结合的,实现某种功能的一个新的分子。新的分子,最大概率它可能真的不是自然界已知的序列或者蛋白。


做一个小分子药需要在 10 的 50 次方这样的空间中,找到最合适的小分子,这本身已经是个很大的挑战,而生物药的空间比 10 的 50 次方还要提升很多的数量级。传统方法来设计生物药,显然没有可能去穷尽这些空间的可能性,但是有了生成式 AI,为科学界和生物医药界提供了更强大的工具来探索。之前对人类而言,基本上是一片黑暗的、近乎无穷大的可能性。生物药的广阔的空间给它提供一个基本的需求,它会给你输出很有可能满足你需求的一个全新的蛋白质,一个抗体,甚至是一段核酸。


《硅谷101》:整个过程听起来非常非常的震撼。简单来说,它其实是在我们治药或者治病的第一步,就是研究发现药物。发现的这一步,很重要。


郭春龙:大家对于生物医药可能最熟悉的场景还是医院,或者是吃的这个药,但事实上,这个药进到病人口中之前的话,往往需要很多年的摸索。在过去这 100 多年的尝试当中,研发新药的方法,基本都是靠盲筛。


举个例子,我们的某个疾病,它是因为某个分子产生问题了,我们称这个分子为疾病的靶点。我要去设计一个分子,可以是小分子,也可以是大分子,和靶点相互结合。就像设计一把钥匙去开一把锁,以前我的方法就是我有一个库,这个库里面可能会有 11 个小分子,我就把 11 个小分子挨个试一遍,最终有可能找到,也有可能这 11 个小分子里面没有一个能开着挖锁,这就是原来方法的问题。


现在我用最新的手段实验方法,传统的是 X 光,新一代的是通过电镜去精确的测量,观测到锁长的是什么样子,它的锁眼是什么样的结构,我就可以去设计一个小分子或者是抗体序列来去和它很好的结合。


这就是一把钥匙开把锁,如果能够找到的这把钥匙,它副作用又小,功能又强,这就是一个最好的药。以前我们吃的很多的药未必是最好的,它或者是有很多的副作用,或者是它的功能没有那么强。技术手段的价值在于,第一,找到一个钥匙,第二,这个钥匙比以前的钥匙还要更好一些。


《硅谷101》:你觉得有了生成式 AI,它可以帮科学家节省多少的时间?


郭春龙:几乎是很难去量化评估,最关键的是有些靶点没有新的技术手段,你可能 100 年之后还找不到合适的分子。我很难用一个平均能节省多少时间这个词来概括,对于这样的一个人类面临的终极问题的解决手段带来多少的好处。它打开了一些全新的可能性。


《硅谷101》:一款药物诞生的七个步骤:一是研究发现科学家要找到一种新的治疗方法,这个是基于大家对生物学、药理学的研究;二是药物开发,当他有了方法以后,他要去开发药物,包括合成化合物,对其进行筛选和评估;三是有一些基本评估药物的有效性、安全性。前面基本上都是在研究阶段的;四是它就会进入到动物实验;五是临床试验;六是药物通过药物批准;七是进入到这些药厂的销售渠道,市场推广。我们刚刚讲的包括你们做的应该在最早的药物发现环节。


郭春龙:是的,药物发现环节至关重要,因为之后对于它进行的独理、药代,包括临床的123期,分子已经确定了只是不断地去深化了解它的功能和它的副作用。如果早期分子选的不对,你会发现后期的研发,尤其是进入临床,有太多的项目死在临床的一期,二期甚至三期,最终花的钱越来越多,甚至血本无归,重新回到原点来去找新的分子。所以早期阶段分子的发现如果能覆盖更大更广的空间,则会有更大的成功概率,对于后期验证至关重要。


四、源头创新太难,大药企为何创新乏力


《硅谷101》:商业上解析一下整个生物制药的产业链条中,一款药成本最高的是哪些环节?包括做药物发现,谁会给药物发现买单?


郭春龙:纽约有一家叫 Schrodinger 的公司,30 年专注于将计算机模拟和 AI 技术应用于药物研发的生物 AI 技术,许多大的药企、创业公司基本都离不开它提供的工具。而它意识到如果只提供工具,并无法向市场证明工具多有用,因为生物医药整个研发周期长达几年甚至十几年。它投资 Nimbus 就是希望向全球展示公司除了提供工具之外,它还能用它的工具真正意义上推动完全基于计算和结构的药物研发。在去年 12 月份正式宣告 Nimbus 的一款药以 60 亿美元卖给了武田制药。


在整个药物研发过程中最关键的一个环节,是早期分子的确定。对于一个全新的靶点,最难的地方也是怎么能够找到一个分子能够和它结合。找到这样的靶点是后续所有开发的基础,后期在分子基础之上做进一步的优化,越往下游花钱越多,尤其是临床试验。早期阶段并不是花钱最多的,但它一定程度上是最难的。它的难不在于你不掌握这些资源,而在于它是一个更接近于科学探索的属性。所以很多的药企,它把这阶段的工作,一方面仰仗大量外部的公司,另外一方面来源于大学科研所。


《硅谷101》:这也可能也回答了为什么像辉瑞这样的公司在20多年时间股价处于低迷期,在伟哥之后少有爆款药物,反而很多爆款药物都是靠收购而来的。因为要去做新药的发现太难了。这样来看,辉瑞更像是一个投资公司、销售渠道和药物审批公司,这就是大药厂为什么创新越来越乏力的原因?


郭春龙:没错,大药企经过一两百年的发展,他意识到源头创新是件很难的事情,之前无论是辉瑞、默沙东都曾经栽在一些损失超 10 亿美元的大项目上。经过这几十年的发展,大家形成了一个合作共赢的模式、一个生态系统。


大药企最关注的是它的渠道和资本,它对于管线创新和后期研发的管理,更像是资产管理;源头创新领域仰仗大量像波士顿、湾区和圣地亚哥区域涌现出来的小型团队,美国又三四个区域不停涌现出来这张小型的生物科技公司的团队,失败概率非常高。


资金端,有大量围绕生命科学的专项基金,它的很多LP都是来自于这些大药企。当创业公司发展到一定阶段的时候,或者是在临床一二三期的时候来接盘,等它到了下游的时候再收购到大的药企里面来。这是大药企在整个生态系统里,扮演的一个非常关键的角色。它既是早期源头创新资金的提供者,也是生物医药公司阶段性成果之后进一步接盘的。


大药企通过这些基金在很早期参与投资高风险的初创企业,初创企业只要提供它的源头发现和核心技术就够了,也就是研究发现分子结构,其它的不需要操心。等公司发展在一定阶段的时候再作为接盘收到药企里面来,药企负责后续的审批监管、销售渠道。


《硅谷101》:你觉得身处其中,这次 AI 大爆发是一次非常大的机会吗?


郭春龙:非常大。对任何一个行业里面关注源头创新,关注数字化的变革的企业来讲,这都是一个巨大的机会。类似于如果你做无线互联网,出了一个iPhone;如果你关心的是信息产业,二十几年前在硅谷的时候,互联网的大爆发。这几轮技术和市场的突破,都是因为某个产品真正引爆的需求,让大家看到了这世界原来可以这样子。


我们发源于清华的科研,在结构生物学和电镜方面有最好的技术跟平台基础。我们意识到生成式 AI 会改变整个的生物医药产业。而 AI 最关键的还是要有数据的支持,如果没有数据,AI 它就是个空壳


再往下怎么能够让 AI 在结构产出数据过程去提升效率,是在 AI 方面投入的重点,而后续我们也会尝试做应用层的一些事情,这个就好比任何一个做零售的公司,当互联网到来的时候,如果你不去做电商,都会被远远甩在时代的脚步后面一样。


本文来自微信公众号:硅谷101 (ID:TheValley101),作者:泓君,文字:肖阳