去年9月,科学突破奖基金会将2021年生命科学突破奖授予华盛顿大学西雅图分校的大卫·贝克(David Baker)教授,以表彰其在蛋白质设计领域方面的开创性贡献。贝克研发了一项新技术,能够设计出在自然界中从未见过的蛋白,包括一些对人类疾病具有干预性治疗潜力的新型蛋白。
遗憾的是,因全球新冠疫情肆虐,颁奖仪式被迫拖延以至取消。为了让更多人了解到这一新兴研究领域,返朴联系到曾在大卫·贝克实验室开展博士后研究,现就职于西湖大学生命科学学院的卢培龙研究员,请他为这次获奖的蛋白质设计研究进行解读。
本文来自微信公众号:返朴(ID:fanpu2019),受访人:卢培龙 (西湖大学特聘研究员),采访人:苏尚(美国托莱多大学博士后),头图来自:视觉中国
返朴:突破颁奖词中提到,新蛋白有希望为人类疾病提供新的治疗方案。为什么这么说?
卢培龙:新蛋白设计对疾病治疗干预方面的意义是非常重大的。
我的同事曹龙兴研究员现在可以从头设计迷你蛋白(mini-protein),这种小蛋白可以特异性地结合到你想要针对的蛋白靶点上去,并且结合到特定的位置。这样,我们就有办法精准地调控靶点蛋白的生理功能。
我们知道,刺突蛋白(spike protein)是新冠病毒用来感染人体细胞的重要蛋白。大卫实验室发表了pM级新冠病毒刺突蛋白结合蛋白(spike protein binder)[1],把刺突蛋白结合受体的部位用迷你蛋白阻断掉,就可以阻止病毒的进一步感染,起到治疗作用(图1)。
另外一个例子是白细胞介素类似物的设计。如,白细胞介素2(Interleukin 2,IL2)目前在临床上有很多应用,可以抗肿瘤,但是有很强的副作用。这是由于IL2的受体有α、β和γ三个亚基。三个亚基同时结合,就会有比较强的副作用。如果仅仅结合其中两个(β和γ),则可以有比较好的抗肿瘤作用,同时极大降低副作用。
大卫在2019年的时候发表了一篇非常重要的文章[3],设计出IL2的类似物,可以不与α亚基相互作用,同时高亲和力结合β和γ亚基,可以起到非常好的抗肿瘤作用还没有副作用。
本来,IL2本身不容易表达纯化,稳定性很差,但大卫的分子是经过设计的,是全新的骨架,非常稳定,甚至在开水里煮一煮还是很稳定,并保持活性;而且生物安全性也很好,打到动物体内不会产生免疫反应。
相比于现在各种各样的抗体药物,迷你蛋白有着独到的优势:
迷你蛋白可以通过设计,精准结合到靶点蛋白特定的活性位置。
整个设计开发流程非常迅速,以刚刚提到的新冠病毒抑制蛋白为例,从设计到拿到最终抑制蛋白仅仅花了数月时间,并且随着计算方法的改进,整个过程甚至可以在一两个星期内完成。未来要应对其它未知疫情暴发,药物研发速度是至关重要的。
迷你蛋白分子量小,效价高,容易生产,成本低。
最为特别的是,迷你蛋白结构具有非常高的热稳定性,方便储存与运输。这可以说是前所未有的突破。
当然,除了发挥类似于抗体的功能,人工设计的蛋白还可以行使其他各种各样的功能。
返朴:除了干预治疗之外,蛋白质设计还可以有哪些应用场景?比如新材料?有没有一些已经成功应用的例子?
卢培龙:当然有些新的材料。
我们设计的材料可以是一维的、二维的,也可以是三维的。一维的,叫纤维(fiber),可以设计成比较长的,也可以是一种或两种组分,自己组装成纤维。二维的,可以自我组装成比较大型的二维阵列(array),类似平面结构,延展比较长。它可以有其他用途,如用来展示分子作为免疫原。
因为蛋白质可以很方便地调控,可以在平面上把两种蛋白进一步连上各种各样的其他蛋白,形成二维的网络形状;更可以研究对生物体的作用,如是否介导免疫反应或起到支架(scaffold)作用,或把酶放在上面形成级联反应(cascade)。当然也有三维的蛋白质晶体等等。
利用某些蛋白质在空间上的排列特性,我们还可以让蛋白组装成空心笼子的形状,我们把这种结构或材料称为蛋白笼(protein cage)。笼子中间可以包装DNA和RNA,可以做蛋白分选(cargo sorting),或者把药物分子包裹在里面(图3左),称为蛋白笼形结构(protein cage)。实际上,病毒就可以看成是一种天然的蛋白笼子,蛋白构成外壳,里面圈着核酸(图3右)。
可以想象到的任何材料,理论上都可以用蛋白来做。而且用蛋白这种生物大分子制造的材料,有时会比常规材料特性更优,比如生物兼容性好、易于通过化学修饰改变其特性等。
自然界已经存在的一些生物材料已经展现出了比传统材料更好的性质,比如蜘蛛丝的单位抗拉强度比钢都要强,人工设计的蛋白质材料将会在材料科学领域扮演越来越重要的角色。
大卫的实验室也在设计一些稳定的多肽(peptide),这些多肽可以结合金属离子进行配位,形成有机金属框架(OMF,organic metal framework)。这样相当于把蛋白这种有机物和离子无机物结合到一起,可以形成比较稳定的框架结构,具有一些独特的性质。
2019年的时候,大卫他们设计了一种平面状的蛋白,可以平铺在无机盐表面,比如碳酸钙表面上,构成一个有机-无机界面。这就像蚌壳——蚌壳和肌肉纤维紧密相互作用,形成了无机分子和有机分子的界面——蚌可以收缩肌肉拉动蚌壳,用生命的有机的东西拉动无机的分子材料。所以设计出这种蛋白是很有意义的[2]。
返朴:有机-无机界面有哪些应用呢?
卢培龙:比如有些细菌可以感知地磁引力,产生了独特的物质(结构)磁小体——一种可控生长的结构小体。这种磁小体是无机物和有机物共存的结构。当然细菌是怎么调控磁小体生长的,我们还了解得不够清楚,但肯定是有一些特殊蛋白质和有机分子参与。
那么可以想见,如果我们找到了无机-有机相互作用的密码,就可以破解无机材料的生长规律,也同样有希望利用这类密码或规律去控制磁小体的生长,在其他生物中实现磁力的感知。
另外,在生物材料领域,比如人工骨骼,需要有蛋白分子贴到无机的骨质材料上。如果能够破解有机分子结合到骨骼上的密码,将来可能会有应用,因为有机物和无机物相互作用是非常基础但又非常重要的体系。
返朴:我们人工设计的蛋白是自然界没有的蛋白,人吃下去可以消化吗?
卢培龙:这个要分情况。如果蛋白特别稳定,人体的消化酶可能处理不了。之前大卫设计过一种“世界上最稳定的蛋白 ”,它比现在已知的蛋白都稳定得多。在6Mol/L的盐酸胍里95℃去煮(编者注:这两个条件代表了能破坏蛋白活性的极端pH和高温条件)都不会变性,所以在胃酸环境下它可能也不会变性。
返朴:大卫在设计这个超级稳定蛋白的时候,是参考了极端生存环境下的微生物蛋白吗?
卢培龙:事实上,他参考的是整个蛋白质的折叠规律。极端微生物体内蛋白是比较稳定,堆积非常好,这是通过自然界的筛选压力实现的。通过我们的设计,不需要进化,就可以得到超级稳定的蛋白。
返朴:听上去这种设计像变魔术一样,那么它的基本流程是怎样的?
卢培龙:真的是和变魔术一样,之前Science 杂志评论大卫就是蛋白质世界中的魔术师。像DNA折纸(DNA origami),其实是利用了简单的碱基互补配对(base pairing)的规律,可以形成各种各样的结构,比如笑脸、方块,甚至可以形成DNA折纸纳米机器人。其实,蛋白之间的相互作用比DNA的要复杂,而且蛋白有20种基本氨基酸作为结构单元(building block),所以可以实现各种各样的功能(编者注:DNA的结构单元是4种碱基:A、T、C、G)。
蛋白设计的基本流程是:先定义一个三维结构。这种三维机构不一定是在自然界中出现的。然后你可以找到一些氨基酸的排列组合,让蛋白质序列折叠形成这样的结构。这种折叠过程,肯定是需要符合生物化学或生物物理的规律。
返朴:基于目前从氨基酸序列到蛋白质空间折叠的已知规律。
卢培龙:对,从一级序列(注:指氨基酸序列)到二级结构的预测还是很成熟的。从二级结构到三级结构会稍复杂。最近人工智能同蛋白质共进化信息(co-evolution data)的结合,使蛋白质三维结构的预测也取得了很大的突破。
但是整体来讲,蛋白质设计是另外一个层面。
定义三维结构之后,需要找到能够折叠形成这种结构的一级氨基酸序列。找到后,还需要在计算机程序里验证,看这个序列是否能够折叠形成我们想要的结构。这是在计算机水平上的一层验证。之后还需要实验验证:把蛋白表达出来,进行结构测定,看它是否真的折叠成了我们想要的结构,是否具有我们想要的功能。大致流程如此,即:定义三维结构→找到一级序列→多重手段验证(计算机程序验证 + 实验验证(结构测定、功能测定))。
返朴:那么从三维结构去找序列,是要从已知蛋白结构里去找,还是这一步就已经可以广泛地预测了?
卢培龙:这一步其实是通过计算机模拟计算,利用大规模取样筛选更多的序列组合来找到最优的解。这样会有两个问题:一是取样问题,即怎样去找到更优或最优的组合;第二呢,需要有个打分评价系统,找到组合后打分评估这个序列是不是最适合。
返朴:大卫实验室开发的这一套蛋白质设计程序,有一些媒体称之为“万能程序”,能不能介绍一下它神奇在哪?
卢培龙:也不能简单这样说,其实我们利用的是蛋白折叠的基本规律,而蛋白质本身就是万能的。想象一下,虚拟世界是0和1的排列组合产生任意信息。DNA则是ATCG四个碱基编码生命世界,RNA也类似(AUCG)。蛋白靠20种氨基酸来编码,20相比2或4来说,丰富性就进一步增强,而且蛋白质设计可以用3000多个甚至更长的氨基酸。
即便我们考虑一个有40个氨基酸的蛋白,2040也是一个不可思议的天文数字!整个编码的序列空间非常大,因此设计出的蛋白质理论上可以完成任意功能。所以并不是说我们这个方法或程序是万能的,而是我们利用这个方法,遵循生物物理和生物化学规律来设计出来的蛋白质,具有特定的结构,对应各种各样的功能。理论上来讲,蛋白质的功能可以是万能的。这样说应该更确切。
返朴:我们知道氨基酸是蛋白质的基本单元,那么蛋白质设计时,是对现有氨基酸的重新组合,还是会引入一些非天然的氨基酸来实现目的?在氨基酸“原料”的选择上,有哪些你们已经发现的“窍门”?
卢培龙:我们的确正在使用非天然氨基酸。现在大卫在设计环状多肽(cyclic peptide),这些多肽在合成时并不受自然界氨基酸的限制,可以使用非天然氨基酸。也可以使用皮特·舒茨(注:Peter Schultz,美国著名化学家,开展大量利用非天然氨基酸合成蛋白质的研究)的方法,通过改造氨酰tRNA合成酶,在生物体合成蛋白质的过程中引入非天然氨基酸。
返朴:你们把非天然氨基酸引入蛋白质中,可以为天然蛋白质赋予新的特性,那么这类“非天然”蛋白在折叠规律上和“纯天然”蛋白质有什么异同?
卢培龙:这类蛋白的已知结构并不多。大卫研究组设计环状多肽不太受氨基酸侧链的限制,可以在环状的侧链上进行很多改造,引入多种非天然氨基酸。我们最近有一篇文章刚被接受,我们设计了一个非天然氨基酸基团,这个基团可以特异性地结合到HDAC(编者注:组蛋白去乙酰化酶,是一类重要的染色体结构修饰酶,也是药物靶点)的催化活性位点上。
相当于你有一个桩子(stub),这个桩子可作为药物的前体,继续延伸,延伸出来的多肽可以提供更好的选择特异性,因为多肽可以和蛋白其他地方形成相互作用,进一步提升结合的特异性。加了非天然氨基酸之后,可以实现原来无法实现的功能,这是引入非天然氨基酸的比较好的地方。我们实验室也在做相关的工作,这个领域也是非常让人兴奋。
返朴:前面我们提到最近大卫课题组在Science上发表了pM级别的新冠病毒小蛋白抑制剂设计研究,在疫情肆虐的当下,非常鼓舞人心。对于这类可能在人体内应用的新蛋白,你们怎样看待它的生物安全性?是否有办法在动物实验之前,就预测免疫系统对它的响应?
卢培龙:后续的动物实验证明这个新蛋白是安全的,我们猜测这可能是因为它比较稳定,免疫系统处理不了它。现在已经在做临床一期试验。
降低新蛋白的免疫反应有两个途径:一是增加蛋白稳定性,二是减少蛋白免疫原性。过去有一些研究是预测蛋白抗原性(编者注:即免疫原性,指蛋白序列被免疫系统识别为外来抗原的可能性)的,统计免疫系统喜欢识别什么样的蛋白序列,那么我们在设计过程中就避免使用到这些序列。
其实设计新蛋白主要考虑的还是免疫系统对它的识别或干预,至于其他的安全性问题,比如脱靶,一般不用太顾虑,因为我们设计的这些蛋白应该都是非常特异地结合到靶点的,也会通过实验来验证的。
返朴:您刚提到了白细胞介素2(IL2)的例子,这些迷你蛋白相比制药界青睐的小分子化合物,优势在哪里呢?
卢培龙:小分子的优势是分子质量小,可以穿透细胞膜,但也有很明显的劣势:因为它小,往往会非特异地结合到了靶点之外的东西,导致药物有很强的副作用。而蛋白——比如抗体——的特异性很强,就没有这方面的副作用。
但抗体很难获取,要用很复杂的表达纯化手段,需要花很大力气去筛选结合到活性位点的抗体。另外,抗体个头太大,很难透过细胞膜。
迷你蛋白或多肽药物就可能兼具两者的优势。迷你蛋白介于小分子和抗体两者之间,很容易制造,非常稳定,有很高的亲合力,又因为和靶点的相互作用面积很大,具有很好的特异性。
返朴:药物成形需要量产,那么这些设计的新蛋白是否有量产的障碍?
卢培龙:肯定比抗体的生产要容易。这些蛋白折叠完美,可以在大肠杆菌或者其他表达系统中高效表达,或是通过化学合成。普遍来讲这不是问题。
返朴:迷你蛋白有没有尺度上的定义?比如用氨基酸数量去定义?
卢培龙:现在一般认为迷你蛋白包含的氨基酸最少有40个,在100个以下。因为形成一个折叠类型需要一定数量的氨基酸。20个氨基酸就很难,而40多个就有可能。小于40个氨基酸长度的,叫多肽更合适。
返朴:我们知道你主导过膜蛋白设计的研究工作。现在生物医学领域里,都有哪些种类的蛋白质是蛋白质设计科学家的目标?有没有哪些重大问题,是你们蛋白质设计领域想攻克,但没有头绪的?
卢培龙:凡是有需求的都可以设计。比如说,我们实验室正在做纳米孔蛋白,纳米孔测序(第三代基因测序技术)对纳米孔要求很高,我们会把这个作为研究方向。对于其他的,在生物医学领域里有任何的需求,可以通过蛋白质设计完成的,应用空间是很广的。实现任意的功能,是我们的梦想,当然挑战也很大。比如我们想精确设计一个具有非常高活性的酶,就还是很难的。
坦率来讲,我们现在已经能设计一个完美折叠的蛋白;更高一层的,从头设计蛋白-蛋白相互作用,龙兴和大卫把这个问题也解决了。但是设计活性蛋白,比如催化酶促反应或进行小分子跨膜转运的蛋白,因为需要结构的动态变化,并不是静态的结构,对设计者来说是非常大的挑战。
大卫之前有过设计酶的活位点的工作,一开始的设计活性还是比较低,需要通过定向进化来优化蛋白。能不能不依赖于定向进化,在完全理解催化机理和结构的动态变化前提下,通过从头设计,直接得到高活性的蛋白,这是一个很大的挑战。
返朴:之前大卫实验室有过一篇利用蛋白质设计实现活性开关的文章,你觉得这种“开关”类的模型会是未来蛋白质设计的方向吗?
卢培龙:那个其实是简单地利用竞争性结合,并不是我们说动态变化时所说的刚体移动(rigid body movement)或变构(conformational change)。那篇文章其实是说,先有一个多肽肽段以非常弱的亲合力结合在靶点这里,等到真正的具有高亲合力多肽来了,就可以通过竞争“挤”掉之前的肽段多肽,把它暴露出来。所以更倾向于是个竞争性结合,而不是传统意义上的变构(conformational change),而且也很难预测被释放出来的多肽的结构,它理论上应该是比较灵活(flexible)的。
而我们想做的是可以精准调控蛋白的几种状态,比如酶有结合前状态、结合的中间态状态和催化反应之后的状态。对转运蛋白(transporter)来讲,也有朝外(outward-facing)、闭合(occluded)和朝内(inward-facing)三种构象。非常复杂,也非常有意义。
返朴:从已有工作看,你们是在利用自然界的现有法则,来赋予蛋白新的功能。可否认为这些蛋白或功能本来就是存在的,只是没有被发现?
卢培龙:这个很难证明,因为地球历史很长,有几十亿年。是否出现过某种蛋白,没有证据。但是可以从现存蛋白质进行推测。当然也有可能它存在过,在进化中被淘汰掉了。
估计自然界中出现的蛋白质数目是1012,但是这么多蛋白质的折叠(fold)类型大概只有1400多种,所以可以想象,大自然其实在蛋白质序列空间里取样(sampling)只取了非常少的一部分。因为序列空间是接近无限的,在几十亿年的时间尺度下,大自然也很难做到对整个空间进行完全彻底的取样。
返朴:此次大卫作为蛋白质设计领域研究者获得突破奖,蛋白质从头设计也属于合成生物学。据你了解,这一研究方向在产业界近年来有哪些进展?
卢培龙:蛋白质从头设计的确是纯粹的合成生物学,因为我们在设计从来不存在的东西。这一方向在产业界也有非常多的进展,尤其在生物医学领域。大卫实验室和其他几个实验室衍生出一些公司,包括几个类型:
一类是做蛋白质设计的公司,由于这个技术掌握起来比较困难,所以有专门的人在做,如果产业界有些需求又没办法做,可以交给公司。
第二个类型,设计新的蛋白有全新的功能,可以有专利,再由专利衍生出公司。刚才讲过的白细胞介素2就是一个很好的例子:大卫的文章2019年年初发表,专利很快衍生出一个公司,被收购后当年中期就上市了。又比如说在蛋白笼形结构上展示一些抗原分子,这样就可以做多价类疫苗,比如RSV(呼吸道合胞病毒,婴儿易感染)疫苗,也有相应的转化。
再比如,欧美国家很多人对麸质(gluten)过敏,麸质是一类多肽,人体内没有降解它的酶,在过敏人群中会引发很严重的免疫反应。大卫实验室基于天然酶开发了一款全新设计的酶,它在酸性环境下才会激活。
原有酶不能识别麸质的位点,他们设计之后的酶就可以识别麸质上的位点,可以快速高效降解麸质。所以可以想象,你在吃食物的同时吃下这个酶,这个酶非常稳定,又可以降解麸质,降低免疫反应。他们现在也进行了转化在做临床试验。所以可以想象,新蛋白有很多应用场景。
还有大卫最近发表的蛋白质逻辑门(protein logic gate)操作[4],在细胞表面进行计算,可以应用到CAR-T疗法上,根据目的细胞表面抗原的不同组合,可以有不同的激活状态。这些逻辑门可以组合,形成更复杂的线路,而且是在蛋白质水平,应用前景很好,已经成立了相关的公司。
我的同事陈子博研究员就在做这个方面的研究。只有想不到,没有做不到,合成生物学可以实现非常酷的功能,包括我们研究的纳米孔,未来也有希望应用到纳米孔测序中。
返朴:现在的纳米孔是不够稳定,还是有其他问题?
卢培龙:纳米孔现在精确度不够。现在用的纳米孔是从天然纳米孔改造来的,结构被限制,结构上不能有太多的改动,改得太多就可能不够稳定或无法折叠。计算设计或者从头设计可以帮助人们设计新型的纳米孔结构,并提高现有的测序精度。
返朴:回过头说这个从头的设计和筛选,周期一般多久呢?我们先不考虑迭代优化的时间。
卢培龙:你就看新冠病毒抑制剂这个例子,在半年之内应该就做完了。所以这个方法是一个非常大的突破,也非常让人振奋。而且随着计算方法的改进,这个周期会变得越来越短。
参考资料
[1] Cao, L., et al., De novo design of picomolar SARS-CoV-2 miniprotein inhibitors. Science, 2020.
[2] Pyles, H., et al., Controlling protein assembly on inorganic crystals through designed protein interfaces. Nature, 2019. 571(7764): p. 251-256.
[3] Silva, D.A., et al., De novo design of potent and selective mimics of IL-2 and IL-15. Nature, 2019. 565(7738): p. 186-191.
[4] Chen, Z., et al., De novo design of protein logic gates. Science, 2020. 368(6486): p. 78-84.
本文来自微信公众号:返朴(ID:fanpu2019),作者:苏尚