ChatGPT会改变生物医疗吗？ - 葱头胖友圈

出品丨虎嗅科技组

作者丨苏北佛楼蜜

编辑丨陈伊凡

题图丨视觉中国

2022年12 月，两名计算生物学家Casey Greene和Milton Pividori开创了一项不同寻常的实验：他们请一名非科学家的助手帮助他们改进三篇研究论文。在一份生物学手稿中，助手甚至在引用方程式时发现了一个错误，审稿顺利完成且费用适中，每份文件不到0.50美元。

这名助手并非人类，而是一种名为GPT-3的人工智能算法。

“这将帮助我们提高研究人员的工作效率。” 科学家对此感到震惊。

如今，基于这一通用大模型算法诞生的产品ChatGPT，一经推出，就引发了现象级关注。一时间，全球科技巨头竞相宣布其将会把ChatGPT引入自己的业务。人们或惊叹狂欢，或居安思危，ChatGPT所承载的意义似乎就快超越它本身。在百花齐放的应用场景中，生物技术领域能如何搭上ChatGPT的快车？

ChatGPT与生物技术的结合

2020年，人工智能公司OpenAI发布的一款模型，自发布初就被大肆宣传为生成式AI聊天机器人式工具，无论是创作散文、诗歌、计算机代码，还是编辑研究论文，似乎无所不能。

昨日，微软（Microsoft）公司表示，将把ChatGPT整合到搜索引擎Bing和网络浏览器中，谷歌（Google）公司也在今日展示了其名为Bard的人工智能对话系统。这些系统可以根据用户提供的复杂问题，提供全面而综合的回答，小到制定详细的旅行计划，大到分析公司的运营策略。

ChatGPT在生物技术上最有前景的应用似乎是在蛋白质生成和基因测序领域。

总部位于加利福尼亚的生物技术公司Profluent使用类似于ChatGPT的AI模型，创造了新型抗菌蛋白，并且已经证明它们能够在实验室中杀死细菌。

这一模型名称为ProGen，是一种大型语言模型 (LLM)，它利用大量文本作为训练数据，开发分析和生成语言的能力——类似于ChatGPT，但 Progen的语言是蛋白质语言。

简单来说，就是使用 AI 和大型语言模型，例如为 ChatGPT 提供支持的语言模型，来学习生物学的基本语言，并设计具有治愈疾病潜力的新蛋白质。

目前，ProGen生成了一百万种不同的人工序列，研究人员从中挑选了 100种在实验室中合成，其中66种产生了类似于鸡蛋清溶菌酶的化学反应，用作阳性对照。

该团队随后选择了五种新型抗菌蛋白，并测试了它们对大肠杆菌的抵抗力。其中两种新蛋白质能够杀死细菌。

同时，X射线成像显示，尽管这些抗菌蛋白的氨基酸序列与任何已知的天然蛋白相差超过30%，但它们仍然折叠成与”天然表亲们”几乎相同的形状。

这项研究可能意味着，未来我们能通过与AI合作，创造本不属于自然界的蛋白质，并将这些蛋白质赋予不同的功能，人类成为了微观世界里的上帝。

攻克蛋白质后，ChatGPT似乎又开始朝着基因高歌猛进。

科技公司Nvidia在今年的JP摩根医疗健康大会称，随着新一代基因组测序速度的不断加快和成本的不断降低，目前我们测序基因组DNA的能力已经超越了分析DNA序列并从中获取洞见的能力。而更快速有效地处理海量的基因组序列信息离不开人工智能。

大型语言模型通过可以分析人类语言一样分析DNA序列，以此加快基因组的拼接、基因突变的发现，并且用人类对话的方式将发现表述给研究人员。

比如，整合ChatGPT的基因测序分析系统可能在处理患者的基因组测序数据后给出——“这名患者的某基因上的突变可能导致罕见遗传病A”的结论，它似乎代替了医生。

ChatGPT是万能的吗？

一切的发现和应用似乎都朝着好的方向前进。但面对似乎全能的工具，随之而来的是人类的反思和“批判”。它是万能的吗？

部分看客也跟着给出了自己的答案：不是。

首先，我们开始思考翻译和替代的准确率？

比如，目前大型语言系统的缺陷在于“提供信息的真实度有待提高”。由于ChatGPT基于对已有语言数据的学习提供回答，它的回答也受到数据库中不真实、有偏见、或者过时知识的影响。

这可能意味着对于专业性强的话题，如果大型语言系统没有经过足够专业数据的训练，很可能提供错误的回答。对于不了解专业知识的普通人来说，无法侦辨虚实。

此外，由于海量的数据训练是保证ChatGPT的基础，因此在数据的输入过程中，可能存在历史偏见等遗留问题，种族、性别、文化、年龄歧视等不良因素都会隐匿在其中。想要人工剔除是十分困难的事情，如何防止ChatGPT根据这些数据输出有害言论是需要解决的另一个挑战。

在Nature上发表的最新评论中，有研究人员指出，建立使用ChatGPT的规范和法规至关重要，才能确保这一技术被正当、透明、公平的使用。

开发者比评论人更清楚这其中隐藏的问题。去年9月，Google子公司DeepMind发表了一篇关于名为Sparrow的“对话代理”的论文4，该公司的首席执行官兼联合创始人 Demis Hassabis 表示，该论文将在今年以私人测试版的形式发布。谷歌的目标是开发甄别包括引用消息来源的能力在内的功能。

一些科学家也认为，目前，ChatGPT还没有接受足够专业的内容培训，无法对技术主题有所帮助。Kareem Carr是哈佛大学的生物统计学博士生，当他在工作中试用时感到不知所措。

“我认为ChatGPT 很难达到我需要的水平。”他说。

因此，一些科技公司正在根据专业科学文献对聊天机器人进行培训，尽管它们也遇到了自己的问题。

去年11月，拥有Facebook的科技巨头Meta发布了一个名为Galactica的法学硕士项目，该项目接受过科学摘要培训，旨在使其特别擅长制作学术内容和回答研究问题。

但测试中仍然出现了问题，目前该演示已从公共访问中撤出。

对此，“不再能通过随意滥用它来获得乐趣了。”Meta 的首席人工智能科学家Yann LeCun在推特上略显愤懑地回应道。

种种小小的不愉快背后，可能意味着ChatGPT的果实并未完全成熟。狂欢之余，子弹仍需飞一会儿。