日阅万卷的“AI科学家”，会提出天才的假设吗？ - 葱头胖友圈

如果在 19 世纪之前的科学和自然主义作品集，（比如英国皇家学会档案、植物学之父泰奥弗拉斯托斯的《植物探究》、亚里士多德的《动物志》、收集标本的照片）上训练一个 LLM，它会不会像达尔文那样悟出进化论这个大胆假设？

这是《大西洋月刊》记者采访 OpenAI CEO Sam Altman 时抛出的一个问题。

“我想尝试一下，我相信答案是肯定的。”Altman 当时回答说。

对 Altman 来说，最重要的目标——预示着通用人工智能到来的“大目标”——是科学突破。GPT-4 已经可以综合现有的科学思想，他认为，未来的通用推理机器将能够超越这些狭隘的科学发现，产生新颖的见解。

Altman 想象了一个未来的系统，它可以生成自己的假设并在模拟中对其进行测试。

如今，有人继续朝这个方向迈出重要一步。

11月1日，谷歌前董事长 Eric Schmidt 资助的一家非营利机构 Future House 正式官宣成立，这家总部位于旧金山的机构专注于为科研实验室打造一个人工智能驱动的科研助手，彻底变革科学研究过程。

Future House 计划开发一种“AI 科学家”，可以分析和总结研究论文，并使用大型语言模型回答科学问题——这也与目前流行的人工智能聊天机器人的技术相同。不过，Future House 打算更进一步。

Future House CEO Sam Rodriques 指出，“AI 科学家”有朝一日将能够筛选数千篇科学论文，并以比人类更快的速度和规模独立提出假设。

Sam Rodriques 是一位生物技术发明家，毕业于麻省理工学院，获得物理学博士学位。主持 Future House 之前，在英国最重要的生物医学研究机构之一弗朗西斯·克里克研究所工作。在那里，他成立了应用生物技术实验室，旨在将生物工程和创业精神结合起来，开发和部署新的生物技术。

很多人看到了新技术带来算力层面的飞跃，比如在单个实验中测试数万或数十万个假设、并行计算设计数千种蛋白质。但是，当今生物学的根本瓶颈不仅仅是数据或计算能力，还有人类努力的局限性：没有一个科学家有时间设计数以万计的假设，阅读完每天发表的数千篇生物学论文。

Sam Rodriques 曾在一篇博客文章中分析了在治疗疾病上取得 ChatGPT 式的成功所需要的三个法宝：速度、知识和人才。

其中，“知识”是指生物医学文献数量庞大。有一种现象几乎所有生物学家都曾遇到，自以为有了一个创新想法，直到看到一篇发表于十几年前的文章才知道有人早想到了。

如何避免 “如果我早知道就好了”问题，让生物学快速发展？他认为，未来的一百年里，生物学能取得多大的进步将取决于大型语言模型可以在多大程度上能够解决这些问题。

比如，“摘要问题将很快被语言模型所解决。至多在几年之内（也许几个月之内），......只需告诉语言模型，你要想要做什么，它就会自动总结已知的所有相关内容，避免『如果我早知道就好了』的问题。”

Future House 目标就是通过构建可以自行推理的人工智能系统（“AI 科学家”），消除科学发现环节的瓶颈。这也是建立更有能力和更好的通用智能的关键一步，因为科学推理，即形成世界模型并在面对不确定性时更新该模型的能力，也是人类认知的一个重要方面。

“我们的 10 年使命就是构建用于科学研究的半自主人工智能，加快发现速度，并为全世界提供尖端的科学、医学和工程专业知识。”Future House 在声明中写道。

之所以从生物学开始，因为相信生物学是未来几十年最有可能通过其对医学、粮食安全和气候的影响推动人类进步的科学。而是，这个最为未知的领域也是打磨“AI科学家”推理能力的最佳游乐场。

“Future House 最重要的地方在于，我们将生物学人才和人工智能人才聚集在一起，这是其他地方无法做到的。”Eric Schmidt 说。

在这里，机器学习研究人员和生物学研究人员组成的综合团队将快速构建人工智能系统，它可以提出假设，计划实验并进行推理。

在一次采访中，Eric Schmidt 曾表示，早期的科学研究“目前进展不够快”，他也是 Future House 成立的推手，灵感源自他在施乐公司帕洛阿尔托研究中心（许多现代计算机技术的诞生地）的工作经历。

“在这里，你可以找到 20 多岁和 30 岁出头的人，给他们独立性和所需的所有资源，他们会以其他任何地方都找不到的速度发明东西。”他说，“我真正想要的是，创造像帕洛阿尔托研究中心那样的新环境，在这里，优秀的年轻研究人员可以追求他们最好的想法。”

根据彭博亿万富翁指数，Eric Schmidt 净资产估计为 245 亿美元。他将部分财富投入了慈善事业，比如资助科技企业家的 Schmidt Futures。

Rodriques 说，Eric Schmidt 将为该机构的头五年提供资金。他估计，到 2024 年底，这家非营利组织将花费约 2000万美元。在那之后，“这将取决于我们的发展方式和需求，”他说，并补充说，这笔资金的很大一部分将用于招聘人才和建立所谓的湿实验室（与干实验室相对，湿实验室在进行实验时需要用到较多的化学试剂，安全防护要求也更高）。

如果没有人类科学家的参与，就不可能培养出“AI科学家”。围棋、星际争霸等游戏有明确的规则和获胜条件，但在科学中没有规则，没有奖励，也没有手册，从事具体科学项目的人类科学家是最接近真理（ground truth）的人，所以 Future House 也会在内部运营湿实验室，人类科学家将在“ AI 科学家”的协助下追求新的发明和发现。

Rodriques 说，虽然 Schmidt 提供了大部分的前期资金，但 Future House 也在与其他慈善支持者进行谈判。

这家非营利组织的科学主管 Andrew White 是首批雇员之一，他最近在罗切斯特大学担任化学工程副教授，也是基于大语言模型的化学代理 ChemCrow 主要架构师之一，这项研究曾引发广泛关注。

通过 13 个专家设计的工具，ChemCrow 增强了 LLM 在化学中的性能，新能力也随之涌现。比如，ChemCrow 已经自主设计了一种驱虫剂、三种有机催化剂以及合成其他相关分子。

大型语言模型（LLM）最近在跨领域任务中表现出强大的性能，但在化学相关问题上却遇到了困难，甚至无法完成一些最简单的任务。ChemCrow 等系统的研究表明，人类有望很快构建出“ AI 科学家”这样的系统。

“我认为大多数科学家可能一周读五篇论文。想象一下，当你的系统可以处理每天发表的所有 10，000 篇论文时，会发生什么。”Andrew White说。“在某些领域，限制因素不是设备，这不是真正的成本，而是人类提出下一个实验的能力。”

Andrew White 说，Future House 将从生物学开始，但其系统最终将适用于其他科学领域。

Schmidt 相信，有了他的资金支持，该机构将能够优先考虑研究，而不是竞相赚钱。“我认为，当人们对人工智能的进步将在短期内带来产品抱有很高的期望时，正确的激励措施尤其重要，这导致许多大型人工智能研究中心非常关注商业化而不是研究。”

Rodriques 表示，作为一个非营利组织，Future House 还拥有独特的能力来优先考虑负责任地使用人工智能，这对于在确保我们的人工智能科学家在不牺牲安全或为不良行为者提供帮助的情况下加速科学发展，至关重要。

参考链接

https://www.futurehouse.org/articles/announcing-future-house https://www.bloomberg.com/news/articles/2023-11-01/eric-schmidt-bets-ai-will-shake-up-scientific-research#xj4y7vzkg

本文来自微信公众号：机器之能（ID：almosthuman2017），编辑：sia