与其给AI喂数据，不如教AI学科学 - 葱头胖友圈

本文来自微信公众号：神经现实（ID：neureality），作者：Iulia Georgescu，翻译：Soso，编辑：Orange Soda，题图来自：《超能查派》

物理学界有一个老掉牙的笑话：自然界的一切奥秘都已经被发现并发表于一篇1960年代的苏联期刊上，只是我们不知道而已。虽然有些夸张，但这个笑话准确地描述了目前的状态。知识的体量已经非常庞大并且正在迅速增长：2021年在arXiv（全球最大且应用最广的论文预印本网站）上发表的科学论文数量预期超过190000篇——这也只是今年产生的科学文献的冰山一角。

很显然，我们并不清楚我们究竟知道多少，因为没有人可以读完自己所在的狭小领域内的所有文献（除了期刊论文外，这还包括了博士论文、实验笔记、幻灯片、白皮书、技术笔记和报告）。事实上，在这些堆积如山的文献中，完全可能找到许多问题的答案、被忽视或遗忘的重要发现或者隐藏的联系。

对于这些问题，人工智能是一个潜在的解决方案。现在，算法已经可以在无人工干预的情况下分析文本，找出词句中的联系以帮助发现知识。但是，我们如果不摒弃几百年不变的传统科学文章的写法，就不能取得更大的成就。

目前，文本挖掘（text mining）面临着许多限制，包括获取全文的和法律问题。但最重要的是，人工智能并没有真正地理解这些概念以及它们之间的关系，并且对数据的偏差（bias）极其敏感，例如它选择分析的论文的偏差。

对人工智能来说，理解科学论文是一项艰巨的任务——事实上，对非专业的人类读者来说也一样，因为每个学科的专业术语都大相径庭，甚至一个词语在不同的领域会有截然不同的意思。用一系列关键词的排列组合很难准确定义一个主题，这使得想要全面地检索相关的文献变得十分困难。即使对于最智慧的人来说，建立不同学科之间的联系、（重新）发现相似的概念也很艰难。

只要目前的情况还未改变，人工智能就无法被完全信任，人类仍需要再次检查人工智能文本挖掘后的输出结果。这是一项单调无聊的工作，并且也偏离了使用人工智能的目的。为了解决这个问题，我们不仅需要将科学文献变得计算机可读，也需要用一种特定的编程语言将它们（重新）写成。换句话说：要用一种机器可以理解的语言教它们科学。

虽然用类似于编程的语言写科学知识是枯燥乏味的，但这具有可持续性，因为新的概念会被直接添加到机器可以理解的库内。此外，因为机器学习了更多的科学知识，它们也可以帮助科学家们组织逻辑论证，发现错误、矛盾、抄袭和重复，并突出联系。了解物理定律的人工智能比仅用数据训练的人工智能更强大，因此真正懂得科学的机器也会帮助未来的发现。这些拥有大量科学知识的机器将会帮助人类科学家，而非取代人类科学家。

数学家们已经开始了这个翻译的过程。他们用Lean语言写定理和证明来教计算机数学。Lean是一种辅助证明语言，可以用对象（object）的形式引入数学概念。通过使用已知对象，Lean可以判断一个语句（statement）的正误，以此帮助数学家们验证证明并识别逻辑不严谨之处。

Lean知道的数学知识越多，它就可以做得越多。帝国理工学院的Xena项目的目标便是将本科数学课程的知识全部输入到Lean。有朝一日，辅助证明或许可以通过验证逻辑和检索它们拥有的大量数学知识，帮助数学家做研究。

但相比于数学，用Lean语言写其他学科更困难。显然，并不是所有的科学结果都适用这种写法，但尤其是STEM*等许多学科都可以采用此方式。在设计这种新语言的过程中，可以从类似于Lean的语言开始定制，加入一些某领域特有的特点。

毫无疑问，科学概念的定义比数学更复杂；它需要有背景、直观表达和解释。这也是为什么量子力学**虽然有清晰的数学表达式，却仍有无数论文和教科书尝试解释它的原因。将科学知识的这些微妙的方面传授给机器是富有挑战性的，但要记得，机器辅助的最终目的是帮助人类科学家改进这些微妙之处，并更清楚地表达它们。

或许机器会更准确，因为有些科学概念与人类直觉相悖，而机器可以更好地将它们与背景结合起来。

译者注：

*STEM指science, technology, engineering和mathematics等理工类学科。

**不同于经典物理，量子力学（Quantum mechanics）只有实验现象和数学模型，而缺少将两者联系的概念模型。

这种人类与机器共通的语言可能会演化出各领域专门的词汇库，虽然我们目前还未开发出这种语言。但当这项技术一旦成熟，它不会缺乏市场。Xena项目表明，没有先前编程经验的互联网原住民能够非常迅速地学习新语言。

对于一些科学家来说，这种语言甚至会比写英语散文更直接，因为英语并非他们的母语。这会帮助他们更好地组织想法。解释器（interpreters）也可以将Lean语言翻译回数学，就像将一种新语言翻译成英语或其他任何语言一样。

将已知的大量知识翻译成机器语言是一项巨大的任务，但并不是一项不可能的任务。从互联网*到arXiv等预印本服务器，科学家们非常擅长发明共享知识的新方法。因此，让每位科学家为翻译机器可读的科学知识库做一点贡献并不是毫无根据的幻想。

就像数学一样，其它的本科课程也可以由本科生传授给机器。研究生们可以将与他们课题有关的知识输入给机器，而研究者们可以直接用新语言写研究结果。

*译者注：互联网（World Wide Wed）诞生的初衷是让世界范围内的科学家们共享信息。

这个项目除了需要集体的努力，还会消耗大量的时间和金钱。但除此之外，我们或许没有其他可以解决不断增长的科学知识的方法：我们会继续在重新发现已知的概念和死路上浪费大量的时间和资源。科学的未来，必将是人类和机器的共同事业。

原文：https://www.wired.com/story/artificial-intelligence-scientific-papers-machine-reading/

本文来自微信公众号：神经现实（ID：neureality），作者：Iulia Georgescu，翻译：Soso，编辑：Orange Soda