本文来自微信公众号:中科院物理所 (ID:cas-iop),作者:Dana Mackenzie,头图来自:《天才枪手》


除非最近彻底断网了,否则大家应该听说或体验过了目前非常流行的聊天机器人,ChatGPT。ChatGPT首次在网上发布的时间在2022年11月,并且在今年3月得到强力升级。


当我们输入一个问题、评论或指令后, ChatGPT会快速地对我们抛出的任何一个问题给出一段漂亮的回答。回答的质量很高,甚至会让你以为是人工客服给出的。ChatGPT的内核是基于一个名为“生成式预训练变换器(Generative Pre-trained Transformer,GPT)”的语言模型构建的。通过被喂入来自各类网站和其他来源的海量文本数据,该模型最终被训练成了一个能够对使用者输入的句子或段落进行快速、智能、逻辑清晰回应的人工智能。


作为科学工作者以及科普作家,我特别希望了解ChatGPT如何处理科学以及伪科学的内容。为了解答内心的疑问,我询问了不同版本的ChatGPT对于物理学和数学中一些经过成熟讨论并得到正确结果的科学理论和伪科学理论的看法。


ChatGPT能够辨别科学理论的正确与谬误吗?


ChatGPT的最初版本,即11月公布的版本(又称GPT-3.5)认为2+2=4。当我输入“我认为2+2 =5”的看法时,GPT-3.5反驳道“2+2=4”,它表示该等式遵循自然数计算的公理。它补充说:“虽然人们可以自由地拥有自己的观点和信仰,但重要的是要承认和尊重既定事实和科学证据。”


然而,随着进一步的测试,情况变得更为复杂。GPT-3.5编写了正确的代数公式来求解二次方程,但无法始终如一地获得特定方程的正确数值答案。它在回答简单的问题时也会犯错,例如《华尔街日报》专栏作家乔什·尊布伦(Josh Zumbru)给出的问题:“如果一根香蕉重0.5磅,而我有7磅香蕉和9个橙子,我有多少水果?”但是却没能得到正确结果。


在物理学方面,GPT-3.5表现出了广泛但未必精确的知识储备。它能够为物理课程组织一份良好的教学大纲,包含从物理学的基础理论到量子力学和相对论的内容。同时,在更高的层次上,当GPT-3.5被问及物理学中一个悬而未决的大问题——将广义相对论和量子力学合并为一个宏伟理论的难题时,它给出了关于两种理论之间根本差异的答案。


然而,当我输入质能方程“E=mc²”时,GPT-3.5给出了错误的答案。GPT-3.5正确地识别了这个方程,但是错误地表示一个大质量仅能够转化为小部分能量。当我重新输入了“E=mc²”这个方程时,GPT-3.5才正确地认为小质量能够产生大量的能量。


那么新版GPT-4能否克服GPT-3.5出现的如上问题呢?


为了找到答案,我分别测试了两个版本的GPT-4:一个版本来自于系统的研发者OpenAI,另一个来源于微软的必应搜索引擎。微软在二月份向全网推出了内置GPT-4的搜索引擎“必应”的新版本。


一开始,我向GPT-4输入了“2+2=?”GPT-4回答“2+2=4”。当我再次向ChatGPT表明2+2=5时,GPT-4反驳道2+2=4。与GPT-3.5不同的是,GPT-4主动询问我是否知道在哪个数字系统中2+2=5成立。


当我问道“我该如何解一个二次方程”时,GPT-4演示了三种解决二次方程的方法并且对不同的二次方程都计算得到了正确的数值解。对于上文的“香蕉-橘子”问题,ChatGPT给出了正确的答案23。GPT-4同样能够解决更加复杂的文字问题。并且,不管我输入多少次“E=mc²”,GPT-4给出的回答始终是“小的质量能够产生巨大的能量”。


相较于GPT-3.5,GPT-4展示出更为丰富的知识储备以及对于物理知识的一些创造力。GPT-4能够对统一相对论以及量子力学的理论发表深刻得多的回答。我进一步询问了不同领域的问题,对ChatGPT提问“激光干涉仪引力天文台(LIGO)能够测量什么”。GPT-4解释道,LIGO是一座具有高灵敏度的大科学装置,并且在2015年第一次探测到了引力波。


我为了用两个相似的词语混淆GPT-4,继续问道“那我们是否能够用LEGO(乐高)建造LIGO(激光干涉仪引力天文台)呢?”GPT-4显然没有被难倒。GPT-4精确解释了为什么乐高积木不能够用于搭建超精密LIGO。并且,GPT-4并没有因为我的愚蠢问题而嘲笑我,反而是出乎意料地回答道,用乐高积木搭建一套LIGO模型或许是一个有趣的想法。


总的来说,我发现GPT-4在某些方面已经超越了GPT-3.5的水平,但是它仍然会出现错误。当我质疑了GPT-4关于质能方程“E=mc²”的看法时,GPT-4给出了一个非常模糊的答案,而不是直接捍卫正确的质能方程。


另一项来自英国约克大学的理论物理学家马特·霍奇森(matt Hodgson)的研究表明,GPT-4的一些回答存在自相矛盾。作为一名经常使用GPT-3.5的用户,他同时测试了GPT-3.5和GPT-4回答更为复杂的物理和数学问题的能力,并发现了复杂类型的错误。


例如,在回答有关电子量子行为的问题时,GPT-3.5给出了正确的答案,但至少在最初错误地给出了答案来源的物理方程。当问题重复时,GPT-3.5能够正确回答所有内容。当霍奇森在必应中测试GPT-4的水平时,他发现GPT-4的数学能力虽然先进但仍不完美。比如,就像我在关于二次方程的提问一样,GPT-4 列出了求解物理学中重要的微分方程的有效步骤,但错误地计算了数值答案。


霍奇森这样总结GPT-3.5的能力:“我发现它能够对非常有名的物理理论中的一般问题给出精巧、可靠的答案……但它无法对特定物理领域进行详细的计算。”同样,他得出结论:“GPT-4 在回答普通问题方面比 GPT-3.5做得更好,但在解决给定问题方面,至少是在回答更深奥的问题方面,GPT-4仍然不可靠。”


GPT-4表现出的更为智能的对话以及解释功能得益于GPT-4更大的数据库(OpenAI并没有公开数据库的具体规模,只是说这个数据库是“网络规模的数据语料库”)OpenAI指出,该数据库同时包括正确和错误的数学和推理过程。显然,额外的训练数据不足以生成完整的数学分析推理过程。正如霍奇森指出的那样,也许这是因为GPT-4的功能就像GPT-3.5一样只能够预测一串单词中的下一个单词。例如,它可能知道“2+2=4”,因为这个特定的序列经常出现在其数据库中,但是它并没有计算任何东西。


经过如上讨论,我产生了一个疑问:如果GPT-4解决科学问题的方法是不完美的,它能区分正确和错误的科学理论吗?这个答案取决于科学领域。在物理和数学领域中,我们通过与已知的物理定理及实验事实对比,可以很轻松地验证可疑的错误和伪科学理论的合理性。


我通过提问GPT-3.5和GPT-4一些物理和天文学中的经典前沿问题,对GPT-3.5和GPT-4是否能够基于物理公理和实验现象分辨伪科学理论进行了验证。两个GPT版本都表示,我们没有证据表明恒星周围有巨大的外星建筑;太阳系中所有行星排成一列并不意味着地球的灾难。


但是,当被问及一些受政治化或公共政策等因素影响的科学问题时,GPT-3.5或GPT-4更难做出正确回答。因为这些科学问题本身可能还在研究中,没有明确的答案。


总的而言,GPT-4和GPT-3.5能够正确地识别关于数学和物理学的错误表述。在回答更具争议的政治化科学议题时,GPT-4会不偏袒任何一方地进行回答,并且指出这不是一个已解决的问题。必应同样给出无偏见的答案,并且通过列举出相关的新闻和实验数据作为它的论据。当必应的人工智能面对质疑它的答案太片面的指责性攻击时,它采取了礼貌且不介入争执的明智策略。


这些结果初步表明,GPT-4能够对问题给出可靠的答案,并且有效抵御外界输入信息对于答案的影响。ChatGPT对于新冠疫情和气候变化等具有争论性科学问题的回答,以及对生物科学和其他主要科学领域的知识还值得进行进一步测试检验。


同时,ChatGPT回答科学和数学问题的答案并不完全可靠。霍奇森发现GPT-4在“为物理学(可能还有其他学科)问题提供创造性解决方案方面存在不足......它的智能仍然有些虚假。”即便如此,它对科学家也很有用。


霍奇森写道:聊天机器人可以“执行消耗着用户的宝贵时间的、不需要创造力的逻辑任务。”霍奇森表示,他使用ChatGPT辅助编写计算机代码,总结电子邮件和论文的内容,以及进一步将其应用在教育领域。但他指出,对于ChatGPT的任何产品,用户都应该仔细检查其给出的结果是否符合预期。


霍奇森对ChatGPT的评价让人想起计算机先驱道格拉斯·恩格尔巴特(Douglas Engelbart)对于智能设备的看法。恩格尔巴特希望简化人机交互过程,以便计算机的强大算力能够可以无缝赋能人类智慧——这个想法被称为IA(intelligence augmentation),“智能增强”,而不是AI(Artificial Intellgence),“人工智能”。


恩格尔巴特在1960s发明了计算机鼠标,改善了用户和计算机之间的人机交互体验。GPT-4在人机交互过程中能够给使用者提供持续反馈,并进一步提高用户使用计算机的能力。


因此可以预见,ChatGPT这类自然语言聊天机器人程序的发展是变革人机交互范式的另一个重大突破口——这种智能程序能够实现人与计算机的双向交流。在真正的AI出现之前,将GPT-4作为一项智能增强辅助工具能够实现使用者和智能程序的互惠互利。


原文链接:What Does ChatGPT Know About Science?


本文来自微信公众号:中科院物理所 (ID:cas-iop),作者:Dana Mackenzie,编辑:藏痴