两年前,在“超越模仿游戏基准”(Beyond the Imitation Game Benchmark,简称BIG-bench)项目中,450名研究人员编制了一个包含204个任务的列表,旨在测试大语言模型(LLM,支撑ChatGPT等聊天机器人的模型)的能力。1在大多数情况下,随着模型规模的扩大,性能的提高是可预测且平滑的——模型越大,它的性能就越好。但做有些任务时,能力的提升并非循序渐进,而是在一段时间内表现平平接近零,然后突然跃升。其他研究也发现了类似的能力飞跃。
作者将这描述为“突破”(breakthrough)行为;其他研究人员将其比喻为物理中的相变,就像液态水冻结成冰一样。在2022年8月发表的一篇论文中,研究人员指出,这些行为不仅令人惊讶,而且不可预测,它们应该为围绕AI安全、潜能和风险不断发展的讨论提供信息。2他们将这些能力称作“涌现”(emergent),这一术语用于描述只有在系统达到一定的复杂度时才显现的集体行为。3
当然,事情可能没有那么简单。斯坦福大学三位研究人员撰写的一篇新论文提出,这些能力的突然出现仅仅源于研究人员测量LLM性能的方式。4他们认为,这些能力既不是不可预测的,也不是突然发生的。“这种转变比人们认为的要可预测得多,”斯坦福大学的计算机科学家、论文的首席作者桑米·科耶霍(Sanmi Koyejo)说,“涌现与我们选择测量的方式相关,也与模型正在执行的任务相关。”5
参数规模与性能提升
在模型已变得极其庞大的今天,我们才开始观察并研究这种行为。大语言模型通过分析庞大的在线资源文本数据集进行训练——包括书籍、网页搜索和维基百科——用以发现经常共现的词语间的联系。6模型大小是以参数的形式来衡量的,大致相当于所有可以连接词语的方式。参数越多,LLM可以找到的连接就越多。GPT-2拥有15亿个参数,而支撑ChatGPT的GPT-3.5使用了3500亿个参数。据报道,2023年3月推出、现在支持Microsoft Copilot的GPT-4使用了1.76万亿个参数。
这种迅速的增长带来了性能和效率的惊人提升。人们相信足够大的LLM能够完成小型模型无法实现的任务,甚至它们未经训练的任务。斯坦福的三人小组将这种涌现现象描述为“幻觉”。
他们认识到,随着规模的扩大,LLM的效果变得更加显著:事实上,有赖于更大模型复杂性的增加,它们可能在更困难和多样化的问题上表现得更好。7不过他们认为,比起模型的内部工作机制,研究人员选择的度量标准,甚至是测试是否缺乏样例,更能决定这种改进的变化——到底是平滑且可预测的,还是突然飞跃的。
▷大语言模型的能力。横轴参数,纵轴准确率。Merrill Sherman/Quanta Magazine
三位数加法提供了一个例子。在2022年的BIG-bench研究中,研究人员报告说,使用较少的参数时,GPT-3和另一个名为LAMDA的LLM都未能准确完成加法问题。然而,当GPT-3使用130亿参数进行训练时,它的能力就像打开了开关,突然之间能够进行加法运算——而LAMDA在使用680亿参数时也掌握了这项能力。这表明在某个阈值时加法能力会出现。
推翻涌现:斯坦福的研究
斯坦福的研究人员指出了度量标准的问题。在实验中,准确性是人们对LLM的唯一评判标准:只有满分和零分两种结果。哪怕一个LLM预测出非常接近正确答案的数字,也会被判为任务失败。这似乎不太对。就好像在计算100加278的时候,376显然-9.34要准确得多。
因此,Koyejo及其合作者采用了一种“奖励部分正确答案”的度量标准来测试这一任务。“我们可以问:它预测第一个数字的准确度有多高?然后是第二个?接着是第三个?”他说。
Koyejo将这项新工作的灵感归功于他的研究生Rylan Schaeffer,他说Rylan注意到一个LLM的性能似乎随着测量它的能力的方式的不同而变化。他们与另一名斯坦福研究生Brando Miranda一起选择了新的度量标准,在新的标准下,随着参数的增加,LLM在加法问题中预测的数字序列越来越正确。这表明加法能力并非涌现——即突然的、不可预测的跳跃——而是逐渐的和可预测的。他们发现,当使用不同的度量标准时,涌现消失了。
反对的声音
然而,其他科学家指出,这项工作并未完全排除涌现的概念。例如,三人小组的论文没有解释如何预测何时哪些度量标准会在LLM中显示出突然的改进,东北大学的计算机科学家Tianshi Li说:“从这个角度来看,这些能力仍然是不可预测的。”8
目前就职于OpenAI的计算机科学家Jason Wei编制了一个涌现能力列表,他也是BIG-bench论文的共同作者之一。9他认为早期关于涌现的报告是有根据的,因为对于算术这样的能力来说,正确答案确实是最重要的。
“这确实是一个有趣的讨论点。”AI初创公司Anthropic的研究科学家Alex Tamkin说。10他指出,新论文巧妙地将多步骤任务分解,以识别个别组件的贡献。“但我们不能以偏概全,不能就此说所有跳跃都是幻觉。我仍然认为文献显示,即使当你有进一步预测或使用连续度量时,仍然存在不连续性,随着模型大小的增加,你仍然可以看到它以跳跃式的方式进步。”
即使今天的LLM中的涌现现象可以通过不同的测量工具来解释,未来更大、更复杂的LLM也难保不会以同样的方式表现。“当我们将LLM推进到下一个层面时,它们将不可避免地从其他任务和模型中借鉴知识。”莱斯大学的计算机科学家Xia “Ben” Hu表示。11
对涌现现象的持续关注不仅仅是研究人员需要考虑的抽象问题。对Tamkin来说,这直接关系到人们在预测LLM行为课题上的不懈努力。“这些技术的应用范围如此广泛。”他说。“我希望社区将其视为一个跳板,继续强调构建这些模型的预测科学的重要性。毕竟,我们怎样才能确保下一代模型的表现不出现在我们的意料之外?”
原文链接:https://www.quantamagazine.org/how-quickly-do-large-language-models-learn-unexpected-skills-20240213/
参考资料:
[1]:https://arxiv.org/abs/2206.04615
[2]:https://arxiv.org/abs/2206.07682
[3]:https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/
[4]:https://arxiv.org/abs/2304.15004
[5]:https://cs.stanford.edu/~sanmi/
[6]:https://openai.com/research/language-unsupervised
[7]:https://www.quantamagazine.org/new-theory-suggests-chatbots-can-understand-text-20240122/
[8]:https://tianshili.me/
[9]:https://www.jasonwei.net/blog/common-arguments-regarding-emergent-abilities
[10]:https://www.alextamkin.com/
[11]:https://cs.rice.edu/~xh37/index.html
本文来自微信公众号:追问nextquestion (ID:gh_2414d982daee),编译:丹雀,编辑:张心雨桐