通用人工智能，通向何方？ - 葱头胖友圈

本文来自微信公众号：未尽研究（ID：Weijin_Research），原标题《走向通用人工智能，还得来一次理论的范式转移》，作者：未尽研究，题图来自：《环太平洋》

用人类所有的语言作为用来学习的数据，去复制人类的智能，去发现一种新的智能，这是一项伟大的实验。费曼说过：凡是我不能创造的，我就无法理解。

ChatGPT时刻

世界上第一个能像人一样对话的机器人，不可能只是在语言实验室里，而只能是出世不久即在真实的世界里与上亿人对话的ChatGPT。它的字面意思，就是预训练生成式对话机器人。这个机器人的大脑，就是自然语言大模型。这份报告里自始至终会用自然语言大模型（简称大模型）这个概念。

这个由深度神经网络训练出来的GPT-3.5大模型，拥有1750亿个参数，45万亿字节语言数据。神经网络可以从已知的单词正在组成的句子中，预测下一个单词——这也是辛顿（Geoffrey Hinton）等人于1986年5月在《自然》杂志上发表的论文中，首次提出的语言模型。

自然语言展示出智能，就是排序的游戏。我们置身于一个复杂的世界。无论多么复杂，宇宙万物，从人类语言到蛋白质的结构，皆成序列。序列决定结构。结构决定功能。世界上所有的语种，皆是由遵从一定的语义和语法规则而组成的语言文字序列。

根据人类的提示，借助从人类语言中知识的学习，计算机通过概率统计，总是能通过推算出下一个单词，以符合语法、语义、上下文信息等，最终生成对人类有意义的词组、句子、段落、表达，并且与人类流畅地对话。

生成式人工智能输出对话的原理示例。Scaling， emergence， and reasoning in large language models， Jason Wei

机器学习让计算机从经验中学习知识，而不是以人类给计算机规定的形式以获取所需要的所有知识。计算机用较简单的概念，一层一层地学习复杂概念，构建出多层次的深度神经网络。

人工智能的表现改善迅速。人工智能测试与人类水平相比。Kiela et al.（2021）

从2012年起，人类训练的模型识别图像和声音，接近并超过了人类的水平；对自然语言的辨识和处理能力迅速提升，一些单项语言能力迅速超越人类的能力。到2016年时，一个粗略的经验法则是，只要在一个具体的类别给定5000个标注样本，监督深度学习一般将达到可以接受的性能，当至少有1000万个标注样本的数据集用于训练时，它将达到或超过人类的表现。

大模型缩放定律与涌现能力。左图：当模型大小呈指数增长时，相应的模型性能呈线性增长。右图：当模型尺寸达到一定规模时，性能急剧增加，出现涌现现象。

算力越来越强，算法越来越精妙，神经网络能吞吐的数据量也越来越大。自注意力转换器（Transformer）的出现，让计算系统可以并行处理更大规模的语言数据量，直到可以从人类所有语料库数据中推算出人类想要的结果。目前神经网络的神经元（参数）的数量，已经远远超过了人脑，达到了数千亿甚至数万亿个，所处理的自然语言数据量也达到了几十万亿级别（接近人脑的连接数），在日益复杂的神经网络中，出现了智能从一项任务向其他任务迁移，当模型的规模达到某个临界值时，那些各自的能力，以及新的能力就会突然“涌现”，其中包括人们所期待的智能的泛化与通用。

涌现是大模型的理论基础，用来解释为什么无需人工干预，就能从原始的自然语言或者多模态数据中自动学习到的特征与模式，并且能用来进行预测和决策。

一般认为，深度学习模型的分层结构和权重学习机制导致了涌现的发生。大模型的训练中，每一层神经元（可视为变量组合）的输出都是下一层神经元的输入，并且模型的每个权重都通过强化学习算法进行学习和更新。当训练大模型时，数据中的统计规律对其内部参数和结构进行调整；一层又一层的权重学习，使得深度神经网络能够自动学会从原始数据中提取隐含的特征和模式，从而实现涌现能力。

涌现这个概念，来自复杂性科学，它的一个基本论断，就是大量最简单的行为中，可能产生高级和复杂的行为。

大模型不仅知书，而且达理。语言是世界“潜在复杂性的表现”。这意味着语言运作的模型在某种意义上也包含世界运作的模型。通用的大模型，在一定程度上也是一个世界模型。从DeepMind到OpenAI的终极目标，正是训练出达到甚至超过人类水平的智能，不仅能完成专项任务，而且能完成多项任务，具有学习、推理、预测等能力，即通用人工智能（AGI）。通用人工智能相信奇点，人工智能终有一天会比人类聪明。

ChatGPT推出仅仅2个月，成为史上用户数量过亿所用时间最短的产品；之后100天左右，GPT-4推出，并迅速与微软的产品全面集成，几乎重新定义了所有的软件服务。盘踞于搜索、云计算和SaaS之上的巨头开始“跳舞”，硅谷掀起了一场大模型风暴，也引发了通用AI革命。

大模型的缺陷

大语言模型目前引领了人工智能的发展方向，它在带来惊喜的同时，也不时伴随着失望。最大的问题是可靠性。人们最初会容忍一个不成熟的技术，但是不成熟的技术，将无法直接大规模应用。

ChatGPT在首页提醒了自己的局限：可能偶尔会产生不正确的信息；可能偶尔会产生有害的指令或有偏见的内容；对2021年后的世界和事件的了解有限。许多用户无法容忍的，是它在洋洋洒洒的文章和头头是道的叙事中，隐藏着事实性错误。

而大模型“涌现”智能的原因和机理是什么，一直没有找到合理的解释，它依然像是从一个黑盒子里冒出来的异类智能。它也涌现出人类语言中所固有的认知缺陷，如偏见、歧视、胡思乱想、胡言乱语，等等。人们不知其所以然，难以完全放心。

大模型主要是一场大规模的工程实验的结果，一时还欠缺理论的解释。在它所涉及到的语言学、心理学等领域里，遭遇了权威学者们的抵制与批评；大模型的“智能”，也承受着学术界的严格拷问和批判。

一些人工智能科学家、语言学家、心理学家、哲学家批评，大模型在与人类进行对话时，只是根据人类的提示，对语言数据进行概率统计运算，然后提供一个猜测式的回答，并没有真正理解语言的意义。人类掌握语言的背后，其实是对事实的了解，对物理世界的感知，对因果关系的追求；机器学习对这一切无感，因而并不了解语言的意义，不对事实负责，也不是真正的智能。图灵奖获得者杨立昆说：自回归式的深度神经网络，不可能有未来。

如何解决可靠性问题？如何建立起一个世界模型？人工智能的研究者们，已经总结出了一系列的工程实践。继续扩大模型，增加参数和语言数据依然是一个方向，但并非唯一可行。现有模型，需要更加精确地理解和掌握人类的意图，如提升语言数据的质量，优化人类反馈的强化学习（RLHF），更好的提示工程（Prompt Engineering），持续精调模型，以及大模型主动发问人类，调用更多外部资源，等等。目前OpenAI并不急于推出GPT-5，而是致力于提升现有模型的稳定性与可靠性，这是未来两年OpenAI的技术方向。

随着插件的推出，以及人类越来越多地把自己的事情委托给基于大模型的应用来处理，人们也担心可能带来的一个后果，是人类牺牲了自己的决策权，而大模型的决策机制是不透明的。

大模型的下一步

OpenAI并不急于训练GPT-5，近两年内，创新迭代的重点，已经不再是马上造出更大的模型，而是让现有的模型变得更好。一方面是推广模型化的应用，建立起生态；另一方面是解决大模型暴露出来的问题。

自主智能体（如AutoGPT）应用的推出，正在让ChatGPT 变得像个“玩具”。大模型可以通过API接口，调用其他应用、其他模型，自动完成更为复杂的任务。自主智能体在完成任务的过程中，能推理工作的步骤。而且这些智能体之间的互动，已经有专家开始探索。智能体还能将工作流与硬件结合在一起，让智能硬件真正具备智能，从而改变物理世界。大模型的训练成本越来越低，正在快速降低使用门槛，变成“小模型”进入到越来越多的边缘计算中，也与越来越多的设备结合在一起，包括手机和机器人。

连续学习，与世界和周围环境同步的能力。一旦模型被训练，它就固定了，无法及时整合来自用户的新反馈和世界的新信息（指的是更改权重的方式）。可以根据新数据对模型进行微调，但这可能会导致性能下降或过拟合。由于训练周期较长，模型训练期间，世界又出现了新的事件、信息和知识，尽管插件已经可以解决部分问题，但大模型自身可能需要探索一种能够持续稳定进行连续学习的方法。

训练模型的技术堆栈，使用三个应和即可完成。Replit官网

多模态大模型。如果大模型在结合文本、图像和视频的数据集上接受训练，以提供对世界如何运作的更丰富的感知，那么它们将减少幻觉。语言大模型与视觉、听觉，以及人类设计和发现的更加复杂的结构结合在一起，可以弥补自然语言智能的不足，对周围环境形成感知，让智能更加完整和“具身”。

大模型的小型化、平民化。开源的大模型，正在帮助实现一张显卡上能训练出百亿级参数的模型，成本仅数百美元。可能在不远的将来，人人都将可以获得本地的、定制化的大模型服务。人类的创造与消费活动将合为一体。

专业领域、细分领域的模型正在大量涌现。用专业知识和领域数据来精调大模型，会减少错误，通常在特定领域内比通用大模型更加可靠。

成为机器人的大脑。以语言大模型为基础，集成多模态模型，利用零样本学习方法让机器人完成任务。通过在真实的物理世界中与环境互动，完成人类任务，形成具身化的人工智能。（如LLM-Brain，谷歌的PaLM-E）

也许克服大模型所固有的弱点，除了上述技术之外，可能还需要新的范式，超越对下一个单词的预测。在科学家对GPT-4进行测试之后，提出了如下的建议：

以“慢思考”深层机制，监督下一个单词预测的“快思考”机制。这种方法可以允许模型执行长期计划、探索或验证，并保持工作记忆或行动计划。慢思考机制将使用下一个单词预测模型作为子程序，但它也可以访问外部信息源或反馈，并且能够修改或更正快速思考机制的输出。

超越单词预测。用层次结构取代标记序列，其中文本的高级部分（如句子、段落或思想）在嵌入中表示，内容以自上而下的方式生成。将长期记忆集成为体系结构的固有部分，也许在某种意义上，模型的输入和输出除了表示文本的标记之外，还将包括表示上下文的向量。

正如维特根斯坦在晚年几乎完全否定了自己早年关于语言的理论，把语言看成是一种人类全面参与的“游戏”，语言大模型将在无数人的应用中，不断探索语言的真谛，扩展智能的边界。

尽管大模型饱受批评，在数学家和物理学家沃夫拉姆（Steve Wolfram）看来，它依然是一个“令人惊讶的科学发现：在某种程度上，在像 ChatGPT 这样的神经网络中，有可能捕捉到人类大脑在生成语言时所做的事情的本质”。

大语言模型反过来帮助我们更深刻地理解人类智能，它提供了人类智能的一种对照。人工智能将使人类重新审视自以为已经知道的领域，例如，可能人类以为高深的东西，原本是浅显的。“神经网络之所以能够成功地写一篇论文，是因为写一篇论文被证明是一个比我们想象的计算‘更浅’的问题。”（Wolfram）。

大模型反过来提示人类，人类的哪些智力活动是真正有价值的，以及如何更有效地运用人类的智能。ChatGPT的推出，让人类的智能得到了一个“第三方”的评判，而未来知识的产生，也将越来越多地产生于人类与机器的协同之中。

如果人类无法解释大模型所产生的智能，只会有两种结果，要么这种智能的确是一种虚幻的东西，要么现有的理论需要来一次“范式转移”。

本文节选自未尽研究报告《通用AI，通用技术，通向何方》第一章。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究