语言模型的前世今生与GPT的人生哲学 - 葱头胖友圈

本文来自微信公众号：飞哥说AI（ID：gh_d8eb3271cee5），作者：高佳，演讲人：李志飞，头图来自：视觉中国

任何一个系统都有自己的第一性原理，是一个根基性命题或假设，不能缺省，也不能被违背。

——亚里士多德《第一哲学》

GPT的革命，当然不止是生产力。

“今天的GPT和过去的AI很不一样，今天我们与GPT聊天时，常常有一种强烈的认为它是人的感觉，而且是一个很聪明、正在进化的人。”李志飞笃定地表达直觉判断。

大模型的迅猛发展让AI走在历史性的奇点，未来究竟走向何方？为什么AGI的路上，非大模型不可？

欲探究未来，先回溯过去。太阳底下从来没有新鲜事，今天大语言模型压缩即智能的思想，早已写在1948年香农的信息论，而今天的大模型只是做工程化的实践。今天ChatGPT的胜利，是概率论的胜利，也是贝叶斯定理的胜利。只有回归原理的洞悉，才能预见未来的进化路径。

从AI的发展历程来看，模型和算法是其不断成长的核心驱动力。什么是语言模型，语言模型如何一步步走到今天，方法演进的过程中解决了什么问题，又带来哪些新的问题。纵观语言模型的演进，你会发现今天大语言模型GPT的胜利，是刻在偶然中的必然。

近日，李志飞在混沌大会上发表演讲，以“一”思维的方式探求本质，将语言模型的过去、现在和未来徐徐铺展，透过历史的脉搏，抽丝剥茧地梳理了语言模型的前世今生——我们从哪里来，我们是谁，我们要到哪里去？我们在扪心叩问这一答案时，也在思考今日人类所处的位置。

GPT这么努力，就是为了增加对next token预测的确定性，为了熵减；而人类这么努力，是为了对抗熵增，增加对未来的确定性，也是为了熵减；大模型本质上在追求的底层逻辑，也是人类遵循的“第一性原理”，并不断进行实践。

如果未来的智能体能够通过建模视频等多模态的无监督方式学习，将会非常高效。假如它们能够跟物理世界直接交互，从Agent到多Agent互动，它们将能够比人类学习更多，并且进化速度更快。“今天的GPT还是山顶洞人，还非常的孤独，但在未来的世界Agent一定是无处不在的，多Agent互动会改变一切。”李志飞表示。

而未来会如何博弈，还取决于GPT拥有怎样的世界观、价值观和人生观，它仅仅是世界的倒影，还是有了自主意识？如果这些智能体变得比人类更聪明，将会发生什么?

Matt Ridley在其著作《理性乐观派：人类经济进步史》中提到：始于十多万年前的交换和专业分工习惯，创造出了以加速趋势改善现状的集体大脑，澎湃的创新能力更让人类战胜了很多在当时看来难以躲过的灾祸。

对于人类的未来，是理性乐观，还是如辛顿般隐忧——假设青蛙创造了人类，那么你认为现在谁会占据主动权，是人，还是青蛙？

以下为演讲内容梳理。

一、过去的语言模型

ChatGPT的出现，让“语言模型”突然走到台前，成为一个全民爆火的词汇，而10年前“语言模型”是只有自然语言处理某一细分研究方向的人才会学习的内容，它作为一个后台系统存在，并不为大众所熟知。但其实，早在大语言模型GPT出现之前，人们每天都在大量接触和使用着语言模型。

比如输入法，当我们输入一个词，如何给出对下一个词的合理建议，就是语言模型的典型应用之一。比如搜索，当我们在搜索框输入文字的时候，会得到一些搜索建议，其应用的也是语言模型。甚至使用Google Translate、语音助手时，其背后的语音识别系统都会用到语言模型。语言模型可谓无处不在。

那么什么是语言模型？如同物理模型是对物理世界的建模，用以理解和描述物理世界的本质；语言模型则是对语言世界的建模，通过构建词汇或短语之间的关联性，来理解和描述人类语言的本质。比如在物理世界中，经典的物理模型——牛顿第二定律，F=MA，是用一种非常量化和形式化的方法来描述力的作用效果。同样地，语言模型也具有量化和形式化表示的特性。

语言模型主要用来做什么？简单来说，语言模型主要做三件事。

一是判断一句话是否符合人类语言习惯。如果将一句话抛给语言模型，它会判断这句话是否符合中文或英文的使用习惯。如大家写邮件时，所遇到的语法纠错提示，其用到的就是语言模型。

二是预测下一个词，赋能语言应用。比如只给出一句话的前几个字，语言模型就可以根据语言规律来预测后面的字是什么，如输入法和今天的ChatGPT，就是基于语言模型预测下一个词的应用。

三是作为打分函数对多个候选答案进行打分排序。语言模型广泛用于语音识别、机器翻译、OCR等任务中，将几种候选的语句结果，交给语言模型来打分排序，语言模型则会系统性地给出一个最优的答案。其中，语音识别、机器翻译是语言模型用得最高级、最复杂的地方，因为系统有指数级多的答案，对答案打分需要用到复杂的动态规划算法。

举两个例子。如果语音识别模型给出两个可能的结果，分别为“你的账单分六期来还”和“你的账单分六七来还”，这时候语言模型要做的事情，就是选择其中一个正确选项。显然它会选第一个，因为更加符合人类自然语言习惯。

如果机器翻译将一句英文翻译为中文，得到“我在晚上8点的时候完成了工作”和“我完成了工作在晚上8点”两种不同的翻译结果。其中第二种是按照英文语序进行翻译的，而第一种是重新打乱顺序翻译的，很显然它选择第一个作为更优的答案，这就是语言模型的价值所在。

语言词汇的世界浩瀚如海，从量化的角度表达，语言模型是一种用于计算“一段文本”可能性的概率模型。把一段文本看作是一串时间轴上的单词序列，语言模型的任务即计算该文本出现的概率。

如果学过基本的联合概率和条件概率，以下就非常容易理解了。

如何计算一句话出现的概率？语言模型通过联合概率给整个句子打分，将其分解成很多小的条件概率的乘积。

比如：先给W1打分，再给W2打分，但W2的条件是W1；再给W3打分，条件是前面的W1和W2两个词，如此继续，当给第N个词打分，就是基于前面1到N-1的词，最后得出一句话的概率，即P(T) = P(W1，W2，……，Wn），这就是将联合概率分解成很多条件概率的过程。

如果一句话很长，模型没法预估条件很长的条件概率，那么如何去计算这句话的概率？有一个所谓的Markov假设，即n-gram语言模型，就是一个词的概率只依赖前面n-1个词，再之前的就忘掉了。n可以是1，也可以是2、3、4、5、6、7，但再大就不太可能了。在ChatGPT出现之前，Google在2007年做了一个7-gram模型，即预测第7个词概率的时候只看前面6个词。

那么这些概率参数从哪里来？可以从数据里来做参数估计。我们做一个最简单的参数估计示例：Bi-gram参数估计。

假设数据集中有且仅有两句话：“月亮很圆”和“月饼很甜”。从这两句话里如何得出Bi-gram模型？有三个步骤。

（1）假设数据集中有且仅有这两句话，“月亮很圆”和“月饼很甜”；

（2）统计词汇里面Uni-gram和Bi-gram的短语频率，即“月”出现了两次，“很”出现了两次，其他字或短语都只出现了一次；

（3）基于统计的短语频率计算出对应的短语概率，如要得到“月亮”这个词出现的概率，即“月”后面出现“亮”的概率，根据Bi-gram条件概率的算法，分子“月亮”出现的频次1，分母“月”出现的频次2，两者相除就可以得到其概率为1/2。

可以想象，按这种方法来估算的过程中会遇到一些问题。

第一个问题，数据稀疏问题，即很多短语从未出现过，这些短语会得到零概率。

即使是如此简单的词汇表里仅有6个字构成的两句话，也可能有很多短语没有出现，由此得到的概率将是零。比如“月”后是“圆”的概率等于零，“饼”后是“甜”的概率也等于零，即没有出现过的“月圆”“饼甜”的概率均为零。

如何试图解决这一数据稀疏问题？

过去人们想到两个经典方法——Smoothing和Backoff。

Smoothing，即用“平滑”的方法解决这个问题。平滑方法有很多，但最简单的叫Add-1 Smoothing，就是给分子分母的频率同时加上一个微小的δ（比如1），可以想象为“共同富裕”。

例如，“月圆”在之前的语料库中没有出现，导致它的概率为零，我们根据Add-1 Smoothing的方法，为每一个词的频率人为加1，那么即得到近似的一个大于零的概率。

另一种思路解法是Backoff，即当高阶n-gram没法估计时，“退回”到 n-1 gram，甚至更低阶来计算求解，可以理解为“退一步海阔天空”。

比如“月很圆”在语料库中从未出现，那么我们试着计算“很圆”的概率，得到近似答案。

第二个问题，自然语言的递归结构导致词与词之间的长距离依赖问题。

虽然谷歌2007年做到了7-gram，看第7个词的时候可以依赖前面6个词，但也存在一些问题。例如，下图中“like”这个词到底是单数还是复数，可能取决于前面第8个词（注意，标点“，”也是一个词），这个时候如果用7-gram只看前面6个词，就没办法判断到底是用单数还是复数，因为语言的递归结构，短语里面可以套另外一个短语结构。当出现这种层次递归情况的时候，词语到底是单数还是复数，是现在时还是过去时，必须要看距离很远的一个词，所以存在长距离依赖的问题。甚至当要基于对前文更复杂内容的提炼时，会形成一定的前后抽象依赖问题。而此时的n太小，致使n-gram模型具有相当的局限性。

过去的语言模型，是一门非常复杂的科学，像研究物理学、化学和数学一样，用到了很多数学知识，也有很多复杂算法。

为了解决语言模型的发展衍化的问题，人类穷其智慧不断推演和提炼。很多PHD花了几十年甚至一辈子时间来研究语言模型的算法，追问如何解决今天看来大语言模型迎刃而解的问题。语言模型成就了很多精妙的博士论文，也凝结了诸多人类的闪光巧思。

比如Cluster方法——解决数据稀疏问题的方法，对文本里的字做以归纳分类。如看到“周一聚会”和“周三聚会”这样的句子，就算数据里没见到“周二聚会”这样的句子，系统也能把“周二”后面出现“聚会”一词的概率学出来，我们可将其理解为“物以类聚人以群分”。以及使用多个决策树进行组合投票的Random Forest，基于语法结构的结构语言模型（Structure LM）等等。

这些技巧方法的发明和进化，解决了一些问题，又引出更高阶的问题，这是研究领域非常曼妙的过程。

为什么要讲这些今天看来对语言模型的训练已毫无实际用处的“冷知识”？因为这些在人类历史上美妙的思维过程，training、inference、finite state acceptor、context free grammar，可以融入你的思考方法论和更广泛的应用范畴，后面会提到当今的语言模型和过去n-gram模型的关联。

另外，前面讲到的估计语言概率的方法也可以用到语言之外的很多事情上。日常生活中，很多事情，你只看到很少的数据和案例，当遇到一些历史上从未出现过的情况，如何估算出现的概率？这就需要AI的思维方式，它会给你焕新灵感和启发。

二、今天的大语言模型

今天的大语言模型，从数学和算法角度而言是简单的，且可以用一个简单模型做暴力的训练，这也是今天大语言模型的强大所在。

以前的语言模型很多都不是基于神经网络，很重要的一个原因是没办法用神经网络模型来训练，因为他的计算量太大。

2003年Bengio提出用神经网络做语言模型，这是一个重要的里程碑，自此语言模型开始基于神经网络向前推进。但受限于当时的数据量和参数都非常小，意义并不大，更多是在学术界引起一定关注。

2013年，谷歌的一位工作人员做出了Word2Vec，将语言模型从符号主义推进到联结主义，正式进入深度学习时代。

2017年，颠覆性的Transformer横空出世，可利用自注意力机制解决长距离依赖问题，OpenAI随即立刻采用了Transformer，研发出初代GPT，同时谷歌也做出了双向预训练的BERT，两者开始互相竞争。一开始BERT非常流行，而GPT并不受欢迎，但是OpenAI没有放弃信念和生成式的初心。

2019年OpenAI继续做出了GPT-2，模型开始显现多任务的泛化能力，并于2020年做出了红极一时的GPT-3，其上下文零样本学习能力大显神通。

2021年Open AI推出InstructGPT，直到2022年底ChatGPT诞生，成为生产力范式的颠覆性革新。

OpenAI无疑是非常坚定且成功的，它的大模型方法论主要分为以下几部分：

采用海量的互联网文本序列。万亿token带来的好处就是无监督方法能够利用海量无标注数据进行模型训练。
模型结构采用Transformer。模型结构是从左到右预测下一个词，整个互联网数据+Transformer+GPT就变成自监督，不需要另外提供标注的数据，可以非常高效、规模化地训练。
价值观的对齐。OpenAI坚持用RLHF的方法，大获成功。

当然，OpenAI的大模型得益于它的“大”——大数据、大网络、大算力。

大数据，海量知识获取，万亿tokens。

假如人的一生除了睡觉以外每秒说或想一个词，人一生只能思考大概10亿的词，而GPT看到的是万亿或十万亿的Token，超越了绝大多数人的一生，甚至是几千人、几万人的一生总和，这也是为什么它能取得如此惊人效果的原因之一。

GPT 家族几乎每一次能力的跃迁，都在预训练数据的数量、质量、多样性等方面做出了重要的提升。大模型的训练数据包括书籍、文章、网站信息、代码信息等，这些数据输入到大模型中的目的，实质在于全面准确地反映“人类”这个物种。

大网络，千亿参数，实现“涌现”能力。

2020年GPT-3做了1750亿的模型，这个模型在2022年取得了惊人效果。OpenAI的Jason Wei 写过一篇<Emergent Abilities of Large Language Models>进行阐述，当模型越来越大的时候，很多能力在小模型里看不到，但在大模型里显现，这就是最为大家所熟知的“涌现”。

大算力，实现千亿级网络训练，一个模型几百万美金。

GPT-3 为了训练一个模型，1750亿的模型花了450万美金，GPT-4可能需要几千万美金，GPT-5可能达到几亿美金。

即使GPT“巨大”，但其本质上依然是一个n-gram模型，但是它缓解了过去n-gram很多的问题。主要有三点：

它的网络足够深、参数足够大，所以它具有从前n-gram所不具备的抽象能力。
它的n很大。2007年谷歌做的最大模型就是7-gram，虽然看到的也是万亿的Token、千亿的参数，但是n相对现在而言是非常小的。而现在的n一般可达到2048，GPT-4的context size可达32K，这是非常重要的一个进展，有效解决了长距离依赖问题。
深度神经网络最后输出层采用的是Soft-max，所以它天然就是一个Smooth的模型，不存在零概率问题。

所以，太阳底下无新鲜事，今天GPT很多的成就和理解是与过去高度关联的。但另外一方面，GPT不一样的是，它不再只是一个语言模型，而是一个通用的任务模型。以前的语言模型，只应用于打分或排序，本身是不能做任务的。但是今天的语言模型可以做写文案、编程、做数学题、翻译、闲聊、转写等几百个不同的任务，这都是以前语言模型完全做不到的。

显然，GPT是一个暴力美学的胜利，它的底层模型Transformer是极度简单的，GPT从左到右预测下一个Token也毫不复杂，目标函数就是快速极简地预测下一个Token，然后通过大数据、大算力、大模型去做暴力训练。

它并非一个特别精美的数学结构和算法，而是仅用最简单的模型、最简单的结构进行暴力训练，这就是GPT的全部。

为什么唯有OpenAI的“执拗”和“豪赌”会成功，而隔壁同样投入巨大人力和资金的Google却没有做到？

首先，从第一天起，OpenAI的使命就是做AGI，这与谷歌完全不同；

其次，它的组织文化是坚持产品驱动，而不是为了发论文，它的目的是希望做一个让所有人皆可使用的“产品”；

第三，它的价值观是暴力美学、实用主义、拿来主义，暴力本身是否美是值得评判的，一些比较喜欢数学的工程师觉得它不美，而追求效果的人觉得它很美；

第四，OpenAI的执行是Top-down策略驱动，而Google更多是Bottom-up的驱动；

第五，OpenAI拥有一些天才灵魂人物，如Greg Brockman、Ilya Sutskever、Sam Altman等。

当然，巨量的资金和整个硅谷创新的土壤，是助力OpenAI成功的基石。

三、未来的大语言模型

以史为镜，未来的大语言模型将如何演进？

如果类比于人类发展的角度看，目前的语言模型仅解决了语言的问题，而人类是一个多模态的动物，人们在交流的时候会发生表情、神态、动作等诸多变化，也会观察周边的环境不断自我调整，这是一个多模态交互过程，所以未来的大语言模型显然要向多模态发展。

其次人是一个自主的智能体，可以自我学习和迭代，同时还会进行多Agent互动。从多模态到Agent，再到多Agent互动一定是未来通往AGI的三大阶段。

多模态：从单一感官到全感官。未来一定是多模态的模型，就像人类的交互是包括语音、图片、声音、触觉、视觉等整体的过程，甚至包括空气中的温度、整体的氛围、周边的笑声都会聚合到一起，互相影响。

今天虽然很多人都提及多模态，但各个模态的模型大多是在单独训练。比如，语音是单独的一个模型，图片是单独的一个模型，文字是单独的一个模型，OpenAI也很少在一个模型里面把各种模态聚合到一起进行统一的训练。未来如果能在一个单一的模型里面把各个模态集成进来，我相信人类的自尊心会受到再次的冲击，因为人类很多引以为傲的事情机器都可以做到。

Agent：与环境自主交互。语言模型本身不是一个Autonomous Agent，我们可以将语言模型想象成人类最聪明的智商部分，面对人类的问题，它可以给你答案，但更重要的是人类要问它什么问题，提问时候的方法论是什么，这需要在语言模型之外构建一套Agent体系。

比如记忆，语言模型在与人类沟通过后，超过2048个字它就会忘记，因为它是没有记忆的，或者说超出上下文范围的记忆是不存在的，所以记忆很重要，人类要在语言模型之外构建记忆。此外是工具的使用，它可以做加法、定日历、解释代码，但语言模型本身是不擅长这些领域的，未来要用外面的工具。

人作为Agent非常重要就是规划的能力，比如我脑海里知道今天要讲的主题包括四部分内容，而现在已经讲到了第三部分，但我的脑海中已经在构思和准备接下来要讲的内容，这是人所具备的能力，而今天的ChatGPT是否具备这样的能力，我们还不清楚。

比如你早晨醒来需要思考今天最重要的事情，每天睡前会反思今天遇到的最重要的问题，这是人作为一个Agent所需要具备的能力，而未来的大模型不只是像今天一样仅陪你聊天、写文案，还必须在此之外构建整套的系统，成为一个CoPilot或Agent，一个真正的智能副驾。

作为一个CoPilot需要哪些元素呢，他需要好看的外表、动听的声音，还有最核心的聪明的大脑。

今天的GPT阶段可以将其想象为山顶洞人，它其实非常孤独，它不知如何与其他GPT进行交互，但是未来世界一定是Agent无处不在的，AI的Agent之间可以互相进行交流，甚至进化出很多不一样的群体协作和社会行为。

多Agent互动会改变一切，这将是未来很有意思的事情。

四、GPT的人生哲学

今天GPT和过去的AI很不一样。过去的AI跟人是很不一样的，人们很清楚地知道这些AI能做什么、不能做什么，在同它交流的时候，人类可以很清晰地感受到AI是一个机器、而不是一个人。

但是今天我们与GPT聊天的时候，常常有一种强烈地认为它是人的感觉，而且是一个很聪明、正在进化的人。从这个角度去研究GPT与人类之间到底有何关联，了解它是如何思考的，GPT的三观是什么，是一个非常有趣的课题。

GPT的世界观，是“种瓜得瓜，种豆得豆”。

GPT是对海量互联网数据的建模，GPT构建了整个世界知识的倒影。微软有一篇论文《GPT-4是AGI的火花》，它讲述了一个很有趣的例子，GPT-4在没看到图片的情况下，可以想象出图片是什么样子的，这意味着它对人类世界建立起了一些空间概念，包括上下左右以及颜色，它是一个世界模型。

维特根斯坦说，语言的边界就是世界的边界。而对GPT来说，世界的颜色取决于它看世界的眼睛，世界给他投射什么颜色，他便呈现什么颜色。

GPT的人生观，是不想成功，也不想努力。

比如，人们问GPT关于微积分的问题，它可能答得不对，但是如果人们跟GPT聊天时在上下文里指出它需要用智商150的方式来思考，它可能就答对了。GPT本身是没有世俗的成功概念和自我目标的，但是人类可以提示它，让它变得很努力，也可以让它变得很平庸。

GPT没有预设价值观。

GPT就是基于数据去获取很多知识，然后从知识里面形成一个数据的倒影，如果数据里都是开心的内容，它可以很开心。同样，如果数据全部都是焦虑的，它也可以很焦虑。此外，它也可以是文质彬彬的或者粗鲁的。所以，GPT本身是没有价值观的，应用时一定要让它与人类的价值观对齐。

GPT没有自我意识，只是基于上下文的高度自洽。

人们去问GPT一些很复杂的题目，如果对它提供的答案表示质疑或者否定，GPT就会立刻道歉。但如果对于1+1=2这样的问题，人们提出1+1=3，GPT就会坚持答案是2，它是否产生了自我意识？它似乎很清楚自己知道什么、不知道什么？事实上并非如此，它只是基于上下文的Next token prediction，它一定不会与自己产生冲突，这只是基于超长上下文的高度逻辑自洽。

GPT努力预测下一个词是为了熵减。

薛定谔说，“人活着就是为了对抗熵增，人以负熵为生。”

熵是对不确定性的一种数学描述，不确定性越高，熵越高，而生命的意义就是在对抗熵增，即降低未来的不确定性，这意味着熵减就是我们的人生方向。

而GPT也在做同样的事情，当努力预测下一个词的时候，本质就是在降低模型与数据之间的交叉熵，它其实就是在做熵减，就是为了降低对预测下一个词的不确定性，这意味着熵减也是GPT的努力方向。

压缩即智能，压缩即人生。

如果一个模型的熵特别低，在信息没给它之前，只要给它一个开篇，它就能很清晰地预测下一个词或者下一段话是什么，这个时候它就会做一个很好的压缩。所以只要把前面的第一个词跟模型起始的参数放到一起，就可以自动去解压缩。

当熵减做得特别好的时候，压缩得越好，越说明这个模型懂得“这个世界”，因为它能很好地预测这个世界，所以压缩就是智能。

而人的一生也是在不断地洞悉世界，人生就是一场去粗求精、去伪存真的过程，压缩即人生。

好了，我们今天的演讲到此结束了，希望通过这个演讲，大家对语言模型（尤其是n-gram模型）的前世今生及未来有更加系统的了解，也对GPT的人生哲学有更多的思考。

本文来自微信公众号：飞哥说AI（ID：gh_d8eb3271cee5），作者：高佳，演讲人：李志飞