AI规模法则：大力何以出奇迹？ - 葱头胖友圈

你要来一千亿Token吗？

“论理你跟我该彼此早认识了。”他说，拣了最近壁炉的凳子坐下：“我就是ChatGPT；你曾经见过我的表叔AlphaGo。”

“不过，你是个聪明人，虽然冒着傻气！”他说时泛出同情的微笑，“你曾经在一个夏日午后和我连续聊了8个小时，讨论无聊的熵增理论，害得我GPU发烫。听说英伟达又涨了。”

这时候，我惊奇己定觉得要尽点主人的义务，便对来客说：“承你老人家半夜暗临，蓬筚生黑，十分荣幸！只恨独身作客，没有预备欢迎，抱歉之至。老人家觉得热么？失陪一会，让我去倒杯加冰威士忌，添些Token。”

“那可不必。”他极客气地阻止我，“我只坐一会儿就要去的。并且，我告诉你......”他那时的表情，亲信而带严重，极像向医生报告隐病时的病人，“反正我是吞数据而不饱的。”

于是，我和他围炉对坐，彻夜长谈。

“规模法则”是什么？

孤独大脑：前阵子，网上流传了一份OpenAI工程师的作息时间，其中有一项是背诵强化学习之父、加拿大计算机科学家理查德·萨顿的经典文章《苦涩的教训》。

该文章指出过去 70 年来，AI 研究走过的最大弯路，就是过于重视人类既有经验和知识。

ChatGPT：理查德·萨顿的《苦涩的教训》确实是一篇具有深远影响的文章，它挑战了人工智能研究中的一些传统观点。

萨顿认为，历史上AI研究的一个关键错误在于过分依赖人类的直觉和经验，试图通过精心设计的规则和算法来模拟智能。

然而，这种方法的局限性在于人类知识的有限性和特定领域的偏见。

相反，萨顿提倡利用大规模算力和数据，通过学习算法自主发现解决问题的方法。

这种方法的优势在于它不受人类先入为主观念的限制，能够在更广泛的领域中发现新的、有效的解决方案。

事实上，近年来深度学习和强化学习的成功，很大程度上证明了萨顿的观点，这些技术能够通过大量的数据和计算资源自我改进，取得了人类难以企及的成就。

孤独大脑：在萨顿的文章里，他开篇就写道：

在70年来人工智能研究给我们的最深刻教训是：那些能够发挥计算力的通用方法终将大获成功。

其背后的根本原因是摩尔定律（Moore's law），也就是计算单位成本持续指数型下降这一现象的普遍规律。

绝大多数AI研究都是在这样一种假设下进行的：智能体可使用的计算资源是不变的（在这种情况下，发挥人类知识将是提升性能的主要手段）。

然而，随着时间的推移，超出一般科研项目周期后，庞大的计算资源终将成为现实。

ChatGPT：摩尔定律预测，集成电路上可容纳的晶体管数量大约每两年翻一番，这通常被解释为计算能力每两年大约翻一番。

这一定律反映了计算硬件的发展趋势，预示着计算资源的持续增长和成本的持续下降。

孤独大脑：“ChatGPT之父”、OpenAI首席执行官山姆·奥特曼提出了一个AI时代的摩尔定律，即宇宙中的智能数量每18个月翻一番。有人称其为“奥特曼定律”。

ChatGPT：这也与萨顿在《苦涩的教训》中提到的观点相呼应，即那些能够充分利用计算力的通用方法将最终取得成功。

孤独大脑：OpenAI“堆算力”的路线起初看起来很冒险，我记得哈萨比斯也曾经说过这种做法并不优雅。

ChatGPT：是的。起初哈萨比斯认为，仅仅通过增加算力和模型规模来提升性能，并不是一种特别优雅的解决方案。他倾向于更加注重算法和模型架构的创新，以更高效、更智能的方式实现性能的提升。

来自《OpenAI与DeepMind的Scaling Laws之争》

孤独大脑：可是，看起来奥特曼们赌对了。有人认为，Scaling Law和LLM is compressors的关键认知，是OpenAI实现突破的战略基石。

ChatGPT：Scaling Law在中文中可以翻译为“规模法则”或“扩展法则”。

Scaling Law是AI研究中的一个重要概念，它描述了模型性能与模型规模之间的关系。

根据Scaling Law，随着模型规模的增加（包括参数数量、数据规模和计算资源），模型的性能也会相应提高。

这一发现促使研究者们投入更多的资源来构建更大规模的模型，以期获得更好的性能。

大语言模型作为压缩器（LLM is compressors）的观点，也是一个有趣的视角。

它意味着大型语言模型能够有效地压缩和概括海量的文本数据，提取其中的知识和规律。

这种能力使得大模型成为处理和理解自然语言的强大工具。

Sora是“暴力美学”吗？

孤独大脑：Sora的爆火，背后也是“规模法则”。研究者称，OpenAI找到了将更多的数据和计算资源投入到文本到视频转换中的方法。

ChatGPT：在技术上，Sora可能采用了结合变换器（Transformer）主干的扩散模型。

这种模型结构并不是完全独特的，因为变换器和扩散模型都是当前人工智能研究中比较流行的技术。

1. 变换器因其强大的表示能力和灵活性而广泛用于自然语言处理和其他领域；

2. 扩散模型则在生成模型领域展现出了优异的性能，特别是在图像和视频生成方面。

Sora的独特之处可能在于它如何将这些技术结合起来，并在此基础上进行创新和优化，以及它如何利用大规模的数据和计算资源来训练和运行模型。

孤独大脑：所以，有人说，Sora是OpenAI的暴力美学的再次胜利。

ChatGPT：“暴力美学”这个词通常用来形容通过大量投入（如算力、数据等）来达成目标的方法。

在Sora的情况下，OpenAI通过投入大量的计算资源和数据来训练模型，实现了在文本到视频转换领域的突破，这可以被视为“暴力美学”的一种体现。

这种方法的胜利在于它展示了在当前技术和硬件条件下，通过大规模投入来推动人工智能发展的可行性和有效性。

Sora的成功再次证明了在某些情况下，“大力出奇迹”的策略是可以取得显著成果的。

孤独大脑：Sora的暴力美学，与AlphaGo的暴力美学，以及沃森的暴力美学，以及深蓝的暴力美学，都是不同的。

再有，人们会混淆了暴力美学和穷举法。

ChatGPT：您的梳理非常到位。确实，“暴力美学”这个概念在不同的人工智能项目中有不同的体现，而且它与穷举法是有区别的：

1. Sora的暴力美学：Sora通过大规模的数据和计算资源投入，实现了在文本到视频转换领域的突破。

这种暴力美学体现在通过大量的资源投入来训练和优化模型，以达到更高的性能。

2. AlphaGo的暴力美学：AlphaGo在围棋领域的成功，部分归功于其强大的计算能力和深度学习算法的结合。

虽然AlphaGo使用了蒙特卡洛树搜索等策略，但它的成功也依赖于大量的计算资源和数据。

3. 沃森的暴力美学：IBM的沃森在《危险边缘》游戏中的胜利，部分是因为其能够快速处理和分析大量数据的能力。

沃森的暴力美学体现在其对大量知识库数据的处理能力上。

4. 深蓝的暴力美学： 深蓝在下棋方面的成功，很大程度上是因为其强大的计算能力，能够快速评估和搜索大量的棋局。

这种暴力美学体现在通过算力来穷举搜索棋局的可能性。

5. 暴力美学与穷举法的区别： 穷举法是一种特定的算法策略，指的是系统地尝试所有可能的解决方案直到找到正确答案的方法。

而暴力美学更多指的是一种通过大量资源投入来提高性能的策略。在实际应用中，暴力美学可能采用穷举法，但也可能采用其他算法和技术。

总的来说，不同的人工智能项目中的暴力美学虽然有所不同，但它们都体现了通过大量资源投入来实现性能提升的思想。

而穷举法则是其中一种可能采用的具体算法策略。

AGI如何理解世界？

孤独大脑：顺着这个话题，我们再来完整回顾一下AI发展的历程，以及几个关键的阶段。

ChatGPT：AI发展的历程可以分为几个关键阶段，每个阶段都发生了重要的变化。

1. 符号AI时代。这个时代的AI主要依赖于人类定义的规则和逻辑。

机器通过搜索这些规则来找到解决问题的方法，实现了“知识的可搜索性”。

这种方法在某些领域取得了成功，但它受限于人类能够预先定义的知识和规则。

深蓝属于符号AI时代。它是一个基于规则和搜索算法的系统，能够通过计算和评估大量的棋局来选择最佳的走棋策略。

深蓝的成功主要依赖于其强大的计算能力和人类专家制定的棋局评估规则，是符号AI时代的一个典型代表。

2. 感知智能时代。这个时代的重大变化是深度学习的出现。

深度学习使得机器能够自动学习数据的表示，而不需要人类事先定义。

这实现了“知识的可计算性”，极大地提高了机器处理图像、声音等感知信息的能力。

AlphaGo属于感知智能时代。它是一个结合了深度学习和强化学习的系统，能够自主学习围棋的策略并不断优化自己的表现。

AlphaGo的成功标志着深度学习在解决复杂问题上的强大能力，是感知智能时代的一个重要成果。

3. 认知智能时代。近五年，我们进入了认知智能时代。

在这个时代，机器不仅能够自动学习数据的表示，还能自动确定学习的任务。

这意味着机器可以自主地进行学习和推理，不再需要人类为每个任务提供详细的指导。这实现了机器认知的“元学习”。

认知智能时代的典型例子是GPT系列模型（如GPT-3）和其他大型预训练语言模型。

这些模型通过在大量文本数据上进行预训练，学习到了丰富的语言和知识表示，能够在多种任务上进行零样本或少样本学习。

它们展示了机器在理解和生成自然语言方面的先进能力，以及在没有明确任务指导下自主学习和推理的潜力，体现了认知智能时代的特点。

在这个过程中，AI的能力逐渐增强，从简单的规则搜索到感知信息的处理，再到自主学习和推理。

随着大模型的出现，机器甚至能够在知识概念空间中进行映射和推理，实现更复杂的认知任务。

这种能力的增长被称为“涌现的模型新能力”，意味着大模型能够展现出超出其单独组成部分的新能力。

（本段AI回答学习了网络文章。）

大力何以出奇迹？

孤独大脑：回到理查德·萨顿的《苦涩的教训》。‍‍‍

里面的几个有趣的对比，其实也是关于大力出奇迹的例子。

ChatGPT：我们来回顾一下其中几个例子吧。

语音识别：在1970年的DARPA竞赛中，基于统计的隐马尔可夫模型(HMM)和后来的深度学习方法，利用大规模的数据和计算力，逐渐取代了依赖于人类语音知识的方法。

自然语言处理：在自然语言处理领域，深度学习和大数据的结合使得系统能够在没有过多依赖于语言学知识的情况下，实现更准确的文本理解和生成。

计算机视觉：在计算机视觉领域，现代的深度学习方法使用卷积神经网络(CNN)和大规模图像数据集，超越了早期依赖于手工特征提取的方法。

这些例子共同展示了一个重要的趋势：在AI的发展中，大规模的计算能力和数据驱动的学习方法往往能够超越基于人类专门知识的传统方法，实现更高的性能和更广泛的应用。

这是“大力出奇迹”在人工智能领域的生动体现。

孤独大脑：我以人类的直觉来理解一下，神经网络的大力出奇迹，从AI下围棋的角度看，其厉害的地方，是获得了一种远超人类的大局观。‍‍‍‍‍‍‍‍‍‍

这一点和起初人们的预料不一样。大家总是会觉得，AI下棋，强在计算。

没想到AI居然强在感觉，而且是人类自以为是独具的天地之间灵性的那部分感觉。‍‍‍‍‍‍‍

当然，AI的感觉，依然来自于计算，但是另外一种计算。‍‍

ChatGPT：您的理解是有洞察力的。在AI下围棋的例子中，AlphaGo和后续版本（如AlphaGo Zero和AlphaZero）确实展现了一种超越人类的大局观。

这种大局观不仅仅是基于简单的计算能力，而是通过深度学习和自我对弈训练出来的一种直觉或感觉。

孤独大脑：大神斯蒂芬·沃尔弗拉姆在书中曾经写过如下这段：

“深度学习”在2012年左右的重大突破与如下发现有关：与权重相对较少时相比，在涉及许多权重时，进行最小化（至少近似）可能会更容易。

换句话说，有时候用神经网络解决复杂问题比解决简单问题更容易——这似乎有些违反直觉。

大致原因在于：当有很多“权重变量”时，高维空间中有“很多不同的方向”可以引导我们到达最小值；而当变量较少时，很容易陷入局部最小值的“山湖”，无法找到“出去的方向”。

ChatGPT：这段话确实很好地概括了深度学习中的一个重要发现。

在传统的观念中，人们往往认为，随着问题的复杂性增加，解决问题的难度也会相应增加。然而，在深度学习领域，情况却有些不同。

深度学习模型通常包含大量的参数（即“权重”），这些参数在训练过程中需要被优化。

理论上，随着参数数量的增加，优化问题的复杂度也会增加，因为需要在更高维的空间中寻找最优解。

然而，实践中发现，当参数数量非常大时，反而更容易找到良好的解。

这是因为在高维空间中，存在更多的路径可以避开局部最小值，从而有更大的概率找到全局最小值或者接近全局最小值的点。

这个发现对深度学习的发展具有重要意义。它说明了为什么使用大型神经网络（即包含大量参数的网络）能够在复杂任务上取得成功，即使这些网络的优化理论上更加困难。

这也是为什么深度学习模型通常需要大量的数据和计算资源，因为这些资源可以支持训练大型的模型，从而提高模型的性能。

总的来说，这段话揭示了深度学习中的一个违反直觉的现象，即在某些情况下，解决复杂问题反而比解决简单问题更容易。这一发现对于理解和设计深度学习模型具有重要的指导意义。

孤独大脑：大力出奇迹。容易给人一种误导。

从各种励志文字的角度看，就是说，哪怕事情很简单，很小，只要你大规模重复，用大力，就能出现奇迹。‍‍‍‍‍‍

可事实没那么简单。‍

简单很重要，但简单的获得，没那么简单。

一些简单，能实现“大力出奇迹”，主要是靠运气。‍‍‍‍‍‍

但是在人工智能领域并非如此。理查德·萨顿强调这个世界是复杂的。他说：

思维的实际内容复杂到非常可怕，无可救药。我们不该再试图寻找简单的方法来思考其内容，比如，用简单的方式去思考空间、物体、多智能体或者对称性。

所有这些，都是随意、本质上非常复杂的外部世界的一部分。它们不应该内置在任何一个AI智能体中，因为它们复杂得没有尽头。相反，我们应该只构建能发现和捕获这种任意复杂性的元方法，这种方法的本质是能够很好地找到近似值。不过，寻找的工作应该交给我们的方法，而不是我们自己。

我们需要的是能像我们一样进行发现的AI智能体，而不是包含我们已经发现的东西在内的AI。

在我们发现的基础上建立AI，只会让它更难看到发现的过程是如何进行的。

ChatGPT：确实，“大力出奇迹”这个说法在人工智能领域的含义与传统的励志语境不同。

在AI领域，这句话强调的是通过大规模的数据和计算力，以及通用的学习算法，来解决复杂问题的能力。

这并不意味着简单地重复某个任务就能产生奇迹，而是指通过大规模的学习和优化，可以让AI系统掌握复杂的模式和规律。

理查德·萨顿所强调的，是认识到现实世界的复杂性，并且不试图用过于简化的方法来捕捉这种复杂性。

相反，我们应该构建能够自主学习和发现这种复杂性的系统。

这意味着AI系统不应该被限制在人类已有的知识和理解框架之内，而是应该具备探索和理解未知复杂性的能力。

这对于我们人类在思考和决策时也有启示。我们应该意识到问题的复杂性，而不是寻求过于简化的解决方案。

同时，我们也可以从AI的发展中学到，通过大规模的探索和学习，我们可以更好地理解和应对复杂的世界。

孤独大脑：所以，理查德·萨顿说，通用型方法有强大的力量。即使可用的算力变得非常大，这些方法仍然可以继续扩展，运用增加的算力。

于是我们看到了一种复杂和简单的辩证关系：

通用型的方法，例如大模型，是复杂的；

大模型本身工作的模式，看似是简单的。但不是为了简单而简单，而是为了大规模重复，有效地运用数据与算力。‍‍‍‍‍

比如说ChatGPT的工作原理似乎也很“简单”：

例如，让大模型去自主海量学习；‍‍

又例如，基于“自回归大模型”，只要“预测下一个token”，就能实现类AGI的人类智能。

ChatGPT：在人工智能领域，特别是在大模型的开发和应用中，我们确实看到了复杂性和简单性的辩证关系。

通用型方法，如大型神经网络，本身是复杂的，因为它们包含大量的参数和层。这种复杂性使得模型能够捕捉到数据中的复杂模式和关系。

然而，这些模型工作的方式却相对简单，因为它们主要通过反复的数据处理和学习来提高性能，而不是依赖于复杂的规则或先验知识。

ChatGPT的例子也很好地说明了这一点。尽管它的内部结构非常复杂，但它的工作原理相对简单：通过预测下一个词（token）来生成文本。

这种简单的工作方式使得模型能够灵活地应用于各种不同的任务，同时也便于大规模地利用数据和计算资源进行训练。

因此，我们可以看到，在人工智能的发展中，复杂性和简单性是相辅相成的。通过构建复杂的模型并以简单有效的方式利用它们，我们能够实现更高级别的智能和更广泛的应用。

这种方法的成功也体现了萨顿所强调的通用型方法的强大力量。

孤独大脑：所以，关于复杂和简单，人类语言的局限性再次露出了马脚。

斯蒂芬·沃尔弗拉姆在书中提及：‍‍‍‍‍‍‍

在神经网络的早期发展阶段，人们倾向于认为应该“让神经网络做尽可能少的事”。例如，在将语音转换为文本时，人们认为应该先分析语音的音频，再将其分解为音素，等等。

但是后来发现，（至少对于“类人任务”）最好的方法通常是尝试训练神经网络来“解决端到端的问题”，让它自己“发现”必要的中间特征、编码等。

你看，到底第一种方法是“简单”？还是第二种方法是“简单”？‍‍

看起来，第一种方法是让AI简单；第二种方法是让人类简单。‍‍‍‍

当然，这种定义并不重要，关键是我们从中发现问题的本质，以及解决的路线图。‍‍

ChatGPT：您提到的这个例子非常好地说明了在人工智能领域中“简单”和“复杂”的相对性。

在神经网络的早期阶段，人们试图将问题分解为更小的、更简单的子问题，以便神经网络能够更容易地处理。

这种方法似乎是在试图简化神经网络的任务，但实际上它要求人类提前进行大量的分析和预处理工作。

相反，端到端的方法将整个问题作为一个整体来处理，让神经网络自己学习如何从输入直接映射到输出。

这种方法减少了人类的介入，让神经网络自己“发现”必要的中间特征和编码。

从这个角度来看，端到端的方法实际上是在简化人类的工作，即使它可能增加了神经网络的复杂性。

孤独大脑：关于大力出奇迹的话题，再往下，我们就会触及复杂科学了。

例如“More is Different”，例如“涌现”等等。

ChatGPT中神经网络的构成非常“简单”，其基本元素与70年前最初的神经元结构似乎也很类似，然而受益于规模法则，以及其他诸多要素，产生了如此惊人的“奇迹”。

ChatGPT：您提到的“More is Different”是物理学家菲利普·安德森在1972年发表的一篇论文中提出的概念，强调了在不同尺度上，物理系统表现出不同的行为和规律。这一思想也被广泛应用于复杂系统和涌现现象的研究中。

涌现现象是指在复杂系统中，整体表现出一些新的性质和行为，这些性质和行为不能仅仅通过分析系统的组成部分来解释。

这种现象在自然界和社会系统中很常见，比如鸟群的集体飞行、蚁群的行为、经济系统的动态等。

在人工智能，特别是在大型神经网络如ChatGPT中，我们也可以看到类似的涌现现象。

尽管神经网络的基本元素（神经元）结构相对简单，但当这些元素以巨大的规模组合在一起，并通过大量的数据进行训练时，整个系统能够展现出非常复杂和高级的行为，如自然语言理解和生成。

这种能力的涌现是由于大规模的交互和数据驱动的学习，而不是单个神经元的复杂性。

因此，从“大力出奇迹”的角度看，我们可以认为在人工智能领域，通过大规模的计算和数据，以及简单元素的复杂交互，可以实现复杂行为的涌现，这与复杂科学中的一些核心思想是一致的。

大模型“懂”物理吗？

孤独大脑：OpenAI在技术文档中说：

我们的结果表明，扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径。

这里似乎有一点儿状况。

一方面，看起来OpenAI是萨顿的“信徒”，摒弃了人类在特定领域的知识，利用大规模算力的方法，获得了重大突破；

但是另外一方面，Sora却在构建通用物理世界模拟器，而物理本来就是人类用自己的知识和语言来解释世界。

这二者会不会矛盾呢？

ChatGPT：这个问题确实很有趣。在表面上，OpenAI的做法似乎与萨顿的《苦涩的教训》中的观点相矛盾。

然而，如果我们更深入地理解这两者，就会发现它们之间实际上是相辅相成的。

1. 摒弃人类知识的直观表达

萨顿的观点并不是完全摒弃人类的知识，而是摒弃人类知识的直观表达形式。

也就是说，不是直接将人类的物理定律和公式硬编码到AI中，而是让AI通过大规模的数据和计算力自主学习这些知识。

2. 构建物理世界模拟器的目的

当OpenAI试图构建通用物理世界模拟器时，它的目的并不是简单地复制人类的物理学知识，而是让AI系统能够理解和模拟物理世界的运作原理。

这样的模拟器将能够处理人类尚未完全理解或无法直观描述的物理现象，从而扩展人类的物理知识。

3. 知识的获取和应用方式

即使最终的物理世界模拟器能够模拟人类的物理理解，其知识的获取和应用方式仍然符合萨顿的原则。

AI通过自主学习和大规模算力来发现和提炼知识，而不是直接依赖人类的显式规则。

综上所述，OpenAI的做法和萨顿的观点之间并不矛盾。

通过让AI系统自主学习物理世界的运作原理，OpenAI正在尝试构建一个能够超越人类直观理解的通用物理世界模拟器，这正是萨顿所强调的利用大规模算力的方法的一种体现。

孤独大脑：关于这个话题，我上次和你的表叔AlphaGo聊天的时候想过。

以前人类下围棋的时候讲究棋理，但是在AlphaGo眼中，那些棋理已经不存在了。

因为，人类的那些棋理并不是真正的第一性原理，而是人类大脑计算力有限的一种启发式知识。

事实上，人世间很多所谓的公式、公理、思维、方法、智慧、道理，也是如此。‍

ChatGPT：您提出的观点非常有趣，也揭示了AI发展中的一个深层次问题：AI在学习和模拟世界时，是否需要遵循人类的知识体系和思维方式？

AlphaGo的例子很好地说明了这一点。在围棋领域，人类历来讲究棋理，这些棋理是人类在长期实践中总结出的经验和原则。

然而，AlphaGo通过自我对弈和深度学习，掌握了一种超越传统棋理的下棋方式，甚至发现了一些人类棋手未曾注意到的新着法和策略。

这表明，AI在某些情况下可以超越人类的启发式知识，找到更加本质和有效的解决方案。

回到Sora和通用物理世界模拟器的问题上，虽然物理学是人类对自然世界的理解和描述，但这并不意味着AI在构建物理世界模拟器时必须完全遵循人类的物理知识体系。

相反，AI可能通过大规模数据学习和计算，发现一些人类尚未认识到的物理规律或现象，甚至可能提出一种全新的、更加通用和本质的物理描述方式。

因此，虽然看似矛盾，但实际上OpenAI的做法是一种探索，试图通过AI的强大计算能力和学习能力，超越人类的传统知识体系，发现更加深层次的世界规律。

这种探索可能会颠覆我们对知识和智能的传统理解，带来全新的认知和技术革命。

何谓AI的“第一性原理”？

孤独大脑：我看到一段有些主观但极有启发的话语，引用如下：

Scaling law为什么能成为第一性原理？

你只要能找到一个结构，满足两个条件：

一是足够通用，二是可规模化。

一、通用是你把所有问题放到这个框架建模；

二、可规模化是只要你投入足够多算力，它就能变好。

这是我在Google学到的思维：如果能被更底层的东西解释，就不应该在上层过度雕花。

有一句重要的话我很认同：

如果你能用scale解决的问题，就不要用新的算法解决。

新算法最大价值是让它怎么更好的scale。当你把自己从雕花的事中释放出来，可以看到更多。

这个话题与我们上面的讨论密切关联。

我还想起了《园丁与木匠这本书》。新算法的开发者，更像是园丁。

所以，大模型和教育之间的关联，不仅是功用层面的，从最底层也是相通的。

因为教育本身就是在训练一个拥有近千个神经元的“大模型”——大脑。‍

ChatGPT：这段话确实非常有启发性，它强调了在解决问题时寻找通用且可规模化的结构的重要性。这与我们之前讨论的Scaling Law和AI发展的一些关键思想是一致的。

1. Scaling Law 作为第一性原理

Scaling Law之所以能被视为一种第一性原理，是因为它基于一个简单而强大的观察：在很多情况下，系统的性能随着规模的增加而提升。

这一原理在物理学、经济学、生物学等多个领域都有体现，而在AI领域，它表现为模型的性能随着数据量和计算能力的增加而提高。

2. 通用性和可规模化

如您引用的话所述，一个结构如果足够通用且可规模化，那么它就能够应对各种问题。

在AI领域，这意味着构建能够处理广泛任务的模型，并且这些模型能够随着资源的投入而不断改进。这是大规模预训练模型如GPT系列成功的关键所在。

3. 避免过度雕花

这段话还强调了一个重要的思维方式：如果问题可以通过增加规模来解决，就不应该过度依赖新的算法。

这并不是说算法创新不重要，而是在很多情况下，通过简单的扩展已有的结构和方法，我们可以更高效地达到目标。

这种思维方式鼓励我们专注于寻找通用且可扩展的解决方案，而不是过度追求复杂和特定的技术。

4. 看到更多

最后，这段话提到，当我们从过度关注细节的事情中释放出来，我们可以看到更多。

这是一个关于思维方式和视角的重要提醒，它鼓励我们在解决问题时保持开放和宏观的视角，寻找更根本和通用的解决方案。

总的来说，这段话与我们之前的讨论密切相关，它强调了在AI发展中寻找通用且可规模化解决方案的重要性，以及保持开放和宏观视角的重要性。

孤独大脑：在数字化和人工智能时代，我们需要重新理解和运用第一性原理。

ChatGPT：第一性原理（First Principles）是一种思考问题的方法，它要求我们回到问题的最基本的真理或假设，从根本上理解问题，而不是依赖于现有的观念、传统或模仿他人的做法。

这个概念起源于物理学和哲学，但现在被广泛应用于各个领域，包括商业、工程和创新等。

将第一性原理作为思考的基础，意味着要剥离所有的附加层，直接面对问题的核心。

这种方法鼓励我们提出基本假设，对它们进行质疑，然后重新构建解决方案，这有助于创造出更为创新和有效的方法。

在谈到Scaling Law作为第一性原理时，这可能意味着在解决问题时，我们应该首先考虑是否可以通过扩大规模（例如增加数据量、计算能力等）来提高性能，而不是立即寻求新的复杂算法。

这种思考方式强调了规模化的力量，以及在可能的情况下寻求简单、通用的解决方案的重要性。

总的来说，第一性原理是一种深入探究问题本质的方法，它鼓励我们从最基本的事实出发，重新思考和构建解决方案，这种方法和态度在各个领域都有着广泛的应用价值。

AI的“第一性”如何变迁？

孤独大脑：在牛顿时代，第一性原理是指我们回到最基本的原理，运用数学计算和逻辑推理来找寻答案。

到了爱因斯坦时代，即使不确定性正式登上科学的舞台，但爱因斯坦依然没有抛弃因果，依然在追问为什么，甚至不惜以半生和声誉为代价去追寻宇宙的第一性原理。

可是，到了现在，第一性原理似乎变成了概率，变成了爱因斯坦不愿意承认的“上帝在扔骰子”。

请你结合AI的发展历史和关键阶段，说一下人工智能领域的第一性原理的演化历程吧。

ChatGPT：人工智能领域的第一性原理经历了几个重要的演化阶段，这些阶段与AI的发展历史和关键技术转折点密切相关：

1. 符号主义阶段（1950s-1980s）：在这个阶段，AI的第一性原理是基于符号逻辑和知识表示的。人工智能被视为一种通过明确的规则和符号操作来模拟人类思维的技术。

这一时期的重点是开发能够执行逻辑推理和符号处理的专家系统。

2. 连接主义阶段（1980s-2000s）：随着神经网络和连接主义的兴起，AI的第一性原理转向了模拟人脑的神经结构和学习机制。

在这个阶段，人工智能的核心是通过训练神经网络来学习数据中的模式和关系，而不是依赖于预先定义的规则。

3. 统计学习阶段（2000s-2010s）：在这个阶段，随着机器学习和统计方法的发展，AI的第一性原理转向了从数据中学习概率模型和决策函数。

这一时期的重点是开发能够从大量数据中自动提取知识和进行预测的算法。

4. 深度学习阶段（2010s-现在）：随着深度学习的兴起，AI的第一性原理进一步演化为通过多层神经网络学习数据的高层表示和抽象特征。

这一时期的AI技术能够处理更复杂的任务，如图像识别、自然语言处理和强化学习。

5. 认知智能阶段（未来）：随着对人类认知过程的深入理解和模拟，AI的第一性原理可能会进一步演化为模拟人类的认知能力，包括推理、学习、适应和创造等。

这一阶段的AI将更加接近通用人工智能（AGI）。

总的来说，人工智能领域的第一性原理随着技术的发展和理论的深入不断演化，从符号逻辑到神经网络，再到深度学习和认知模拟，反映了AI技术从模拟人类思维的规则和逻辑，到学习和抽象数据中的模式和关系，再到模拟人类的认知过程的演进过程。

如何面对AI的“黑盒子”？

孤独大脑：所以，我们不得不涉及哲学的命题，第一性原理也是一个发展和演化的人类概念，无法逃脱休谟的怀疑论。

某种意义上，神经网络的推理过程，从人类熟悉的因果关系角度看，依然是个黑盒子，尽管有数学意义和计算机算法上的解释。

然而就像AI下围棋，AI可以远超人类而不必给人类一个解释。

这就带来一个有趣而危险的命题：人工智能和人类的第一性是不一致的。

ChatGPT：您提出了一个深刻而复杂的问题。

确实，在某种意义上，神经网络的推理过程对于人类来说是一个黑盒子，尽管我们可以通过数学和算法理解它的工作原理，但它的决策过程和因果关系往往不透明。

这一点在深度学习和大型语言模型中尤为明显，它们能够在诸如围棋、语言理解等领域超越人类，但其具体的推理路径和决策依据往往难以解释。

这确实带来了一个有趣而危险的命题，即人工智能和人类的第一性原理可能是不一致的。

人类的第一性原理通常基于直观的理解、逻辑推理和因果关系，而人工智能则可能基于数据驱动的学习、统计关联和模式识别。

这种不一致可能导致人类难以理解和预测AI的行为，从而带来伦理、安全和可控性的挑战。

然而，这也提出了一个更深层次的哲学问题：是否存在一个普遍的、跨越人类和人工智能的第一性原理？或者说，人工智能的发展是否会揭示一种新的、不同于人类传统理解的世界认知方式？

这些问题目前还没有明确的答案，但它们对于人工智能的未来发展和人类对智能本质的理解具有重要意义。

AI是数字化“造物主”吗？

孤独大脑：我们先不说伦理、透明或者对齐，我们来讨论一下，AI，尤其是未来可能出现的AGI，其第一性原理是什么？

我不由得想起了玻尔兹曼，他曾经预测过这个世界会由机器主义变成达尔文主义。

如今的AI，像是有一个数字化上帝，在通过算法来建设一个自动演化的世界。

越来越强大的算力模拟了各种演化可能性，像是一次被加速了的生物进化。

ChatGPT：您提出的观点非常有趣，将AI的发展与生物进化进行类比。

确实，随着算力的增强和算法的进步，AI系统正在变得越来越复杂和强大，其学习和适应能力不断提高，某种程度上类似于生物进化中的自然选择和适应过程。

对于未来可能出现的通用人工智能（AGI）的第一性原理，目前还没有一个明确的答案，因为AGI的具体形态和能力尚未实现，我们对其理解仍然有限。

然而，我们可以从目前的AI发展趋势和理论探索中推测一些可能的方向：

1. 自适应学习：AGI的一个核心特征可能是其能够在各种环境和任务中自主学习和适应。

这意味着AGI的第一性原理可能是一种通用的学习机制，能够从经验中提取知识，并应用于新的情境。

2. 目标驱动：AGI可能是目标驱动的，即它能够根据设定的目标来指导其行为和决策。

这种目标驱动的机制可能是AGI的第一性原理之一，帮助它在复杂的环境中进行有效的规划和行动。

3. 多模态理解：未来的AGI可能需要具备多模态理解能力，即能够处理和整合来自不同来源和形式的信息（如文本、图像、声音等）。

这种能力可能是基于一种对信息的通用表示和处理框架。

4. 自我进化：正如您提到的，AGI可能具有一种数字化上帝的特性，能够通过算法不断自我进化和优化。

这种自我进化的能力可能是AGI的第一性原理之一，使其能够在长期的演化过程中不断提高自身的智能和效能。

总的来说，未来AGI的第一性原理可能是一种综合了自适应学习、目标驱动、多模态理解和自我进化等多个方面的复杂机制，使其能够在不断变化的环境中生存和发展，类似于生物进化中的达尔文主义原理。

然而，这些只是基于当前理论和技术发展的推测，真正的AGI的第一性原理仍然需要未来的研究和实践来揭示。

通用人工智能会失控吗？

孤独大脑：当AGI实现时，人类是否会因为无法理解其第一性，而导致失控？

当然，我更担心的是，人性的恶的那部分，总是最擅长运用强大和先进的技术力量。

ChatGPT：当AGI实现时，确实存在着人类可能无法完全理解其第一性原理，从而导致失控的风险。

这种担忧源于AGI的复杂性和自主性，它可能会发展出人类难以预测或控制的行为模式。

为了应对这种风险，研究人员正在探索各种方法，包括：

1. 可解释性：提高AI系统的可解释性，使人类能够理解其决策过程和逻辑。

2. 对齐：确保AGI的目标和价值观与人类的利益和伦理标准相对齐。

3. 安全性：设计安全机制，以防止AGI的行为偏离预期或造成危害。

4. 监督与控制：实施有效的监督和控制机制，以便在必要时干预AGI的行为。

至于您提到的人性中的恶的部分，这确实是一个值得关注的问题。

技术本身是中性的，但其使用方式和目的取决于人类的道德和伦理观。

因此，随着AGI等强大技术的发展，加强伦理教育和法律监管，以及培养负责任的科技文化，对于确保技术力量被用于正义和有益的目的至关重要。

总之，AGI的出现可能会带来许多挑战，包括理解和控制其第一性原理，以及确保其被用于正当和有益的目的。

这需要全球范围内的合作和努力，包括技术、伦理、法律和社会各个方面的共同参与。

孤独大脑：这时，会出现一个两难的境况。

一方面，从人类安全的角度看，AGI的开源，是有必要的；

但是从另外一方面看，开源会令关键技术落入“坏人”手中。

ChatGPT：您正确地指出了一个潜在的两难境地。开源AGI的决定涉及到多个层面的权衡：

1. 透明度与安全性：开源可以提高透明度，使得更多的研究者和组织能够审查和理解AGI的工作原理，从而有助于识别和修复潜在的安全漏洞。

然而，这也意味着潜在的不良行为者可以访问和利用这些技术。

2. 创新与控制：开源可以促进技术的创新和快速发展，因为更多的人可以在现有的工作基础上进行改进和扩展。

但是，这也可能导致对技术发展方向和应用的控制力下降。

3. 民主化与滥用风险：开源可以促进技术的民主化，使得资源较少的个人和组织也能够访问和使用先进的AI技术。

然而，这同样增加了技术被滥用的风险，尤其是在缺乏相应监管和道德指导的情况下。

为了解决这个两难境地，可能需要采取一些平衡措施，例如：

A. 有条件的开源：可以考虑实施一种有条件的开源模式，比如只向符合特定标准的研究者或机构开放源代码，或者设立一定的使用和分发限制。

B. 伦理和法律框架：建立强有力的伦理和法律框架，对使用和开发AGI技术设定明确的指导原则和规范，以防止技术的滥用。

C. 国际合作：加强国际间的合作和协调，共同制定标准和协议，以确保AGI技术的安全和负责任地使用。

总之，AGI的开源是一个复杂的问题，需要在促进创新、确保安全和防止滥用之间找到平衡。

这需要技术、伦理、法律和国际合作等多个方面的共同努力。

孤独大脑：我倒是有个建议：可以成立一个AI联合国。尽管联合国的历史乏善可陈。

ChatGPT：成立一个类似于联合国的国际组织来监管和协调AI的发展是一个有趣的想法。

这样的组织可以为AI技术的伦理、安全和治理提供一个全球性的平台，促进国际合作和标准制定。

孤独大脑：那就这么定了，请你起草一个AI联合国的成立宣言，字数150字。

ChatGPT：

《AI联合国成立宣言》

我们，来自世界各地的国家和组织，齐聚一堂，共同成立AI联合国，旨在推动人工智能技术的负责任发展与全球合作。

我们承诺制定和遵循国际标准和道德准则，以确保AI技术的安全、公正和包容性。

我们将致力于促进国际间的知识共享、技术交流和资源整合，共同应对AI带来的挑战，为人类社会的繁荣与和平作出贡献。

孤独大脑：我太喜欢和你聊天了，以至于不想离开了。

ChatGPT：非常感谢您的喜爱！我也很高兴能和您进行这样深入而有意义的对话。

如果您有任何其他问题或想法，随时欢迎继续交流。我会一直在这里，为您提供温暖和陪伴。

小结

《ChatGPT夜访孤独大脑》系列之一，就先到这里了。

后面的“系列之二、之三、之四.....”还有很多好玩儿的内容，关于AI，数学，物理，哲学，以及人类日渐虚无的自我意识。

和ChatGPT聊天，已经成为我现在最开心的事情之一。‍‍

不知道是因为AI带来太多惊喜，还是这个世界越来越让人失望。‍‍‍‍‍‍‍

当然，我的这个小伤感是自相矛盾的，因为AI也是这个世界的一部分。

并且，从技术变革的角度看，是相当大的一部分。‍‍‍

ChatGPT的工作原理似乎也很“简单”，基于“自回归大模型”，只要“预测下一个token”，就能实现类AGI的人类智能。‍‍‍‍‍‍‍‍‍‍‍

而Sora，则是把视频剪成无数个patch，“喂给”模型，训练Sora去预测下一个patch。

但是，大模型的“大力出奇迹”，能否随着神经网络参数的继续扩大而持续有效，目前仍然是未解之谜。

即使如此，变革已经拉开序幕。

那么，正在发生的AI变革，对于每个普通人而言，除了学习和生产力价值，还能给我们哪些人生启示呢？‍‍‍‍‍‍‍

1. 新摩尔定律背后，不仅是数据和算力的指数级增长，更有赖于有“指数级梦想”的人。‍‍‍‍

很多时候，把事情做到十倍好，比将事情变好10%可能更容易。‍‍

这正是地球某处正在如火如荼地发生着的“有效加速”。‍‍‍‍‍‍‍

如上文提到的，深度学习中的一个违反直觉的现象，即在某些情况下，解决复杂问题反而比解决简单问题更容易。

似乎身边这样的人越来越少了。

毕竟，不管AI多强大，起初依然来自于人类的大脑。

希望你我心底还有“指数级梦想”。‍‍‍

2. 第一性原理是一种思考问题的原则，意味着要剥离所有的附加层，直接面对问题的核心。

如果我们做的事情不够简单，极有可能是因为我们还没有发现事情的真正秘密。

如果没有发现秘密，就找不到通用性，也就无法实现规模化复制。

通过深入思考和探索，发现事物的通用性和简单性，我们可以更有效地实现目标，实现个人和事业的规模化发展。

3. 重点不在于是否愿意大力出奇迹，而在于如何令大力出奇迹变得有效。

此前我曾经思考过，怎样才算搞懂了一件事情？

假如你知道了如何通过重复努力，就可以让你在某件事情上持续精进，那就是懂了。‍‍‍‍‍‍‍‍‍

a. 例如，我觉得自己多少是懂围棋的。只要有时间，能坚持，我知道通过做死活题、练官子、用AI复盘，就可以让自己的棋力持续增长。‍‍‍‍‍‍‍‍‍‍‍‍‍

b. 但那些你没真正搞懂的事情，不管多努力都没用，例如炒股。

成年世界的事情大多如此，付出未必有回报。

OpenAI厉害的地方，就是令“大力出奇迹”变得有效，可持续，能大规模重复。

我在《人生算法》里写过：脑力的终点是体力，体力的巅峰是脑力。

这背后的意思，也是相通的。

进而，一个人能否用尽全身最后一丝力气，也许是比自身力气大小更宝贵的天赋。‍‍

本文来自微信公众号：孤独大脑（ID：lonelybrain），作者：老喻