生成式 AI 的兴起惊艳了世界,如同所有新生事物一样,它的出现也伴随着人们对未知的恐惧和对新科技的不解。


尽管 AI 展现出了令人敬畏的能力,但其未来的轨迹和应用的广度,终究仍取决于我们如何设计和使用它。


近日, Meta 首席科学家、图灵奖得主 Yann LeCun 接受了科技博主 Lex Fridman 的深度采访。


从探讨 LLM 的局限性、到揭示大模型幻觉、再到讨论 AGI 的挑战、以及对 AI 末日论的批判,这场近三个小时的采访不仅干货满满,也为我们认识和理解 AI 提供了新的视角。


金句如下:


  • 通过感官输入,我们看到的信息比我们通过语言看到的要多得多,尽管我们的直觉是相反的,我们学到的大部分知识和我们的知识大多是通过我们对现实世界的观察和互动,而不是通过语言。


  • 自回归预测,每产生一个标记或单词时,都有一定概率会使你偏离合理答案的集合。


  • 我不讨厌强化学习,而且我认为它不应该被完全放弃,但我认为它应该被最小化使用,因为它在样本方面的效率极其低下。


  • 有可能制造一个没有偏见的 AI 系统吗?答案是,绝对不可能。这不仅仅是因为技术上的挑战,而是因为偏见存在于观察者的眼中。


  • 未来已经到来,我们每个人与数字世界的互动都将通过AI 系统,AI 助手将起到中介的作用。


  • 从计算能力的角度来看,我们离匹配人脑所需的计算能力还有很远的距离。


  • AI 末日论者想象了各种灾难性的情景,他们认为人工智能可能会失控或操纵,进而导致人类灭亡,这一观点基于大多是错误的假设。


  • 我认为人类本质上是善良的。事实上,很多末日论者之所以成为末日论者,是因为他们认为人类本质上不善良,他们要么不信任人,要么不信任机构会做正确的事情。


我们也摘取了部分原文(有删改)


一、LLM 的局限性


Lex Fridman:在你的职业生涯中,你实际上对人工智能的未来发表了一些强烈的技术性声明,但最近你说,像 GPT-4 这样的自回归 LLM(大型语言模型),以及即将到来的 LLaMA 3 等,并不是我们通往超人智能的正确途径。这些模型是如何工作的?为什么它们不能带我们走完全程?


Yann LeCun:有很多原因。首先,智能行为有一些特性。例如,理解世界的能力,理解物理世界,记忆和检索事物的能力,持久的记忆,推理能力和规划能力。


这些是智能系统或实体的四个基本特征。LLMs 无法做到这些,或者它们只能以非常原始的方式做到,它们并不真正理解物理世界。它们没有持久的记忆。它们真的不能推理,当然也不能规划。


因此,如果你期望系统在没有做这些事情的可能性的情况下变得智能,那你就错了。这并不是说自回归 LLM 没有用。它们当然有用,它们很有趣,我们不能围绕它们构建一个完整的应用生态系统。当然我们可以,但作为通往人类水平智能的途径,它们缺少了基本的组成部分。


然后还有另一个有趣的事实。这些 LLMs 是在海量的文本上训练的,包括互联网上所有公开可用的文本,对吧?这通常是 10 的 13 次方个标记。每个标记通常是两个字节,所以这是 2 乘以 10 的 13 次方字节的训练数据。


你我或许需要 170000 年才能读完这些,每天读 8 小时。所以看起来这些系统可以积累大量的知识,但然后你意识到这真的不是很多数据。如果你和发育心理学家交谈,他们会告诉你一个四岁的孩子在他或她的生活中醒着的时间是 16000 小时,这个孩子四年内到达视觉皮层的信息量大约是 10 到 15 字节。


你可以通过估计视神经每秒大约携带 20 兆字节来计算这个,所以对于一个四岁的孩子来说是 10 到 15 字节,相比之下,170000 年的阅读量是 2 乘以 10 的 13 次方字节。


这告诉你的是,通过感官输入,我们看到的信息比我们通过语言看到的要多得多,尽管我们的直觉是相反的,我们学到的大部分知识和我们的知识大多是通过我们对现实世界的观察和互动,而不是通过语言。我们在生命的前几年学到的一切,以及动物学到的一切,都与语言无关。


二、LLM 能否构建世界模型


Lex Fridman:大型语言模型能否构建一个世界模型,知道如何开车,知道如何装载洗碗机,但目前不知道如何处理视觉数据,所以它可以在概念空间中操作?


Yann LeCun:是的,很多人都在致力于这方面的工作。所以,简短的答案是:目前还不能。更复杂的答案是你可以使用各种技巧让 LLM 基本上消化图像或视频或音频的视觉表示。


一个经典的方法是以某种方式训练一个视觉系统,我们有多种训练视觉系统的方法,无论是监督的、半监督的、自监督的,各种各样的不同方法,可以将任何图像转化为高级表示。基本上是一个标记列表,与典型 LLM 接受的输入非常相似。


然后你就把那个喂给 LLM,除了文本之外,你希望 LLM 在训练期间能够使用这些表示来帮助做决策。我的意思是,这方面的工作已经进行了很长时间,现在,你看到了这些系统。


我的意思是,有一些视觉扩展的 LLM,但它们基本上是“黑客”,因为这些东西没有被训练来真正理解世界。它们没有被视频训练,例如。它们真的不理解直观的物理,至少目前还不理解。


Lex Fridman:所以你认为直观物理,关于物理空间的常识推理,关于物理现实,对你来说,这是一个巨大的飞跃,LLM 就是做不到?


Yann LeCun:我们今天正在研究的这种 LLM 无法实现这一点。有多种原因,但主要原因是LLM的训练方式:你取一段文本,从中删除一些词,用黑色标记替换它们,然后训练一个神经网络来预测缺失的词。


如果你以一种特定的方式构建这个神经网络,使其只能查看左侧的词或它试图预测的词,那么你就有了一个系统,基本上是试图预测文本中的下一个词。然后你可以给系统一个文本,一个提示,你可以要求它预测下一个词。但这个系统永远无法精确预测下一个单词。


所以它会做的是产生一个字典中所有可能的词的概率分布。实际上,它不预测词。它预测的是类似于字典中可能的词的子词单元,所以处理预测中的不确定性很容易,因为字典中可能的词的数量是有限的,你可以简单地计算它们的分布。然后系统会从这个分布中选择一个词。


当然,选择概率更高的词的机会更大。所以从这个分布中抽样以实际产生一个词,然后将这个词移入输入,这样系统就不必预测第二个词了,一旦你这样做了,就将它移入输入,等等。


三、视频生成


Yann LeCun:所以一个生成模型在视频上受训练,我们已经尝试了10年,你给系统展示一段视频,然后让你预测视频的其余部分,就是预测接下来会发生什么。


Lex Fridman:一帧一帧地发生。这也类似于自回归语言模型(LLM)的工作方式,但这是针对视频的。


Yann LeCun:对。要么一帧接一帧——


这个想法已经流传了很长时间,我和我在 FAIR 的一些同事已经尝试了大约 10 年,但依旧不能像 LLMs 那样做同样的技巧。


因为我说过,你不能准确预测接下来会是哪个词,但你可以预测词的分布。现在,如果你去视频,你将不得不预测视频中所有可能帧的分布,我们真的不知道如何正确地做到这一点。


我们不知道如何在有用的方式来表示高维、连续空间的分布。这就是主要问题所在,我们之所以能做到这一点,是因为世界在信息方面比文本复杂和丰富得多。文本是离散的,视频是高维和连续的。这里面有很多细节。


所以如果我拿一个这个房间的视频,视频是相机在四处移动,我无法预测当我四处移动时房间里会有什么东西。系统无法预测当相机移动时房间里会有什么。也许它会预测这是一个有灯和墙的房间之类的。它无法预测墙上的画看起来像什么,或者沙发的质地看起来像什么。当然不是地毯的质地。所以无法预测所有这些细节。


至于可能处理这个问题的一种方式,我们已经工作了很长时间,是有一个所谓的潜变量的模型。潜变量被输入到神经网络中,它应该代表所有你尚未感知到的世界信息,你需要增强系统以便在预测像素方面做得很好,包括地毯和沙发的细腻质地以及墙上的画作。


这基本上是完全失败的。我们尝试了很多方法。我们尝试了直接神经网络,我们尝试了 GANs,我们尝试了 VAEs,各种正则化的自编码器。我们尝试了很多方法。我们还尝试了这些方法来学习图像或视频的良好表示,然后可以用作,例如,图像分类系统的输入。那基本上也失败了。


所有试图从损坏的版本中预测图像或视频的缺失部分的系统,基本上,所以拿一个图像或视频,损坏它或以某种方式转换它,然后尝试从损坏的版本重建完整的视频或图像,然后希望系统内部会发展出良好的图像表示,你可以用它进行对象识别、分割等。这基本上是完全失败的,而且对文本来说效果很好。这就是 LLMs 使用的原理,对吧?


Lex Fridman:那么失败到底在哪里?是因为很难形成一个良好的图像表示,比如图像中所有重要信息的良好嵌入?还是图像到图像的一致性,形成了视频?如果我们做一个所有失败方式的高光剪辑,那会是什么样子?


Yann LeCun:好的,所以这个不起作用的原因是,首先,因为还有其他东西是起作用的。所以不起作用的是训练系统通过从损坏的版本中重建良好的图像来学习图像的表示。我们有很多这种技术的变体,这是我 FAIR 的一些同事开发的去噪自编码器,叫做 MAE,掩蔽自编码器。


所以基本上就像 LLMs 或类似的东西,你通过损坏文本来训练系统,除了你损坏图像,你从中移除补丁,然后你训练一个巨大的神经网络来重建。你得到的特征不好,你知道它们不好,因为如果你现在训练相同的架构,但你用标签数据来监督训练,用图像的文本描述等,你会得到良好的表示,而且识别任务的性能比自监督重建要好得多。


四、JEPA 与 LLM 的区别


Lex Fridman:我明白了。好吧,我们可能会继续争论。太好了,你喜欢 AMI,因为你喜欢法语,ami 在法语中是朋友,AMI 代表先进的机器智能。但无论如何,JEPA 能带我们走向那个先进的机器智能吗?


Yann LeCun:嗯,这是第一步。首先,像 LLM 这样的生成架构有什么不同?LLM 或通过重建训练的视觉系统生成输入。它们生成未损坏、未转换的原始输入,所以你必须预测所有像素,系统中有大量的资源用于实际预测所有这些像素、所有细节。在 JEPA 中,你不是试图预测所有像素,你只是试图预测输入的抽象表示。在很多方面,这要容易得多。


所以 JEPA 系统在训练时试图做的是从输入中提取尽可能多的信息,但只提取相对容易预测的信息。世界上有很多事情我们无法预测。例如,如果你有一辆自动驾驶汽车在街上或道路上行驶,周围可能有树木,而且可能是刮风的日子。


所以树上的叶子以一种你无法预测的半混沌、随机的方式移动,你不在乎,你不想去预测。所以你想要的是你的编码器基本上消除所有这些细节。


它会告诉你有移动的叶子,但它不会给出每片叶子究竟发生了什么的详细信息。所以当你在表示空间中进行预测时,你不必预测每片叶子的每一个像素。


这不仅简单得多,而且允许系统基本上学习世界的抽象表示,其中可以建模和预测的内容被保留,其余的被视为噪声并被编码器消除。


所以它提高了表示的抽象层次。如果你考虑这个,这是我们一直在做的事情。每当我们描述一个现象时,我们都是在一个特定的抽象层次上描述它。我们并不总是用量子场理论来描述每一个自然现象。那是不可能的。所以我们有多个抽象层次来描述世界上发生的事情,从量子场理论到原子理论和分子和化学、材料,一直到现实世界中的具体物体等等。我们不能只在最低层次上建模一切。


这就是 JEPA 的想法,以自监督的方式学习抽象表示,你也可以分层地做到这一点。所以我认为,这是智能系统的一个重要组成部分。在语言中,我们可以不做这个,因为语言在某种程度上已经是抽象的,并且已经消除了很多不可预测的信息。所以我们可以直接预测单词,而不需要进行联合嵌入,不需要提高抽象层次。


Lex Fridman:所以联合嵌入,它仍然是生成的,但它是在这种抽象表示空间中生成的?


Yann LeCun:是的。


Lex Fridman:你指出,在语言方面,我们很懒,因为我们已经得到了抽象表示,现在我们必须放大视野,实际上,对于通用智能系统,我们必须处理现实世界的全部物理现实。你确实必须经历这样一个步骤:从丰富、详细的真实世界跳转到那个世界的抽象表示,基于这个表示,你然后可以进行推理等操作。


Yann LeCun:对。而且问题是,那些通过预测学习的自监督算法,即使在表示空间中,如果输入数据更冗余,它们学到的概念就越多。数据中的冗余越多,它们就越能捕捉到它的一些内部结构。


所以在感知输入、视觉输入的结构中,冗余比文本要多得多,文本远没有那么冗余。这回到了你几分钟前问的问题。语言可能真的代表了更多的信息,因为它已经被压缩了。你说得对,但这意味着它也不够冗余,所以自监督,你不会做得那么好。


五、大模型幻觉


Lex Fridman:我认为在你的一张幻灯片中有一个漂亮的图表,这是你展示 LLMs 局限性的方式之一。我想知道你能否从你的角度谈论一下幻觉,为什么大型语言模型会产生幻觉,以及为什么在某种程度上这是大型语言模型的根本缺陷?


Yann LeCun:对,因为自回归预测,每产生一个标记或单词时,都有一定概率会使你偏离合理答案的集合。如果你假设,这是一个非常强烈的假设,这种错误的概率是独立于正在产生的一系列标记的,那意味着每当你生成一个标记时,你保持在正确答案集合内的概率就会降低,并且这个概率是指数级减少的。


Lex Fridman:所以有一个强烈的假设,正如你所说,如果有犯错的非零概率,那么就会有某种漂移。


Yann LeCun:是的,这种漂移是指数级的。就像错误会累积,答案变得毫无意义的概率随着标记数量的增加而指数级增加。


Lex Fridman:让系统为人们可能提出的问题产生答案。而且人是人,所以他们有很多问题都非常相似,你可以通过收集数据,然后微调系统以产生所有这些问题的好答案,可能能够覆盖 80% 或任何人们会问的问题,而且它可能学会,因为它有很多学习的能力。


然后是巨大的提示集合,你在训练期间没有涵盖,这个集合是巨大的,就像在所有可能的提示中,用于训练的提示的比例绝对是微小的,是所有可能提示的非常非常小的子集。


Yann LeCun:所以系统将在已经训练、预训练或微调的提示上表现正常,但然后有一个巨大的空间,它不可能在训练中涵盖,因为数量是巨大的。


所以无论你对系统进行了多少训练以产生适当的答案,你都可以通过找到一个它未训练过的提示,或者类似的提示,来打破它,然后它就会完全胡说八道。


六、强化学习


Lex Fridman:你提到了 RLHF 带有人类反馈的强化学习,为什么你仍然讨厌强化学习?


Yann LeCun:我不讨厌强化学习,而且我认为它不应该被完全放弃,但我认为它应该被最小化使用,因为它在样本方面的效率极其低下。


因此,正确训练一个系统的方法是首先让它主要通过观察学习到好的世界表示和世界模型,可能稍加一些交互。



Lex Fridman:为什么你认为 RLHF 工作得非常好?这种带有人类反馈的强化学习,为什么它对大型语言模型产生了如此变革性的影响,比以前更好?


Yann LeCun:产生变革性影响的是人工反馈,有很多使用它的方式,其中一些纯粹是监督式的,实际上并不是真正的强化学习。


Lex Fridman:所以这是 HF?


Yann LeCun:是 HF,然后有各种使用人类反馈的方式,对吧?所以你可以要求人类写出答案,明天产生的多个答案。然后你做的是训练一个目标函数来预测那个评分。然后你可以使用这个目标函数来预测一个答案是否好,你可以反向传播梯度到这个系统,以便它只使用高度评级的答案。


这是一种方式,所以在 RL 中,这意味着训练所谓的奖励模型,基本上是一个小神经网络,估计答案有多好。这与我之前讨论的规划目标非常相似,只是现在它不是用来规划的,而是用来微调你的系统。我认为用它来规划会更有效,但目前,它被用来微调系统的参数。


有几种方法可以做到这一点,其中一些是监督的,你只是问一个人,这个答案好吗?然后你就输入答案。这些系统正在被调整的方式有很多。


七、AI “觉醒”


Lex Fridman:现在,很多人对最近发布的谷歌的 Gemini 1.5 表示了强烈批评,本质上,用我的话来说,可以说是非常“觉醒”(woke)


它做了一些几乎荒谬可笑的事情,比如修改历史,生成一个黑人乔治·华盛顿的图像,每个人都开始询问设计这些 LLMs 的过程是什么?审查的角色是什么?等等。所以你在 Twitter 上评论说,开源是答案。


Yann LeCun:是的。


Lex Fridman:你能解释一下吗?


Yann LeCun:我实际上在我能参与的每一个社交网络上都发表了这个评论,我在各种论坛上多次提出这个观点。这是我的观点,人们可以抱怨 AI 系统有偏见,它们通常是由它们所训练的数据分布所反映的偏见,这在社会上是有偏见的,这可能对某些人有冒犯性,或者可能不是。一些去偏见的技术因为历史错误等问题而变得对某些人有冒犯性。


所以你可以问两个问题,第一个问题是,有可能制造一个没有偏见的 AI 系统吗?答案是,绝对不可能。这不仅仅是因为技术上的挑战,尽管这是一个技术上的挑战,而是因为偏见存在于观察者的眼中。


不同的人可能对构成偏见的事物有不同的看法,有很多事实是无可争议的,但有很多观点或可以以不同的方式表达的事物。所以你不能有一个没有偏见的系统,这只是一种不可能。


未来已经到来,我们每个人与数字世界的互动都将由 AI 系统,AI 助手将起到中介的作用。我们将拥有智能眼镜,你已经可以从 Meta 购买 Ray-Ban Meta,你可以与它们交谈,它们与 LLM 连接,你可以对任何问题得到答案。


或者你可以看着一个纪念碑,眼镜里有一个摄像头,你可以问它,你能告诉我关于这座建筑或这个纪念碑的什么?


你可以看着一个外语菜单,我认为我们会为你翻译它,或者如果我们说不同的语言,我们可以进行实时翻译。所以不久的将来,我们与数字世界的许多互动都将由这些系统来作为中介。


我们将来使用的搜索引擎将不再是搜索引擎,而是成为对话系统,我们只需问一个问题,它就会回答,然后可能会指向适当的参考资料。


但问题是,我们不能让这些系统由来自美国西海岸的少数公司控制,因为这些系统将构成所有人类知识的仓库,我们不能让少数人控制这些系统。


它必须是多样化的,同样的原因,新闻界必须是多样化的,那么我们如何获得多样化的 AI 助手?这非常昂贵和困难,目前,训练一个基础模型,一个基础 LLM,在未来可能会有所不同,但目前,那是一个 LLM。所以只有少数公司能够正确地做到这一点。


如果其中一些顶级系统是开源的,任何人都可以使用它们,任何人都可以微调它们。如果我们建立一些系统,允许任何一群人,无论是个人公民,公民团体,政府组织,非政府组织,公司,等等,利用这些开源 AI 系统并在他们自己的数据上为他们自己的目的进行微调,那么我们将有非常多样化的不同 AI 系统,专门用于所有这些事情。


因此,要建立 AI 产业,要让 AI 系统不带有独特偏见,唯一的方式就是拥有开源平台,任何团体都可以在这些平台上构建专门的系统。所以,历史的必然方向是,绝大多数 AI 系统都将建立在开源平台之上。


Lex Fridman:这是一个美好的愿景。所以像 Meta 或 Google 这样的公司,在构建基础预训练模型之后,应该只进行尽可能少的微调步骤。


八、LlaMA 3


Lex Fridman:Mark 宣布 LLaMA 3 最终会发布。目前还没有具体的发布日期,但你对于已经发布的 LLaMA 2 以及未来的 LLaMA 3、4、5、6、10,或者更广泛地说,对 Meta 下的开源产品的未来有什么期待呢?


Yann LeCun:有很多值得期待的事情。首先,会有各种版本的 LLaMA,这些都是对之前版本的改进,更大、更好的多模型等。在未来的版本中,系统将具备规划能力,真正理解世界是如何运作的,可能通过视频进行训练。因此,它们将拥有某种世界模型,也许具备我之前提到的那种推理和规划能力。


这需要多长时间?朝着那个方向的研究何时会进入 LLaMA 的产品线?我不知道。我不能告诉你。我们必须经历一些突破,才能到达那里,但你可以监控我们的进展,因为我们发表了我们的研究。所以上周我们发表了 V-JEPA 的工作,这是训练系统进行视频处理的第一步。


接下来的步骤将是建立基于这种思想的世界模型,从视频中进行训练。DeepMind 也有类似的工作正在进行,以及加州大学伯克利分校在世界模型和视频方面也有工作。很多人正在研究这个。我认为很多好的想法正在出现。我打赌这些系统将是轻量级的 JEPA,它们不会是生成模型,我们将看看未来会告诉我们什么。


有一位名叫 Daniel Jar Hafner 的先生,他不在 DeepMind 工作,但他研究过这种类型的模型,这些模型学习表示,然后用于规划或学习任务通过强化运行。在 Berkeley,Peters 和其他很多人也在做这类工作。


实际上,我在纽约大学的背景下,通过一些资助与他们合作,同时也通过 Meta 进行合作,因为 Berkeley 的实验室在某种程度上与 Meta 有关联。所以,我认为这非常令人兴奋。我自从 10 年前 FAIRway 成立以来,就没有对机器学习和 AI 的方向这么激动过了。


在那之前,35 年前,我们正在研究组合网络和神经网络的早期。所以我非常兴奋,因为我看到了一条通往可能的人类水平智能的路径,系统可以理解世界,记忆,规划。有一些想法可以在那里取得进展,可能有机会奏效,我对此非常兴奋。


有些想法可能会让我们在这方面取得进展。我真的对此充满期待。我希望的是,我们能在我的大脑变得迟钝或我需要退休之前,找到一个好的方向并取得成功。


Lex Fridman:是的。你也对这些庞大的 GPU 感到兴奋吗?整个训练过程都需要这么多计算能力,真是令人惊叹。想象一下,人类共同构建了这些计算设备,并能够训练出这样一个“大脑”。然后我们还会开源,就像给这个经过巨大计算系统训练的“大脑”赋予了生命。


这其中涉及到的训练细节、构建基础设施和硬件、冷却等等,都是令人关注的。你大部分的兴奋点是否仍然集中在理论方面,或者说是软件方面?


Yann LeCun:确实,规模是必要的,但绝对不是充分的。因此,我们确实需要计算能力。从计算能力的角度来看,我们离匹配人脑所需的计算能力还有很远的距离。这可能在未来几十年内发生,但我们还有很长的路要走。在能源效率方面,我们更是远远落后。因此,硬件方面还有很多进步要做。


目前,很多进步并不完全来自硅技术,而是来自架构创新和更高效的实现流行架构的方式,比如变压器和协约的组合。所以,在我们达到饱和之前,还有很长的路要走。我们可能需要提出新的原则、新的制造技术、新的基本组件,这些可能基于不同于传统数字原理的新原理。


Lex Fridman:有趣。所以你觉得为了构建 AMI,我们可能也需要一些硬件创新吗?


Yann LeCun:是的,如果我们想让它无处不在,那确实需要硬件创新。因为我们将必须降低计算功耗。今天的 GPU 在 0.5 千瓦到 1 千瓦之间。人脑的功耗大约是 25 瓦,而 GPU 的功率远低于人脑,我们可能需要10万到100万个GPU。所以,我们在这方面还有很大的差距。


九、AGI


Lex Fridman:你经常说 AGI(通用人工智能)不会很快到来,不是今年,也不是接下来的几年,可能更遥远。你背后的基本直觉是什么?


Yann LeCun:首先,AGI 的出现不会是一个事件,对吧?科幻和好莱坞电影中的想法是,有人会突然发现 AGI 或人类水平的 AI 或 AMI 的秘密,然后开启一台机器,我们就有了 AGI。


但这不会发生,它不会是一个事件,而是一个渐进的过程。我们会有能够从视频中学习世界如何运作并学习良好表示的系统吗?


是的。在我们达到人类观察到的规模和性能之前,这将需要相当长的时间。这不会在一夜之间发生。我们得到能够拥有大量关联记忆的系统,以便他们能够记住事物吗?


是的,但同样,这不会在明天发生。我指的是,还有一些基本的技术需要开发。我们有很多这样的技术,但要让它们与整个系统协同工作,那就是另一回事了。


我们会有能够推理和规划的系统吗?也许沿着我之前描述的目标驱动 AI 架构的路线?是的,但在我们让这些正常工作之前,这将需要一段时间。


在我们让所有这些东西一起工作之前,然后在这之上,拥有能够学习层次化规划、层次化表示的系统,能够为手头的许多不同情况配置的系统,就像人脑一样,所有这些都将至少需要十年,可能更长时间。


因为我们现在没有遇到的问题还有很多,我们不知道在这个框架内是否有简单的解决方案。所以它并不只是拐角处。过去 12、15 年里,我一直听到人们声称 AGI 就在眼前,但他们一直在犯错。当他们这么说的时候,我就知道他们是错的。我称之为他们的夸大其词。


Lex Fridman:首先,从人工智能这个术语诞生以来,就有一种永恒的乐观主义,这可能与其他技术不同。这是莫拉维克悖论解释为什么人们对 AGI 如此乐观的原因吗?


Yann LeCun:我不认为这只是莫拉维克悖论。莫拉维克悖论是意识到世界并不像我们想象的那么容易的后果。首先,智能不是你可以用一个尺度或一个单一数字来衡量的线性事物。你能说人类比猩猩聪明吗?在某些方面,是的,但在某些方面,猩猩在许多允许他们在森林中生存的领域比人类更聪明。


Lex Fridman:所以智商是一个非常有限的智力衡量标准。人类智力比智商,所衡量的领域要大得多。


Yann LeCun:嗯,智商可以大致衡量人类,因为人类形态相对统一,对吧?


Lex Fridman:是的。


Yann LeCun:但它只衡量一种能力,这种能力可能对某些任务相关,对其他任务则不然。但如果你谈论其他智能实体,对他们来说容易的基本事物非常不同,那么它就没有意义了。所以智能是一系列技能和有效获取新技能的能力。


特定智能实体拥有能够快速学习的技能集合,与另一个实体的技能集合不同。因为它是多维的,技能集合是一个高维空间,你不能衡量,你不能比较两个事物,哪一个更聪明。它是多维的。


十、AI 末日论


Lex Fridman:所以你经常反驳所谓的 AI 末日论者。你能解释一下他们的观点以及为什么你认为他们错了吗?


Yann LeCun:好的,AI 末日论者想象了各种灾难性的情景,他们认为 AI 可能会失控或操纵,进而导致人类灭亡,这一观点基于大多是错误的假设。


首先,他们假设超级智能的出现将会成真,某个时候我们会弄清这个秘密,然后打开一台超级智能的机器,它将接管世界并杀死我们所有人。但这是错误的。


它不会是一个事件。我们将拥有像猫一样聪明的系统,具有人类水平智能的所有特征,但它们的智能水平将像猫或鹦鹉或类似的东西。然后我们将努力使这些系统更智能。


当我们使它们更智能时,我们还将为它们设置一些安全措施,并学会如何设置这些安全措施,使它们行为得当。


这不会是单一的努力,会有很多人做这个工作,其中一些人将成功制造出可控、安全并具有正确安全措施的智能系统。如果有些系统变得失控,我们可以使用好的系统对抗失控的系统。


所以这将是我的智能 AI 警察对抗你的失控 AI。所以不会像我们会被一个失控的 AI 暴露出来杀死我们所有人那样。那是不可能发生的。


十一、人形机器人


Lex Fridman:既然我们谈到了物理现实,我很想了解你对机器人在这个物理现实中的未来愿景。你谈到的许多智能类型将使机器人成为我们人类的更有效的合作伙伴。


所以特斯拉的 Optimus 团队向我们展示了一些人形机器人的进展,我认为这确实重新激活了整个行业,我认为波士顿动力公司已经领导了很长时间。现在有很多公司,比如 Figure AI,显然还有波士顿动力。


Yann LeCun:Unitree。


Lex Fridman:Unitree,但还有很多。


Yann LeCun:有一些。


Lex Fridman:这很棒,所以你认为不久将会有数百万人形机器人四处走动吗?


Yann LeCun:暂时不会,但未来这会发生。我认为下一个十年对机器人来说将会非常有趣,机器人工业的出现已经等待了 10 到 20 年,除了预先编程的行为之类的东西,实际上并没有真正出现。


主要问题又是莫拉维克悖论,我们如何让这些系统理解世界如何运作并规划行动?所以我们可以为非常专业的任务做到这一点。


波士顿动力公司的方法基本上是通过大量手工制作的动态模型和提前仔细规划,这是非常经典的机器人技术,有很多创新。


十二、展望未来


Lex Fridman:当你展望未来 10年、20年、50年、100 年时,你对人类有什么希望?我们谈论了这么多令人兴奋的技术,这么多令人兴奋的可能性。在这一切中,有什么给你希望?


Yann LeCun:我喜欢这个问题。我们可以用 AI 让人类变得更聪明。AI基本上会放大人类智能。就好像我们每个人都有一个聪明的 AI 助手团队。他们可能比我们更聪明。他们会按照我们的意愿行事,可能会以比我们自己做得更好的方式执行任务,因为他们比我们更聪明。……现在,今天的 AI 的类比是什么?我们通过禁止 AI 保护谁?谁是要求监管 AI 以保护他们的工作的人?当然,这是一个真正的问题,即像 AI 这样的技术转型将对就业市场和劳动力市场产生什么影响?


有很多比我更专业的经济学家,但当我和他们交谈时,他们告诉我们,我们不会失业。这不会导致大规模失业。这只是不同职业的渐进转变。


未来 10 或 15 年将会热门的职业,我们今天无法想象它们会是什么。同样,如果你回到 20 年前,谁会想到 20 年前最热门的工作,即使是 5、10 年前,会是移动应用开发者?智能手机还没有发明。


Lex Fridman:未来的大部分工作可能在元宇宙中。


Yann LeCun:嗯,可能是这样的。


Lex Fridman:关键是你无法预测。但你是对的。你提出了很多有力的观点。我相信人类从根本上说是善良的。所以如果 AI,特别是开源 AI,能让他们变得更聪明,它只会赋予了人类善良的力量。


Yann LeCun:我认为人类本质上是善良的。事实上,很多末日论者之所以成为末日论者,是因为他们认为人类本质上不善良,他们要么不信任人,要么不信任机构会做正确的事情。


Lex Fridman:我相信我们俩都信任人类。我想我的想法代表了许多人,感谢你们推动了开源技术的发展,推动了人工智能的开源研究,使人们能够使用,并且使这些模型本身也开源化。


本文来自微信公众号:APPSO(ID:appsolution),作者:APPSO