深度学习不是AI的终极答案 - 葱头胖友圈

出品｜虎嗅科技组

作者｜齐健

编辑｜陈伊凡

头图｜FlagStudio

“一天清晨，你的AI助理给我发出了一份访谈邀约，于是我让我的AI助理处理它。后面的事情则是由两个AI系统来完成了，在它们之间经历多轮对话，最终敲定日期，并预定了会议室，全程没有人类参与。”

这是迈克尔·伍尔德里奇（Michael Wooldridge）描绘的未来图景。他是英国AI科学家，现任牛津大学计算机科学系教授。

当人工智能可以互相交流时，我们的社会将发生怎样的变化？

在1个小时的对谈过程中，伍德里奇对这个话题兴趣盎然，他是多智能体系统（Multi Agent System）研究的全球顶尖学者之一，“AI之间的协作”是他的重点研究方向。

在伍尔德里奇看来，无论是打败人类的AlphaGO，还是对答如流的ChatGPT，虽然人工智能变得越来越像人类，甚至在一些领域开始超越人类，但我们离真正的人工智能仍有一段很长的距离。

当大多数人沉浸在OpenAI创造的现象级创新时，伍尔德里奇显得冷静许多。ChatGPT在展现神经网络的强大时，也展示了它的瓶颈——其无法解决巨大的功耗和算力问题、无法解决的AI“黑盒”问题，“深度神经网络虽然经常能完美回答我们的问题，但我们并不真正理解它为什么会这样回答。”

超过人类的AI常被称为“强人工智能”，而具有普遍人类智能水平的AI则称为通用人工智能（Artificial general intelligence，AGI）。伍尔德里奇在他的著作《人工智能全传》中这样描述AGI：AGI大致等同于一台拥有一个普通人所拥有的全部智慧能力的计算机，包括使用自然语言交流、解决问题、推理、感知环境等能力，与一个普通人处于同等或者更高等级的智能水准。关于AGI的文献通常不涉及自我意识或者自主意识之类，因此AGI被认为是弱人工智能的弱版本。

然而再“弱”的AGI也与当代的人工智能研究相去甚远。

“ChatGPT是一款成功的AI产品，它非常擅长涉及语言的任务，但仅此而已。我们离AGI还有很长的路要走。”在与虎嗅的对谈中，伍德里奇说，深度学习使我们有能力构建一些几年前无法想象的AI程序。但这些取得非凡成就的AI程序，远算不上推动AI朝着宏伟梦想前进的魔法，也并不是当前AGI发展难题的答案。

迈克尔·伍尔德里奇（Michael Wooldridge）是国际人工智能学界领军人物，现任牛津大学计算机学院院长，投身人工智能研究30余年。曾担任2015年-2017年国际人工智能联合会议（IJCAI）主席（该会议是人工智能界顶级会议之一），2020年获颁英国计算机领域至高荣誉——洛芙莱斯奖章，被誉为英国计算机领域具有重要影响力的三位学者之一。

ChatGPT并不是构建AGI的答案

在ChatGPT出现之前多数人认为通用人工智能非常遥远，2018年出版的一本名为《智能架构》的书中，对23位AI领域专家进行了调研，在回答“哪一年能够有50%的机会实现通用人工智能”时，谷歌工程总监Ray Kurzweil认为是2029年，而iRobot联合创始人Rodney Brooks给出的时间则是2200年。所有回答了这个问题的18位专家预测的平均时间点是2099年。

不过Elon Musk在2022年也发表了关于2029年实现AGI的观点，他在Twitter中表示，“2029 feels like a pivotal year. I'd be surprised if we don't have AGI by then.（感觉2029年是关键的一年。如果那时我们还没有AGI，我会很惊讶）”

对此，知名AI学者Gary Marcus提出了五个检验 AGI 是否实现的标准，包括：看懂电影、读懂小说、当厨师、根据自然语言规范或通过与非专业用户的交互，可靠地便携超过10000行无bug代码，以及用自然语言编写的数学文献中任意提取证明，并将其转换为适合于符号验证的符号形式。

现在看来，ChatGPT代表的通用大模型似乎朝AGI迈出了一大步。读懂小说和看懂电影的任务，似乎指日可待了。对此，迈克尔·伍尔德里奇教授认为，目前来看，人类仍然很难在2029年实现AGI。

虎嗅：像AlphaGo一样的AI专家虽然打败了人类，但它们的能力在实际应用方面存在很大的局限性，今天的通用大模型似乎正在打破这样的局面。您对专家型AI和AGI未来的发展有怎样的看法？

迈克尔·伍尔德里奇：“符号人工智能”是早期人工智能的一种模式，即假设“智能”是一个关于“知识”的问题，如果你想要一个智能系统，只需要给它足够多的知识就可以了。

这种模式相当于对人对“思维”进行建模，主导了从二十世纪五十年代到八十年代末的人工智能发展，并最终演变成了“专家系统”。如果你想让人工智能系统做一件事，比如将英语翻译成中文，你需要先掌握人类翻译家的专业知识，再使用编程语言，将这些知识传递给计算机。

这种方法存在很大的局限性，他不能解决与“感知”相关的问题。感知是指你理解周围世界、解释周围事物的能力。比如，我现在正看着电脑屏幕，我旁边有一个书架，有一盏灯。我的人类智能可以理解这些事物、环境，也可以把它们描述出来。但是，让计算机进行这个过程非常困难。这就是符号人工智能的局限，它在知识积累型的问题上表现良好，但在理解问题上表现不佳。

另一种方法是基于心智模型的人工智能。如果你在显微镜下观察动物的大脑或神经系统，你会发现大量的神经元互连接。研究人员从这种庞大的网络和神经结构中汲取了灵感，尝试给动物大脑中的结构建模，设计了一种与动物大脑相似的神经网络。在这个过程中我们不是在建模思维，而是在建模大脑。

“建模思维”的符号人工智能和“建模大脑”的神经网络，是两种主要的人工智能模式。在今天大数据和大算力的支持下，神经网络的发展速度更快，OpenAI的ChatGPT就是神经网络的一个典型例子。

ChatGPT的成功更增强了人们对深度神经网络期待，甚至有一些人认为AGI就要来了。的确，AGI是很多人工智能研究者的目标，但我认为我们离AGI还有很长的路要走。虽然ChatGPT在涉及语言问题时表现的通用能力很强，但它并不是AGI，它不存在于现实世界中，也无法理解我们的世界。

举个例子，如果你现在开始与ChatGPT进行对话，说完一句之后就去度假了。当你出游一周回来时，ChatGPT仍然在那里耐心地等待你输入下一个内容，它不会意识到时间已经过去或者世界发生了哪些变化。

虎嗅：你认为2029年实现AGI的预言会成真吗？

迈克尔·伍尔德里奇：虽然ChatGPT在某种程度上可以被视为通用AI的一部分，但它并不是构建AGI的答案。它只是为了执行特定的、狭隘领域的任务而构建和优化的软件组合。我们需要更多的研究和技术进步才能实现AGI。

我对2029年实现AGI这个观点持怀疑态度。人类智能的基础是“能够生活在物质世界和社交世界中”。比如，我可以用手感知到我的咖啡杯，我可以吃早餐，我也可以和任何人互动交流。但很遗憾，AI不仅做不到这些，而且也不能理解其中任何一项的含义。在AI能够感知现实世界之前，AGI还有很长的路要走。

虽然计算机的感知和理解能力有限，但是它仍在经验中学习，并成为人类决策的助手。目前来看，只要AI能像“真人助手”一样解决问题，那争辩一个计算机系统是否能够“感知和理解”，又有什么意义呢？

我们终将看到一个完全由AI构建的世界

从无人驾驶汽车，到人脸识别摄像头，从AI绘画、AI数字人，到AI写代码、写论文，用不了多久，只要是涉及技术的领域，不论是教育、科学、工业、医疗还是艺术，每个行业都会看到人工智能的身影。

在谈到是否经常使用ChatGPT时，伍尔德里奇教授表示，ChatGPT是他研究的一部分，所以肯定会经常使用。不过在使用过程中，他发现ChatGPT确实是基础工作的好帮手，在很多重复工作方面可以节省大量时间。

虎嗅：您在工作中会使用ChatGPT吗？对于ChatGPT Plus的订阅模式怎么看？

迈克尔·伍尔德里奇：我经常使用ChatGPT。我认为在未来几年中，ChatGPT以及通用大模型可能还会涌现出上千种不同的用途，甚至逐渐成为通用工具，就像网络浏览器和电子邮件客户端一样。

我也是ChatGPT Plus的订阅用户。不过对于25美元的价格，我认为仁者见仁，智者见智。每个用户只有亲自尝试之后，才知道ChatGPT是否适合他们，是否有必要付费订阅增强版。对于一些人来说，他们可能只是觉得有趣，而在工作中他们更愿意自己做事情。对于我来说，我发现它非常有用，可以处理很多日常重复的案头工作。不过，目前我更多地是将其作为我研究的一部分。

虎嗅：今天的AI市场上正在形成一种以大模型能力为核心的新型PaaS商业模式。OpenAI的GPT-3催生了Jasper，ChatGPT则吸引了Buzzfeed。您认为围绕通用大模型是否会形成新的AI生态？

迈克尔·伍尔德里奇：ChatGPT现在已有很多应用层面的创新，而且很快可能就会迎来创意的“大爆炸”。我认为一两年内，ChatGPT及类似应用就会大规模落地，在商业化软件中完成文字校对、语句润色、归纳总结等简单的重复性文案工作。

此外，在多模态人工智能中，我们可能会看到更多新的应用场景。例如与图像识别、图像生成相结合的大型语言模型，可能会在AR领域发挥作用；基于大模型的视频内容理解，可以利用AI快速给视频、影视剧生成摘要等。不过，多模态场景的商业化可能还需要一段时间，但我们最终将看到由AI生成的各种各样的内容，甚至是完全由AI创建的虚拟世界。

虎嗅：要从头开始打造一家如OpenAI一样的公司，您认为需要具备哪些条件？

迈克尔·伍尔德里奇：我想要从头开始创立一家OpenAI这样的公司非常困难。首先你需要庞大的计算资源，采购数万个昂贵的顶级GPU，组建专门用于AI的超级计算机，仅电费可能就耗资巨大。你也可以选择云服务，但目前云计算的价格并不便宜。因此，每次训练AI可能都要花费数百万美元，且需要运行几个月甚至更长的时间。

此外，还需要海量的数据，其规模可能是整个互联网的数据，如何获得这些数据也是一个难题。而数据和算力，都还只是基础，更重要的是要聚拢一群高精尖的AI研发人才。

虎嗅：在AI研发上哪家公司更有实力？您对AI研发方面，各国之间的技术差异怎么看？

迈克尔·伍尔德里奇：在这条赛道上的玩家可能包括互联网公司、研究机构，也许还有政府，只是他们没有公开。目前，公开宣布具备大模型实力的玩家并不多，甚至一只手就能数得过来。大型科技公司目前都在研发自己的大型语言模型，他们的技术也相对领先。

因此我不想评价谁更强，我认为各家模型之间没有明显可比性，他们的区别主要在于投入市场的节奏，以及用户数量。OpenAI的技术并不一定是最先进的，但他们在市场化方面领先了一年，而这一年的优势给他积攒了数亿用户，这也使他在用户数据反馈方面遥遥领先。

目前，美国在人工智能领域一直占主导地位，无论是谷歌还是微软，甚至创立于英国的DeepMind，如今也属于美国的Alphabet（谷歌母公司）。

不过，在过去的40年中，中国在AI领域的发展也相当快。1980年的AAAI conference（American Association for AI conference，美国人工智能协会会议），只有一篇来自中国香港的论文。但到今天，来自中国的论文数量已经与美国相当。

当然，英国也拥有优秀的人工智能团队，但我们没有中国那样的规模，我们是一个相对较小的国家，但我们绝对拥有世界领先的研究团队。

这是一个有趣的时代，很多国家都拥有极强的人工智能团队。

深度学习进入瓶颈

当人们探讨ChatGPT是否能够代替搜索引擎时，很多人认为ChatGPT的数据只覆盖到2021年以前，无法获取实时数据，因此没法胜任搜索任务。但也有人认为，其实我们日常搜索的内容，在很大程度上都是2021年以前的已有知识，即便此后生成的数据量再大，实际使用需求也并不高。

事实上，ChatGPT使用的数据量已经非常庞大了，它的前辈GPT-2模型是在40GB的文本数据上进行预训练的，GPT-3模型则是在45TB的文本数据上进行预训练的。这些预训练数据集，包括了各种类型的文本，如新闻文章、小说、社交媒体帖子等，大模型能够学习到不同领域和风格的语言知识。很多实践证明，即便只有2021年以前的数据，ChatGPT仍是一个上知天文下知地理的“博士”。

而这也引发了人们对大模型训练的数据忧虑，当我们要训练一个比ChatGPT更大的模型时，我们这个世界的数据还够用吗？未来的互联网上，会不会充斥着AI生成的数据，从而在AI训练过程中，形成一条数据的“衔尾蛇”？

虎嗅：您曾在书中提到神经网络是机器学习中最耀眼的技术。如今，神经网络引导我们在算法、数据尤其是算力上不断前行，随着技术进步，您是否看到了神经网络发展的瓶颈？

迈克尔·伍尔德里奇：我认为神经网络目前面临三个主要的挑战。第一是数据，像ChatGPT这样的工具是通过大量语料数据构建的，其中很多来自互联网。如果你想构建比ChatGPT大10倍的系统，可能需要10倍的数据量。但我们的世界上有那么多数据吗？这些数据从哪里来？如何创建这些数据？

例如，当我们训练一个大型语言模型时，我们有大量的英文数据、中文数据。但当我们想训练小语种时，比如，像冰岛这样人口不到100万的小国家，他们的语种数据量明显小的多，这就会出现数据量不足的问题。

同时，当ChatGPT这样强大的生成式AI被大规模应用以后，可能会发生一个令人担忧的现象。未来互联网上的很多数据可能是由AI生成的。当我们需要用互联网数据来训练下一代AI工具，可能使用的都是由AI创造的数据。

下一个问题是关于算力。如果你要训练一个比ChatGPT大10倍的系统，就需要10倍的算力资源。在训练和使用的过程中，会消耗大量能源，产生大量二氧化碳，这也是人们广泛担忧的问题。

第三个重大挑战涉及科学进步，我们需要基础科学进步来推动这项技术的发展。仅仅增加数据和计算资源确实能推动我们在人工智能的研发上走得更远，但这都不及科学创新带来的进步。就像是学会用火或是发明计算机，才能真正使人类的进步发生质的飞跃。在科学创新方面，未来深度学习面临的主要挑战是，如何研发出更加高效的神经网络。

除了以上三个挑战，AI还需要“可解释”。目前人类尚不能完全理解神经网络背后的逻辑，很多问题的计算过程藏在AI的“黑盒”中。虽然神经网络已经能够给出很好的答案，但我们并不真正理解它们为什么会给出这些答案，这不仅阻碍了神经网络的研发，也使得人类无法完全相信AI提供的答案。这其中还包括AI的鲁棒性问题（Robust），而要这种使用AI，我们需要确保神经网络不会崩溃，不会以不可预测的方式失控。

虽然发展瓶颈摆在面前，但短期内我认为不会看到神经网络的颠覆。我们现在甚至还不知道它是如何工作的，所以距离颠覆还很远。不过我认为神经网络并不是人工智能的答案。我认为它只是“完整的人工智能”的一个组成部分，肯定还有其他组成部分，但我们还不太清楚它们是什么。

虎嗅：如果算力是AI发展的重要因素之一，那么在AI芯片的研发方面您看到了哪些创新性研究？

迈克尔·伍尔德里奇：算力在未来很可能是AI技术发展的一个瓶颈。人类大脑的能效比很高，人脑在思考时的功率只有20W，相当于一个灯泡的能量消耗，这样的能量消耗相对于计算机，可以说是微乎其微。

需要大量算力和数据资源构建的AI系统与自然智能之间，存在天然的巨大鸿沟。人类可以更加高效地学习，但人类的这只“灯泡”始终只有20W，不是一枚很亮的灯泡。

因此，我们面对的挑战是如何让神经网络和机器学习技术（如ChatGPT）更加高效。目前无论从软件还是硬件角度，我们都不知道如何使神经网络在学习方面像人脑一样高效，在这方面还有很长的路要走。

当系统与系统直接对话

多智能体系统是AI领域的一个重要分支，指由多个智能体组成的系统，这些智能体可以相互交互、协作或竞争，以实现某种目标。在多智能体系统中，每个智能体都具有自己的知识、能力和行为，并且可以通过与其他智能体通信和协作来完成任务。

多智能体系统在许多领域都有应用，例如机器人控制、智能交通系统、电力系统管理等。它的优点在于可以实现分布式决策和任务分配，提高系统的效率和鲁棒性。

如今，在AI大模型的加持下，很多场景的多智能体系统与LLM可以尝试结合应用，从而大幅拓展AI能力的边界。

虎嗅：当下大火的AI大模型与多智能体系统有哪些可以结合的点？

迈克尔·伍尔德里奇：我的研究关注“人工智能系统相互交流时会发生什么”。大多数人都有智能手机以及智能手机的AI助手，比如Siri、Alexa或Cortana，我们称之为“代理”。

举个例子，当我想在餐厅订座位时，我会直接打电话给餐厅。但在不远的将来，Siri或是其他智能助手可以帮我完成这个任务。Siri会给餐厅打电话，代表我进行预订。而多智能体系统的理念是，为什么Siri不能直接与另一个Siri交流？为什么不让这些AI程序相互通信？多智能体系统关注的是，这些AI程序相互交流时所涉及的问题。

多智能体系统和大模型的结合是我们正在研究的项目。我认为，在构建多智能体+大语言模型方面，有一个非常有趣的工作要做。通过让大语言模型相互交流，我们能否获得更高的智能？我认为这是一个非常有趣的挑战。

比如说，我们现在要预约一场会议，你我都是用Siri代为沟通，但是你喜欢早上开会，而我喜欢下午开会。当我们之间存在争议时，代表你我的Siri如何协作解决这个问题？他们会协商吗？当AI不仅与人交谈，还与其他AI系统交谈时，会产生很多新的问题。这就是我正在研究的领域，我相信多智能体系统是未来的方向。

另一个关于多智能体和大型语言模型的有趣问题是，如果AI系统只是相互交流，它们是不是就不需要人类语言了？我们是否能为这些AI系统设计更有效的语言？

然而这又会引发了另一些问题，我们需要给这些代理、AI程序的交流制定规则，人类该如何管理由AI构成的人工智能社会？

AI无法代替人类坐牢

英国科学家迈克尔·法拉第（Michael Faraday）于1831年发明了电动机，他也没预料到会产生电椅这种刑具。1886年获得汽车专利的卡尔·本茨（Karl Benz）肯定无法预言，他的发明在未来的一个世纪里会造成数百万人的死亡。人工智能是一门通用技术：它的应用仅仅受限于我们的想象。

在人工智能跨越式发展的同时，我们也需要注意人工智能可能带来的潜在风险和挑战，如数据隐私、就业岗位流失等问题。因此，在推动人工智能技术发展的同时，我们也需要谨慎地考虑其社会和伦理影响，并采取相应的措施。

如果我们真的能构建具有人类智力和能力的AI，那么它们是否应该被视为与人类平等的存在？它们是否应该拥有自己的权利和自由？这些问题需要我们认真思考和探讨。

虎嗅：中文互联网有一个有趣的观点，“AI永远不可能从事会计、审计工作。因为AI不能坐牢。”AIGC在版权方面同样存在这样的问题，AI可以轻易抄袭人类的绘画、写作风格，同时人类利用AI进行的创作也存在权属不明的问题。那么您对人工智能在法律、道德方面面临的风险怎么看？

迈克尔·伍尔德里奇：“AI不能坐牢”这个想法非常妙。有些人认为AI能成为他们的“道德代理人”，对其行为负责。然而这种想法明显曲解了人类对于“对、错”的界定。我们不该去考虑怎么制造“有道德责任”的AI，而是应该以负责任的方式研究AI。

AI本身无法负责，一旦AI出了问题，拥有AI、构建AI和部署AI的人就要负责。如果他们使用的AI触犯了法律，或者他们将AI用于犯罪，那么应该被送进监狱的一定是人类。

此外，ChatGPT在隐私保护方面需要加强监管。如果ChatGPT收集了整个互联网的信息，那么他一定也读到了关于我们每个人的信息。例如，我的社交媒体、我的书籍、我的论文，以及其他人在社交媒体上对我发表的评论等，甚至是已经删除了的信息。AI可能还能根据这些信息描绘每个人的画像，从而进一步侵犯或伤害我们的隐私。

目前有很多关于人工智能法律方面的讨论，并不只针对ChatGPT，人工智能的法律问题一直存在，且日趋重要，但目前社会各界对此还仍在讨论和摸索阶段。

我认为ChatGPT或是其他的AI技术在未来几年中将会变得越来越普遍。但是，我也认为我们需要谨慎地使用它，确保我们不会失去人类的关键技能，例如阅读和写作。AI无疑可以帮助人类提高生产效率、生活质量，但它不能完全取代人类的思维和创造力。