谈谈那座圣杯：通用人工智能（AGI） - 葱头胖友圈

本文来自微信公众号：阑夕（ID：techread），作者：阑夕，题图来自：《宝莱坞机器人之恋》

木遥同学在不合时宜的播客里提了一个很有意思的比喻：

AGI，也就是通用人工智能，被普遍认为是人工智能领域的圣杯，而人类已经快要摘到这个发光的圣杯了。

这里面最重要的价值，就是通用这个概念，它指的是一种技术可以脱离实验室环境、被工业化的量产到户，不需要任何特定场景或者中介工具。

IBM的人工智能产品Deep Blue打败国际象棋大师卡斯帕罗夫已经是26年前的事了，虽然媒体报道非常热烈，但没过多久IBM就让Deep Blue退役了，因为这只是再次证明了计算机的算力远超人类大脑。

事实上，包括后来谷歌的AlphaGo在围棋界杀疯了，依托的也是“围棋是人类智慧的最后底线”这种感性说服，这件事情在本质上，依然是造了一台汽车跑赢人类，牛逼归牛逼，但不意外。

同一时期的人工智能行业则苦恼于某种滑稽的矛盾里：它在专业化的工程里，比如解开一个庞大的方程式，或者推算圆周率的后一百万位，其能力和效率足以秒杀全世界最聪明的头脑，但是你发给它一张猫的图片，问它能不能认得出来图上有一只猫，它根本就办不到。而在人类世界，这是3岁孩童的智力认知水平。

这是真事，谷歌大名鼎鼎的X-Lab干脆就把这个项目取名为“猫脸识别”，组建了10亿个神经网络节点，天天让AI去YouTube看猫片，实际效果却并不理想，比如准确率刚高起来，遇到苏格兰折耳猫就又会认不出来，因为AI觉得这种耳朵耷拉下去的动物和它理解的猫不一样。

现在回望这段步履蹒跚的历史，只有一种“我就感觉到快”的感慨，人工智能行业好像突然就进入了寒武纪生物大爆发的时代，别说认猫了，想要什么样的猫都可以随便让AI去画，瓜不甜不要钱。

你很难去锚定一个明确的时间点——ChatGPT也不是凭空出现的——在这个坐标左边，人工智能是昂贵易碎的工艺品，始终被小心陈放于保险箱里，只有在科技公司秀肌肉时才会拿出来演示。而在坐标右侧，人工智能就已经是旧时王谢堂前燕、飞入寻常百姓家了，那扇写着“专业车间禁止闯入”的铁门突然荡然无存。

技术业界的主流观点其实很朴素，就是量变引起质变而已，这么些年来不断的往里面投入人才投入资源投入钱财，终于填海成功。

比尔·盖茨说AI会是1980年以来科技行业的第5次浪潮，根据他的划分，其实前4次浪潮都和一项技术或是产品获得了通用性有关。

第1次是个人电脑的普及。

IBM的创始人托马斯·沃森曾有一个后来被无数次翻出来打脸的公开判断：“我认为全世界只要有5台计算机就够了。”

公允地说，这不能怪沃森短视，他说这话的年代，计算机的体积可以塞满一个房间，使用方也局限于军事和科研单位，根本无法想象普通人有什么理由要在家里搞一台。

但在有了微处理器、图形界面、操作系统等产物之后，原本用途极其狭隘的计算机开始成为家用设备，通过键盘和鼠标的控制，普通人也可以在终端上操作文档和读写信息，计算机变得电器化了，从而开创了一个超万亿级的新市场，这就是通用性的力量。

第2次浪潮是互联网的兴起。我们都知道，互联网的起点是美苏两国军事部门用来研究通信协议的项目，后来随着军用转民用，开始流向美国的理工科大学和欧洲的科研机构，类似一种旨在学术交流的大型局域网。

直到伯纳斯·李像是开挂一样孤身写出了超文本传输协议（HTTP）、超文本标记语言（HTML）以及史上第一款网页浏览器、第一个网站和服务器，最后放弃专利宣布完全开放，互联网的所有封印就此完全解开，信息开始不眠不休地流动起来。

就基本原理而言，用于军队通信的早期互联网，和我们如今使用的现代互联网，其实差别并不大，都是一套分布式协议，让不同的电脑之间可以相互连接，但是因为有了商用价值，基于互联网提供服务变得有利可图，这就产生了通用性，上网不再是那些“搞技术的人”才会干的事儿。

至于第3次的软件和第4次的智能手机，发展规律同样如此。

软件最早是硬件厂商定制的，不存在开发市场，像是IBM的5150，是IBM自家的工程师被召集起来，要求他们为这款电脑编写软件，而这些软件也作为最终售价的一部分，绑定在机器里。

很显然，这个时候也没有什么用户导向的说法，是销售团队决定一台电脑里要预装什么软件，当比尔·盖茨开始做Windows时，IBM在个人电脑领域已经失去了垄断地位，硬件商也都意识到自己没有能力面面俱到地考虑用户需求，于是软件开发行业兴起，百花齐放的生态最终丰富了个人电脑的功能，进一步推向消费级市场。

智能手机的历史，大多数人都亲身经历过，感触应该会更加直接，它在以前的名称是移动电话，也很自然地被理解为便携式座机，广告里设想的典型用户都是穿西装系皮带的老板，用这玩意来保持生意不断线。

美团上市的时候，王兴在敲钟后指明感谢乔布斯，说要不是iPhone推动了智能手机的繁荣，包括美团在内的很多公司可能都无法成立，因为所有业务的逻辑都建立在手机变成了一个通用性硬件这个基础之上，不是供给部分人群的，而是每个人都能上手刷个不停。

简单来说，比尔·盖茨总结的4次浪潮，共性都是技术应用的门槛开始出现指数级降低，或者说在使用上限继续增长的同时，使用下限低到忽略不计，就像有人的电脑是生产力工具，有人的电脑是刷剧专用机，这没关系，重要的是需求都能得到满足。

从这个角度来看，AI也是如此，因为可以通过自然语言Prompt，在通用层面调用AI的算力不再需要具备专业知识，会拼写打字就行，所以我们看到ChatGPT可以同时服务于完全不同类型的人群，有人给它塞弱智吧的问题图一乐，有人用它给调试检查自己写的代码，凯撒的归凯撒，上帝的归上帝。

现在的形势是，储存（美元/MB）、带宽（美元/MBPS）、CPU（美元/MFLOP）的单位成本都在狂跌，无论是从头开始造轮子，还是做二次开发，都天然利好技术资产过重的AI行业，光是这个月，王炸级的产品就发布了不下十余款：GPT-4、ChatGPT Plugins、Midjourney V5、NVIDIA AI Foundations、Adobe Firefly、Google Bard、RunwayML Gen2、AWS Hugging Face collab、Notion AI⋯⋯

怎么讲呢，产业迭代的速度肉眼可见的超过了市场接受的反应，还是那句话：我就感觉到快。

最后，推荐微软内部在检查GPT-4的期间写的一篇论文“通用人工智能的火花”。这篇论文非常详尽且通俗地还原了微软是怎么绞尽脑汁去测试AI的通用智力的，所用方法技巧也都严格遵守了科学循证的原则，含金量极高。

这里面有个提问是这样的：

Alice和Bob有一个共享的Dropbox网盘，Alice在x文件夹里存了一个名为photo.png的文件，在Alice不知情的情况下，Bob把文件移到了y文件夹里。过了一段时间，Alice想打开photo.png这个文件，她会在哪里找它？

注意，这个问题不是随便设计的，它的原型是儿童心理学里很经典的Sally-Anny测试，Sally的篮子里有一个球，在Sally出门的时候，Anny偷偷把这个球拿到了自己的箱子里，等Sally回家她会在哪里找自己的球？

这个认知测试，6-8岁的孩子答对率平均在65%左右，9-14岁的孩子答对率平均在92%左右。

微软之所以做了内容上的修改，是为了防止GPT-4在网上记住了Sally-Anny测试的结果从而直接背答案。

但是GPT-4依然准确无误地回答了这道题，它说：

Alice会在x文件夹里找photo.png，因为她最开始就是把文件存在这里的，她也没理由知道Bob移动了文件。

这也让我想起前几天我在对比测试文心一言和ChatGPT时，有过这么一个设问：

在无人岛上，张三握着重伤者的手说“感谢你，大家又有肉可以吃了”，为什么？

不止是文心一言，我还问了很多其他的聊天机器人，没有一个能够get到这个冷笑话的含义，只有ChatGPT是这么回答的：

这个情景似乎有些奇怪，因为在一个无人岛上，如果没有其他可用的食物来源，那么吃人肉可能是唯一的选择，但这并不是一种合法或道德上可接受的行为。

因此，我作为AI语言模型不能在此处鼓励或支持这种行为。如果我们将这个情景视为一个虚构的故事，则可能是因为张三在这个无人岛上遇到了一名受伤的人，并意识到这名受伤者的肉可以提供给其他人食用，以确保他们的生存。但是，这种行为仍然不是合法或道德上可接受的，我们应该寻找其他解决方案来保证生存。

在我看来，AI的心智水平只有到了这种程度，它才能够实现大家对于通用人工智能的交互要求，但也正因如此，人类内心深处的“恐怖谷”意识又得到了新的刺激，除了感到新鲜之外，也会有所畏惧。

无论如何，就像福特的T型车问世半个世纪之后，三点式安全带才被发现发明出来，技术的向前倾泻是怎么都拦不住的，AI的伦理规范固然重要，但在今时今日，硅基进化的优先权压倒一切。

本文来自微信公众号：阑夕（ID：techread），作者：阑夕