在GPT-4面前,全世界科技大厂都已黯然失色(图/视频)

作者｜刘正

Simon Kucher 战略咨询顾问

2023年3月14，圆周率日的一个平淡无奇的下午，Open AI发布了最新的大语言模型GPT-4。初看起来这次更新没有ChatGPT那么酷炫：文本输入长度（token）拓展到3万以上，支持多模态模型输入（但没有之前期待的图像和视频输出），更强的数理推理能力（终于学会高考数学了）。

所以，更大，更快，更强，但这意味着什么呢？

任何指数增长的曲线初期，拉近了看都不过是一个平淡的缓坡。但只有回顾整个历史的时候，我们才会知道这条曲线最终会加速到怎样的高度。正在凑近了看GPT-4的人类，并不知道接下来将要面对的，是何种惊涛骇浪。

把“努力”交给GPT，拼天赋的时代到来

有一句曾经很有道理的说法：“以大多数人的努力程度之低，根本轮不到拼天赋”，这确实是事实。很多人也被这句话刺痛而奋发图强，想努力一把，摸到拼天赋的门槛线上。

但现在似乎没必要了，因为大多数人努力一辈子也不会比GPT-4的知识储备和执行能力更强。

GPT-4是天生的做题家，可以自己读题自己分析然后组织文字输出。在OpenAI展现的第一个案例中，GPT-4对一道包含图像的物理题进行了解答，它理解了PDF格式下的图像和文字，一步步推理并得到正确答案。顺便提一嘴，这道题来自著名的巴黎综合理工大学，后者以其变态的数理难度而闻名。

GPT-4在美国律师资格考试（BAR）上达到了前10%，在美国高考语文（SAT Reading and Writing）上达到了前7%，而在生物学奥赛试题上更是达到了前1%，可以拿国际金牌。不客气地说，这个水平已经远远超过了大部分人智力巅峰——高考前一天的水平，轻轻松松上985。

但是，对于能接入GPT-4的人群而言，事情并没有因此变得更轻松。因为不好意思，从现在起你们就只能拼天赋啦！

而以大多数人的平均天赋水平，从第一天开始就连努力的机会都没了。在那个让全世界前端程序员虎躯一震的展示里，OpenAI员工随手画了一个网站样式的草稿和文字描述，手机拍照发给GPT-4，然后马上就生成了网站的HTML代码，效果立刻可以预览。

这一刻，产品经理露出了灿烂的笑容，想着明天就把“这个需求做不了”的“程序猿”给开了？

身在咨询业的我则悲喜交加，在上一篇文章里（风声｜美国人的这款机器无所不知，但会让下一代从大脑开始垮掉？）我还为实习生的未来感到担忧，现在已经快进到初级顾问灭绝计划了。是不是以后只需要合伙人在外面承揽业务，然后一股脑丢给我一个人承做就可以了？

我可以用GPT列提纲，打印出来手绘草稿，拍照丢给GPT画PPT；不知道的信息让New Bing帮我找，没看过的文章让ChatGPT读了并总结，分析的模型用ChatExcel帮我搭，一手调研也可以让GPT做问卷，甚至配合Whisper AI（语音理解模型）和讯飞配音，让他替我访谈专家并整理洞见。

实现上述的前提有两个：

第一，我知道为了完成项目要实现的目标；

第二，我要问出正确的问题。

“问正确的问题”才是最难的事情，这需要经验，灵感，理性和直觉的终极组合，而如果GPT把实习生和初级顾问都干掉了，我确实有点担心咨询这门手艺后继无人。

但肯定的一点是，在同样拥有GPT的情况下，人和人之间能力的差别可以被拉大到匪夷所思的地步。对于最聪明最大胆、富有激情，脑子转得比手快几百倍的那种人，他们的生产力会迅速爆棚。从前那些被“有限时间”和“低效沟通”所限制的产品、服务，如今可以快速成为现实。

不过，供给端爆炸也同样意味着，只需要寥寥数个工作狂就可以满足许多许多需求，其他人做的所谓“工作”只能算自娱自乐。

而如果那时我还没有被干掉，大概率是因为老板们想每天多睡几个小时。不然他更愿意直接指挥GPT模型，而不是常常“不解人意”的真人。

这不仅仅是平均的终结，这实际上是99%的终结。所以你觉得自己能成为1%，还是99%呢？

在GPT面前，科技大厂已黯然失色

这次GPT-4发布还有个令人担忧的点，就是只出了一个技术文档（Technical Report），但没有公开论文，也没有任何的技术细节。只告诉你我有多强大，但对如何实现的know how只字不提。

OpenAI，已经且必然会变成CloseAI，毕竟没人和钱过不去。

而这次提到的专属Azure训练集群，则意味着CloseAI已经和微软实现了深度融合，同时在模型规模和硬件算力上建立起深不可测的护城河。

对于今天发布的文心一言，我感到由衷地同情，类似于看到波兰骑兵冲锋德国坦克时的那种同情。但不只是百度，在GPT-4面前，无论是Google、 Meta，还是任何一家大厂目前都黯淡无光。尤其当你发现GPT-4的训练时间居然是去年的8月——那么显然，此刻跑在1万张NVIDIA A100芯片上的只会是尚未发布的GPT-5了。

而下一代的GPT-5会有多强大，没人知道。

很赞同作家和菜头说的这段比喻：“就像是在学校留堂，做完作业才能回家。那个最好的学生想出了办法，解决了最后一道题，然后不发一言起身回家。教室里剩下的学生，就都留在了一道看不见的障壁之后，他们知道能够穿越，他们看到有人穿越，但是他们不知道自己如何才能穿越。”

OpenAI至少领先了半年，在指数增长的情景下，即便路径完全一样，先发者和追赶者的距离也会变得越来越大。甚至可能因为先发者对硬件算力，数据生成和用户反馈三位一体的循环虹吸，追赶者最终被彻底拉爆。

99%的终结，对个人如此，对AI赛道的企业则更为残酷。

需要人的场景越来越少，AI也可以做消费者

很多人都对GPT-4的多模态模型感到惊奇，因为这并不是一个简单的OCR，实际上GPT-4是对整个图像的像素序列进行了理解、并进行了深度推理，能够发现不合理之处，甚至看懂梗图。

看起来这没有Stable diffusion这样的图片生成功能酷炫，但这是目前GPT-4对我产生的最大的震撼。

| GPT-4可以看懂上图的幽默之处（来源：OpenAI官网）

GPT-4对该图分析如下：

图片展示了一个“闪电线”适配器包装，包括三个面板。

面板1：一部智能手机，其充电口连接了一个VGA接口（通常用于计算机显示器的大型、蓝色、15针接口）。

面板2：带有VGA接口图片的“闪电线”适配器包装。

面板3：VGA接口的特写，末端带有一个小型的闪电接口（用于为iPhone和其他Apple设备充电）。

这幅图片中的幽默来自于将大型、过时的VGA接口插入小型、现代智能手机充电口的荒谬之处。

这种多模态理解能力的影响是极为深刻的。

我曾设想过“无人电影”的模式，主题要素是通过流媒体的播放大数据生成的，剧本是GPT模型自己根据主题要素写的，画面是根据剧本自动生成的视频流，后期是通过stable diffusion合成的，配音是照着剧本里的台词合成的语音，宣发海报也是stable diffusion画的，通过SNS机器人自动投放，机器人水军照着剧本情节写豆瓣评论。

质量糟糕没关系，同时生成1000部定向投放，A/B test，每天进行迭代，必能产出神作。

但这个循环里还是有人的，那就是观众。人被投食内容、人来理解内容、表达欣赏以及做出反馈。这种反馈，一定是人才能做吗？GPT-4提醒我，观众也可以是AI。
AI模型也可以看懂电影，也可以理解微妙之处，表达欣赏，并很清楚地反馈出来。而消费的本质，是对外界信号刺激的理解和欣赏。无论这个信号是视觉信号，还是语音频率，或是舌头和皮肤的神经传感电信号。

对于GPT，它们都不过是多模态输入的某种类型。那么AI其实也是能够消费内容的，甚至可能是比任何人类都更好，更具品位的消费者。

AI对供给端的极大提升，最终可能要靠AI自己去消费，而不是靠着渐失生殖欲望的人类。

正如AI导师Geoffrey Hinton的推特所说，人类用千年的语言编码了整个世界，凝聚成GPT-4破茧成蝶。而在完成引导程序的使命后，我们也将卸下这副碳基的躯壳。

所以，这是人类的落日吗？

我相信，明天太阳还会升起。