为什么说ChatGPT是一次“接口”革命？ - 葱头胖友圈

2022年年底，由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT，以其强大的信息整合和对话能力惊艳全球，两个月内月活用户突破1亿，有人惊喜，有人狂热，有人惶恐：ChatGPT究竟是什么？它为何这么强大？AI可以代替人类思考吗？

2023年2月15日晚，百姓网创始人王建硕做客高山书院，与同学们一起进行了一场关于ChatGPT的主题讨论会，课堂上同学们百家争鸣、各抒己见。讨论结束后，主持人李可佳同学更是将“各家思想”融会贯通，写出了一篇“课后感想”。

本文来自微信公众号：高山书院（ID：gasadaxue），作者：李可佳，原文标题：《当我们追Generative AI，我们到底追什么？》，题图来自：《机械战警》

AGI 即Artificial general intelligence（通用人工智能），ChatGPT（全名：Chat Generative Pre-trained Transformer）是由OpenAI开发的一个人工智能聊天机器人程序，Generative AI 指生成式人工智能，是一个广泛的标签，可用于描述任何一类人工智能。

作为一个计算机专业的毕业生，我第一次听说GPT已经是比较晚的时候了。2020年的7月份，GPT-3横空出世，我一个老同学兴奋地发了个朋友圈：“请注意，现在站在你面前的是互联网原子弹、人工智能界的卡丽熙、算力吞噬者、黄仁勋的新 KPI、下岗工人制造机、幼年期的天网——最先进的AI语言模型GPT-3。”我随手评论三个字：拉倒吧。

今天没有人敢小看ChatGPT，就连无数对“先进”抱有迷思的程序员们，也被当头棒喝：口碑并不来自于绝对先进，而是来自于超出预期。

与之前很多被过度炒作的热门技术不同，Generative AI的繁荣伴随着真实市场的实际收益，以及来自真实公司的真正吸引力。Stable Diffusion和ChatGPT等模型正在创造用户增长的历史新纪录，多个应用程序在推出后不到一年的时间就达到了1亿美元的年化收入。对照表明，人工智能模型在有些领域中的表现已经优于人类多个数量级。

秦国能够统一六国，最重要的原因之一是“弩”的存在。其实弩作为一个武器好像没那么好用，射程没有特别远，杀伤力跟弓箭也差不太多，但是弩跟弓相比，有一个最大的特点，就是不需要力量训练。其实拉弓需要的核心力量是非常大的，所以古代那些拉弓射箭的士兵都非常健壮；但是弩是用机械的力量把弦上上去，然后用扳机来发射，普通人就能操作，大大降低了成为一个战士的门槛，有些学者把它解释为“扳机效应”。

ChatGPT不是一颗互联网原子弹，而是给了每个普通人一把“弩”。一颗原子弹再厉害，其最大作用还是藏在发射井里；而弩的出现，意味着一切逆流都将是插曲。随着身边越来越多的朋友都在开始围绕ChatGPT进行创业和投资，我很想搞清楚，当他们都在说投资AGI，投资ChatGPT相关产品，他们具体投资什么？

一、相对确定的信息

1. 我们不能贸然把ChatGPT当通用智能（认为有智慧），（不管怎么定义智慧）它本质就是语言模型，不是逻辑或者计算模型，它的最强项还是语言的理解、组织和输出，可以理解成是翻译官（它是个“文科生or文字工作者”）。

开头提到的GPT-3就是一个针对语言的模型，期间它做了两个关键变型，一是WebGPT，搭建基于文字的页面浏览环境，教GPT-3上网查询，在生成结果的同时生成引用来源，相对GPT-3大幅提升生成内容信息量和事实性；二是InstructGPT，基于用户反馈的强化学习RLHF，将语言模型的输出与用户的意图非常好地align（对齐/相关）起来，这是InstructGPT的核心所在。

ChatGPT恰恰是建立在InstructGPT基础之上，使用基于人类反馈的监督学习和强化学习在GPT-3.5之上进行了微调的产物。（这部分信息很枯燥，但我认为很关键，知道技术路径有利于了解边界和瓶颈）

2. 大模型不是一种新技术，但代表了一个新的技术范式。

我们可以做个比喻，它其实代表着从以前“大炼模型”（各自研发专用小模型），到“炼大模型”（研发超大规模通用智能模型）的一个转变。这个转变有很重要的意义：通过这种比较先进的算法架构，尽量整合可能多的数据，汇集大量算力，集约化的训练模式，从而供大量用户使用。

但从某种意义上来说，它是从小农经济到大规模生产的一个很重要的变化，就像当初电网的变革一样，此前自己发电，而今天要用AI，就不需要再做模型了，而是用已有的大模型，以一种服务方式提供给用户。这很可能会改变信息产业的格局，改变以前作坊式AI开发模式，把AI应用带入基于互联网、云计算的大规模智能云阶段。（以上摘录自张宏江教授讲话）

3. 对创业者友好的的地方是：如当初电网的变革一样，此前自己发电，今天要用 AI，就不需要再做模型了，而是用已有的大模型，以一种服务方式提供给用户。

重点结合技术和产业的双重优势，通过微调方式能够把大模型能力有效转移到各种不同的应用场景中间，不再需要自己重新从零开始做模型，从而大大降低开发成本，使得它的应用会变得更加迅速、更加有效。

4. 问题也很明显：许多应用程序也相对没有差异化，因为它们依赖于类似甚至相同的底层大模型，并且没有发现竞争对手难以复制的明显网络效应或数据/工作流。

下面分应用、模型、基础设施三个层面展开说说:

Applications（应用）：将生成的AI模型集成到面向用户的产品中的应用程序，运行自己的模型管道（“端到端应用程序”）或依赖第三方API。

垂直整合（“产品及模型”）。细分领域从头开始训练以建立防御能力，但这是以更高的资本要求和更不灵活的产品团队为代价的。

e.g：

[Novel AI]（https://novelai.net/）可以帮助作者生成动漫角色；

[Make a Video] (https://makeavideo.studio/)可以直接生成小视频。

重能力而非产品。 Generative AI在用户已经工作的地方集成AI，是全新的产品设计思路，因为UI通常只是一个文本框，可以兼容桌面应用程序、移动应用程序、Figma/Photoshop插件、Chrome扩展程序、Discord机器人甚至是传统客服中心。但是否延续移动互联网时代的逻辑，也就是往往最大的公司直接面向终端用户的应用程序？还无法定论。

通过炒作周期和区域进行管理。新鲜感和炒作过后，留存率是否会提升？相关政策和法规在不同国家地区是否存在不同路径？这些问题对应用程序公司具有重要意义，包括何时加速筹款、如何积极地投资于客户获取、优先考虑哪些用户细分、以及何时宣布产品市场契合度。

Models（模型）：为AI产品提供动力的模型，可以作为专有API或开源检查点提供高达数千万或数亿美元的大规模模型训练费用。专有产品交互数据和稀缺的AI人才，注定是高资本和科技巨头的竞争核心。

开源：Stable Diffusion的例子表明，如果开源模型达到足够的性能水平和社区支持，那么专有替代品可能会发现难以竞争。

API 接口服务：对专有API（例如来自 OpenAI）的需求正在迅速增长。OpenAI有潜力成为一项庞大的业务，随着越来越多的杀手级应用程序的构建，它在所有NLP类别的收入中占据很大一部分——特别是如果它们顺利集成到Microsoft的产品组合中。

托管或训练服务：包括垂直性训练、大模型运营管理训练等。在美国公司Hugging Face发展比较快，专门做大模型的训练和推广，尤其是一些开源的推广。

Infrastructure（基础设施）：为Generative AI运行训练和推理工作负载的基础设施供应商（即云平台和硬件制造商）。

Generative AI几乎所有时候都运行在基于云托管的GPU（或TPU）环境中。因此，生成人工智能市场的大量资金最终流向了基础设施公司。据国外媒体统计，今天生成人工智能总收入的10-20%流向了云提供商。

最重要的是，训练自己模型的初创公司已经筹集了数十亿美元的风险投资——其中大部分（早期高达 80-90%）通常也用于云提供商。许多上市科技公司每年花费数亿美元用于模型培训，要么与外部云提供商合作，要么直接与硬件制造商合作。

主要是三大云：亚马逊网络服务 (AWS)、谷歌云平台（GCP) 和Microsoft Azure。Nvidia是当前最大赢家，因为他们提供了稀缺硬件（例如 Nvidia A100 和 H100 GPU），本质上得益于他通过数十年来对GPU架构的投资、强大的软件生态系统以及在学术界的深入使用，他们围绕这项业务建立了强大的护城河。

也有一些初创公司如Coreweave和Lambda Labs，凭借专门针对大型模型开发人员的解决方案迅速成长。他们在成本、可用性和个性化支持方面展开竞争。
由于大多数AI工作负载是无状态的，因为模型推理不需要附加的数据库或存储（模型权重本身除外）。这意味着AI工作负载可能比传统应用程序工作负载更易于跨云移植。在这种情况下，客户更容易流动，给新入场的设施提供商创造了一点机会。

二、不确定、有疑问的信息

根据可用数据，尚不清楚生成式AI是否会出现长期的、赢者通吃的动态。

1. 今天，生成式人工智能似乎没有任何系统性的护城河。

作为一阶近似，应用程序缺乏很强的产品差异化，因为它们使用相似的模型；模型面临不明确的长期差异，因为它们是在具有相似架构的相似数据集上训练的；云提供商缺乏深度的技术差异化，因为他们运行相同的GPU；甚至硬件公司也在同一家工厂生产芯片。

当然，还有标准的护城河：规模护城河（“我拥有或可以筹集到比你更多的钱！”）、供应链护城河（“我有GPU，你没有！”）、生态系统护城河（“每个人都已经在使用我的软件了！”）、算法护城河（“我们比你聪明！”）、分销护城河（“我已经有一个销售团队和比你更多的客户！”）和数据管道护城河（“我在互联网上的爬行比你还多！”）。

但从长远来看，这些护城河都不会持久。现在判断强大、直接的网络效应是否在堆栈的任何层中占据主导地位还为时过早。

2. 例如，如果最终产品的主要差异化是AI本身，那么垂直化（即将面向用户的应用程序与本土模型紧密耦合）很可能会胜出。而如果AI是更大的长尾特征集的一部分，那么它更有可能发生水平化。

当然，随着时间的推移，我们还应该看到更多传统护城河的建立——我们甚至可能会看到新型护城河站稳脚跟。

3. 维特根斯坦说：“语言的边界就是思想的边界”。人类的逻辑是建立在语言的基础之上的，赌大语言模型LLM是通往AGI的最佳路径，正是OpenAI到目前为止胜出的原因。

出门问问CEO李志飞说：“模型学会了非常底层的结构和机制。万物都是自然产生的，语言也好，生物结构也好，它一定符合某种我们目前难以解释的规律。模型经过互联网上所有的数据训练之后，它也获得了某种属于自己的解读方式。” 这种说法我很期待，但并不确定，如果现实世界有一种语言，这种语言只可能是数学，但ChatGPT明显是一个文科教授+理科小白。

三、引入的两个新视角

1. ChatGDT是一场价值链解绑的新革命。

Ben Thompson在其文章《The AI Unbundling》中提到一个观点：创意的价值链一直在被解绑。

当我们希望一个创意最终被消费时，大抵经历了以下步骤：

Creation （创意）
Substantiation （实现）
Duplication（复制）
Distribution（分发）
Consumption（消费）

如果从媒介的进化来看，这个过程是在不断被解绑：

书写之前，内容从创造到消费必须是即时的。一个优秀的说书人要同时兼备有创造力、好的记忆力、适当的名气、足够的体力以及听众的配合，才能让创意被消费掉。
书写解决了内容留存问题。内容的创造和消费，可以异步进行。
古登堡的印刷术解决了复制问题，让人们可以大规模地复制与传播内容，宗教革命和文艺复兴也因此而诞生。现在创作的人只需要关注创意和实现，而复制和分发诞生了传媒行业，价值链在进一步解绑。
互联网让分发不再依赖于传统物理媒介，打破了效率瓶颈，让信息传递成本几乎降至免费。
现在还剩一个绑定的部分，即想法到创造的现实。而AI正在打破这个绑定。比如一个小说家，可以不需要再经过十几年的训练，就可以为自己的小说配上插图。而那些有创意的人，将会不再需要依赖其他人帮忙，就能直接实现自己的想法。

当价值链上的各个环节每次被打破时，对应的商业模式也会被重塑，供给方和需求方的诉求也会发生变化。ChatGPT可以让所有知识劳动者做一次个体的数字化转型。

个体需要开始解绑自己的“工作”，拆解成不同的“任务”，对应不同的“技能”，然后在不同技能上使用不同的AI来替换或支持，重新设计工作流，达到强化自己的效果。

这是最坏的时代，因为必然有大量的就业岗位消失；这也是最好的时代，因为对用好AI的少数人来说，“组团队”只需要过去10%的资本量。

2. Generative AI是个超级UI（接口）。

2023年2月15日，王建硕高山书院内部的一个讨论提到，ChatGPT带来的兴奋感，和90年代第一次看到网景浏览器（Netscape Navigator）一样，通过这个窗口看到了新的世界、新的时代。而在此之前只能用语言和命令，能玩转的就是高级人才了，反正普通人是上不了的，太过于复杂。

我们与任何系统之间都有一个“界面”，也可以称为“接口”，通过这个接口将系统内部的结构信息传达给用户；这个接口有时候是抽象的，也可以是具象的人，比如律师、医生、财务顾问等，都是链接我们与另一个复杂系统的接口。

一个好的接口能提高用户的使用效率与频次，继而催生出一个高效流动的市场。复杂系统的接口特别稀缺，所以往往非常昂贵。

我的另一位朋友任鑫，他觉得Midjourney是最好的产品，因为仅通过一个对话框，输入一些提示词就能得到远超预期的计算机绘画作品。从Web到移动端，那些曾经被奉为圭臬的交互设计原则都将回归到一个对话框，并且从形态来讲，它不再是一个静态的东西。

这个对话窗口背后，是大模型跟数据，是业务高度融合，是动态迭代发展的一个存在，它是个service，下面不停地变，不停地融合。

这不得不让我想起首晟教授提到的那个第一性原理：“分久必合合久必分”。ChatGPT让普通人第一次可以使用自然语言，通过这种跨越所有交互与数据操作之上的通用界面，对信息世界“编程”，并且获得自己所需要的能力。

这是一次“接口”的革命，它无处不在，而且非常廉价。

因为利用弩这种不需要核心力量训练的武器，就可以非常迅速、有效地把大部分普通人变成士兵。由此，秦国就最早地发展了一种“动员技术”。我们中国人有一句俗话叫“街坊四邻”，为什么是四邻呢？因为古代的基本社会组织是“五人为一伍”，除了你之外还有四家，这四家叫四邻。

这个跟商鞅变法结合在一块儿就更厉害了。商鞅变法推行耕战制：你平常没事干的时候就种地，该打仗的时候就打仗。如果没有弩，这些种田的普通人上了战场也没什么用。

弩这种兵器并不是秦国最早使用，而是韩国最早使用，但是秦国的制度用得最好。当战国时代开始的时候，这个技术进步使得老百姓都能参与到战争中去。所以并不是说这个技术是秦国独有的，而是秦国的政治制度和这个技术结合得好。

作者介绍：李可佳，Monad Infinity Venture Partner、原字节跳动智慧教育CEO、高山书院2020级同学、张首晟奖学金获得者、高山科学促进中心秘书长

参考文献

[1] https://mp.weixin.qq.com/s/30BZy4bEiehULF2rLS-GgQ

[2] https://a16z.com/2023/01/19/who-owns-the-generative-ai-platform/

[3] https://stratechery.com/2022/the-ai-unbundling/?access_token=eyJhbGciOiJSUzI1NiIsImtpZCI6InN0cmF0ZWNoZXJ5LnBhc3Nwb3J0Lm9ubGluZSIsInR5cCI6IkpXVCJ9.eyJhdWQiOiJzdHJhdGVjaGVyeS5wYXNzcG9ydC5vbmxpbmUiLCJlbnQiOnsidXJpIjpbImh0dHBzOi8vc3RyYXRlY2hlcnkuY29tLzIwMjIvdGhlLWFpLXVuYnVuZGxpbmcvIl19LCJleHAiOjE2NjU1ODMyNzEsImlhdCI6MTY2Mjk5MTI3MSwiaXNzIjoiaHR0cHM6Ly9zdHJhdGVjaGVyeS5wYXNzcG9ydC5vbmxpbmUvb2F1dGgiLCJzY29wZSI6ImFydGljbGU6cmVhZCBhc3NldDpyZWFkIGNhdGVnb3J5OnJlYWQiLCJzdWIiOiJBSnZzdjRjUnpDUFJVUGFVak50TDM0IiwidXNlIjoiYWNjZXNzIn0.XCngE9iQVgfrp74zwncCO-7ObrHsyi6TVufZLauXAMUMhzv8eUGZSa7WMXDBc0I1ykv8HsNMpF4zP2e8bUWgW7PdP2fd77aTbisoWCkVwf25BaVSDa2TKZYBl0gWjOMKua9_or_q2pYUpggI4K76aHWuFs2JXmV6Z-mWY3E8nsw8-c76VCfKL-YcFuzqBTlN8k-TZsQkpC54o5v7C5zoUOsOhb2GmNc9DasjTrYpGuTlvPcPfalMDFa7UWb_l7RJtMHm_wD_kKkWO-4Nx_upqgMXCth7W8I

[4] https://www.lesswrong.com/posts/hyShz2ABiKX56j5tJ/interfaces-as-a-scarce-resource

本文来自微信公众号：高山书院（ID：gasadaxue），作者：李可佳