巨头AI，受困于巨头垄断 - 葱头胖友圈

最近一直在折腾 LLM 的本地部署，所以时常在群里分享一些心得。然后就有人问我为什么执着于本地部署 AI。我直接就是一个：

这个需求当然是真实的，但我其实不只有这个需求需要本地部署 AI，只不过这个需求是被各家线上模型所禁止的，所以也是我第一个想到的本地部署的刚需。

实际上，目前日常使用过程中，让我使用体验下降的，是以下一些场景：

ChatGPT 很好，但它的 Web Browsing 功能强制绑定了 Bing。

Bing 作为搜索引擎非常差，尤其是在中文领域。

这意味着使用 ChatGPT Plus 进行搜索，就像是让一个大学生在竹简里找寻答案。

Bard 的搜索很好，因为它依托 Google。

因此它的模型虽然不如 GPT，但使用它的体验就像是高中生在替我用 Google，肯定比大学生替我找竹简要好。

但它严格遵守 Robots.txt 对网页的访问限制。

这意味着，我无法将一篇微信公众号的文章链接发给它让它总结。

Grok 的优势也很明显，因为它能直接调用 X（Twitter）的搜索结果，这意味着它的外挂知识库是分钟级更新的，你能从它那里得到一些“刚刚发生的事情”的答案。

我也不愿意为了这样一个优势单独每月付费。

文心一言在某种程度上也有优势，因为它能调用百度热搜，这意味着它对国内热点事件有更好的响应能力。

看起来，每家巨头，或者说线上 AI 都在模型的基础上基于自己的业务或利益相关做了一些特化。

但这种“优势”，其实是通过给对家制造“劣势”形成的。ChatGPT 的搜索之所以没有 Bard 效果好，是因为如果 ChatGPT 要接入 Google 搜索，就要给 Google 交纳高昂的搜索 API 费用。同样，马斯克也会给 X（Twitter）的 API 定一个天价，以保障 Bard 和 ChatGPT 在这一领域始终不能与 Grok 竞争。

如果对应到国内互联网，战争会进一步升级，这甚至都“不是钱”的事儿。百度永远不会把搜索接口给腾讯混元，腾讯也不会让文心一言读取微信公众号文章。

这在很大程度上反映了过去 20 年互联网发展的结果：一个寡头垄断，并彼此互不承认的赛博世界。

在移动互联网时代，用户已经习惯了这些商业公司在产品层面上无视对方的做法。二维码不能发，链接不能直接点击要复制，甚至链接都不能发，要复制一些什么“口令”，在评论区对暗号发私信。

垄断巨头之间的马奇诺防线，长期以来除了给用户带来麻烦之外，实际上在商业上只起到了一个“防突袭”的作用。避免了此前商业竞争实践中的一些，被对方从自己的 App 里一键拉客，导致用户一日哗变的现象。

我不可能因为在微信里打不开抖音链接，就不看抖音。我也不可能因为在小红书里不让发淘宝二维码，我就不在淘宝买东西。

但是，这却给巨头们自己的 AI 带上了重重的枷锁。

因为当我们讨论这一轮 AI 的时候，用户对它的想象就是 AGI，是通用人工智能，是一个至少在赛博空间里可以像人一样行动的代理——如果我可以看这篇微信文章，我的 AI 就应该可以看，否则这个 AI 对我就没用。

这意味着，如果巨头们之间不能打破商业壁垒让自己的 AI 在对方的地盘上行事，那么所有它们的在线模型无论是 GPT 还是 Gemini 还是文心一言，都会败给开源的本地部署模型，或者是第三方提供的模型。

我来举一个具体的场景来说明这一点：旅行计划。

经常出差或旅游的朋友们都知道，出行前安排行程其实是心理门槛最高的一个动作。当 AI 爆发的时候，可能不止用户，很多创业者也想过，AI 是否可以一键帮我们定制行程，甚至通过 API 的方式来帮我们直接预订机票、酒店和景区门票。

但现实是，这样的 AI 最有可能是携程或飞猪做出来。原因正如上面我列举的现有的那一堆巨头 AI 的优势那样。因为只有携程和飞猪，拥有实时更新的机票和酒店数据库，并且能够直接在系统内完成“下单”这样的操作。

从自身业务的角度考虑，飞猪和携程是绝对不会把这些数据做成 API 提供给独立的创业者的。

但如果飞猪和携程推出了一个这样的问答式生成行程与订单的旅行 AI，我会用吗？

答案是不会。

因为规划行程还有一个前置步骤，就是我要去小红书搜索目标地点到底有啥好玩的。在确定了究竟要玩什么之后，我还要在飞猪和携程之间来回切换以确保价格最低。有时，我还要用百度地图来确认在一个目的地城市内，几个景点之间的距离和移动方式来确定景点的取舍与顺序。

所以可想而知，飞猪和携程各自推出的 AI，根本不可能完成消费者对旅游攻略的个性化闭环。

它最多能做到的，是帮助用户在搜索界面更直观地进行搜索。

而对于经常旅游和出差的朋友来说，这可能还不如自己直接在结构化搜索中勾选限制条件。更不用说，我还想在携程和飞猪之间比价，这更是单一平台 AI 所不可能做到的。

在旅游这个场景下，我需要的通用 AI 是什么：

1. 我问 AI 春节去哪玩人少。

2. AI 去抖音和小红书上分别搜索“春节小众旅游城市”，汇总结果，生成一个备选列表给我第一次回答。

3. 我说我可能对义乌、鞍山和淮南感兴趣，给我介绍一下这三个城市有啥可玩的。

4. AI 分别再去小红书上搜这三座城市，并给我三个稍微详细一点的介绍。

5. 我决定去义乌，AI 去携程查机票价格、时间，并按照之前得到的义乌的景点介绍，去大众点评获得景点的营业时间，然后在百度地图里获得景点间的移动时间，安排日内行程。

6. 我再进行几轮对话，对行程和景点进行微调（比如我不想早起）。

7. AI 生成最终行程。

8. 我确认。

9. 它开始下单。

这样梳理下来你就会发现，没有任何一家处于寡头垄断地位的互联网巨头能够推出这样的 AI。因为如果携程出，那么飞猪就会屏蔽它。如果飞猪出，携程也会屏蔽它。小红书出，则大众点评就会屏蔽它。

那么，唯一的可能是什么呢？

就是这个 AI Agent 是本地部署的或者它不属于任何巨头，它在用户的电脑或手机上，模拟用户的点击，模拟用户的滑动，模拟用户的视觉，完全凌驾于所有的 App 或网站之上，无视任何商业竞争导致的屏蔽。

它甚至应该能做到，在微信里读到了一个抖音链接，它会自动选择复制，打开抖音，而不是直接点击链接。真正做到，我能做什么我的 Agent 就能做什么。

这似乎并不是非常困难的事情，因为今年李飞飞曾经做了一个通过 LLM 来操作物理世界中机械臂的原型 VoxPoser。而 LLM 操作虚拟世界要比物理世界简单很多，简单说就是 LLM 指挥按键精灵。

尤其是在 GPT-4 Turbo 推出 Function Call 之后，也许现在就已经可以做出 Demo。但整体的工作量应该还是比较大，会导致每次请求的价格较高。而价格，一直是 Agent 类 AI 最大的障碍。

但如果我们乐观地预计 AI 的降本增效速度能维持 2023 年水平 2~3 年的话，那么成本也就不是问题了。

但在法律和合规层面上，如果这个产品背后接入的是 OpenAI 这样的中央托管式的 MaaS 服务，那么还是有可能会被禁止。因此，最好的结果还是终端芯片的跃升与模型的进一步优化，使得至少 PC 端的本地部署大模型能实现较好的 Agent 效果。

那时，互联网诞生以来的寡头垄断格局可能要天翻地覆了。并且，我暂时看不到巨头反击的方法。

本文来自微信公众号：虹线（ID：gh_900eeca5a2fc），作者：评论尸