AI大模型亢奋一年多，该上终端设备了？ - 葱头胖友圈

生成式人工智能（AI）大模型亢奋了一年多，激发了用户对全新的人机交互方式的期待，逐步来到了在终端设备上兑现的日子，个人电脑（PC）将很快成为第一站。

正如当年个人计算所走过的道路，AI计算成为真正的通用技术，正在向小型化与个人化发展，将在个人终端设备规模化部署。全世界从PC、手机，到汽车、头显，可穿戴和AI原生的硬件，都将成为个人AI设备。

与人们担心的少数巨头垄断了AI相反，AI PC将真正实现AI普惠，成为每个人的AI。它也能够帮助解决大模型在走向大规模推理应用时所面对的一系列挑战，如AI PC能满足实时、准确、性价比的推理，隐私保护与数据安全，将自然交互与经典交互融合，这些所形成的个人AI体验基础之上，AI PC会朝着个性化的专属智能体演变。

在这一变革中，AI PC的首个交付者，将是能构建出完整个人AI用户体验的厂商，尤其是那些立足自身供应链优势与雄厚用户基础的整机厂商，它们将在产品创新与行业重构的机会里，提升自己的价值链地位。

大模型应用寻求终端

2024年，大模型需要应用，需要规模化，需要与场景和行业结合起来，开源是最重要的路径之一；就连那些SOTA闭源大模型，也开始推出小参数量的模型。它们都盯着终端设备。

OpenAI已经连续两年惊艳了消费者，但谷歌、Meta与亚马逊等科技巨头已经缓过气来，在狂追云端大模型性能的同时，向终端设备开辟了新的战场；微软一手云端闭源大模型OpenAI，一手端侧开源“小模型”Mistral，还自研了更小巧的模型Phi，把持着通往终端设备的大门。这将是贯穿今年全年的战事。

越来越多的生成式AI初创企业，在烧了一年多的融资之后，正迫切寻求更为可持续的商业模式。它们或者自研大模型，希望规模化推理应用场景，能够摊薄前期高昂的预训练成本；或者接入了大模型API，处于亏本赚吆喝的阶段，算力采购成本更甚于互联网时代抢购流量。

它们今年动作频频，集体指向一个共同的问题：让推理变得更便宜、更快速、更安全。

下一代大模型继续沿着扩展法则（Scaling Law）的轨迹，从文本与图像转向视频。随之而来的多模态推理的算力需求，将会指数级增长，用户对算力价格也会更加敏感。同为OpenAI的产品，生成一段Sora视频，远比生成一副Dall-E图片要贵得多，也耗时更长。大模型服务的延时，也影响了用户体验。

解决问题的一个方法是降低云端推理的成本。Anthropic的定价策略，就是针对OpenAI，文字生成服务的价格，已经低于相似性能的竞争对手。市场上也出现了号称能提供每秒数百token的推理引擎，但是它们的总拥有成本依然昂贵。

从芯片到模型厂商，都不约而同地看到了推理应尽可能在本地完成。尽管现阶段在本地搭载最新的NPU，将小幅推高终端设备的平均价格，但在完整生命周期内，它的算力成本仍要低于云。用户将因此获得最优性价比的AI算力，模型厂商与应用厂商也能因此基于混合AI算力，建立更亲民的token经济（tokenomics）。

大模型技术的规模化，伴随着产品的小型化。压缩和微调技术日益完善，小参数量的大模型涌现。今年以来推出的大模型，往往会在最强大的闭源大模型外，“搭售”一个更小规模参数模型，部分选择了开源。谷歌用它的Gemma 2B与7B，挑战当下热门的Llama 2与Mistral 7B开源生态。它们可以经量化调整部署在终端上，成为最流行的小模型。

端侧部署已是开源大模型的主战场。中国也不例外。阿里巴巴在春节前，开源了六个不同规模的Qwen 1.5（通义千问1.5版），覆盖数亿、数十亿与上百亿参数；初创团队的GLM、RWKV等模型，在基准测试中足以匹敌十倍规模于它们的大模型。

规模化与小型化的终点是个人化。增强检索（RAG）与智能体（Agent）技术，正让大模型在与人类的共同学习与工作中，获取本地知识，感知用户意图，并不断进化。英伟达推出了面向消费者市场的Chat with RTX，可以被部署在PC上，用本地储存的个人专属数据和知识进行推理，并且回答问题。把数据留在本地，同时还缓解了用户对隐私与数据安全的担忧。

本地推理也是解决响应延时的重要方式。这是云端大模型今年的攻坚方向。初创芯片及模型企业Groq能以每秒280个token的速度给出完整答案，自认性价比最高；Anthropic的Claude 3系列中参数规模最小的Haiku，专门针对“延迟敏感和成本敏感型”客户。不少亲测了英伟达Chat with RTX的用户称，本地推理速度要高于相应的云端大模型。

数据在哪里，AI就应该在哪里。AI可以栖身的终端设备，既包括人形机器人，可以解放体力工作者，也包括个人终端设备，可以协助知识工作者。年初至今，两者正在加速成为现实。现存的70亿台个人计算设备，包括电脑、平板与手机，无疑是最重要市场。苹果看到了这一点，放弃了投入十年的造车计划，回归它最熟悉的领域：个人计算（Personal Computing）。

PC是第一AI终端

生成式AI也是一种计算，根据上一个token，算出概率最高的下一个token，连续不断，就能一致性地生成用户想要的内容。AI的产品化，正在重走PC的演化之路。计算机从大型与集中的系统，走向分散化和小型化，直至个人化，掀起了个人电脑革命。如今，AI让PC再一次面临这样的机会，再一次成为新型计算的“第一终端”。

它就是AI PC，自然语言交互、内置大模型和智能体、具备混合算力、保护用户隐私、形成用户与开发者生态。个人化的计算机与个人化的大模型，结合构成了个人AI伴侣（Personal AI Twin）。

所有这些，焕发了用户对于个人AI体验的期待，这种用户体验的入口就是基于大模型的AIOS。它改变了用户与硬件、软件的交互方式，未来还将改变硬件与硬件、软件与软件之间的交互方式。

个人AI的启动阶段，只能是AI PC。要完整交付个人AI的全部体验，就要求它搭载不小于40 TOPS整体AI算力的芯片，用以驱动不小于70亿参数规模的大模型，同时标配智能体和能被智能体调用的应用生态，以及硬件级的隐私保护。PC正好提供了所需的算力平台及综合性能。

芯片厂商率先实现了AI PC硬件指标的最低门槛。

今年年初，通过CPU+GPU+NPU的异构算力组合，英特尔与AMD等传统X86阵营，已经将端侧AI算力整体提升至近40 TOPS；即将上市的高通X Elite，拥有ARM架构低功耗的优势，仅NPU就提供了45 TOPS的AI算力，端侧生成式AI处理能力每秒30 tokens，让本地处理130亿参数的大模型成为可能。英伟达的RTX 40系列GPU，仍是最强大的消费级计算单元，全功率下AI算力高达数百TOPS。

具备通用技术潜力的大模型，在知识和创意工作领域，目前还离不开PC。传统上，知识的供给侧革命，就是借助PC这一工具来实现的。这里是数据产生的地方，同时也为处理数据的场所，需要更精密更自然的交互方式。大模型卷起的白领工业革命，会让AI PC在工作场所与人类协作，承担越来越多的任务；逐步深入到工作流程中，不断提升工作效率，机器人与组织人的合作日益密切。

整机厂商交付完整体验的AI PC

AI PC已经呼之欲出。市场周期的力量正在回摆。上一次购机高峰，已是疫情期间的混合办公，经过了4年之后，升级换代需求来临；微软也打算让Windows 10退役。按这个时间倒推，市场变革已经积蓄了跨越鸿沟、实现变革的周期势能。

在对周期的追逐与用户高涨的期待里，1月的CES与2月的MWC，AI PC已被数次“发布”，但均未内嵌本地大模型，被视为预演。而恰恰端侧大模型，才是英特尔CEO格鲁夫总结的产品组件中出现的“十倍速”因素，它将重新定义产品，引发行业重构。

AI PC是一次产品的革命，初期围绕AI体验出现大量的新技术，如NPU和异构的算力，品类众多的模型，分散的训练和部署平台，不完善的工具链，以及正在成熟中的智能体和增强检索等技术，仍处于发散式创新的阶段。例如异构算力组合，英特尔正在推广OpenVINO，AMD的是ROCm，英伟达建立了CUDA生态。芯片架构、AI框架与API接口，标准各异，稳定性不足，无形之中抬升了开发与部署的门槛。

这个时候，就像克里斯坦森所说的，行业需要站出来垂直整合者，向市场做出创新者的解答，“改刀”“缝合”这些核心技术组件与模块，将其收敛为可以最终交付的完整的产品。这也是为什么在大型计算机与微型计算机时代早期，出现了IBM与苹果这样成功的一体化开发的企业。

芯片厂商、系统厂商、模型厂商与超级应用厂商，都看好AI PC的市场前景。英伟达的Chat with RTX就可以部署包括Llama、Mistral、Gemma在内的大模型；高通的AI Hub打包提供了近80个模型。苹果研发的M系列芯片，就是最早部署于笔记本的NPU。苹果计划在今年推出iOS 18，微软则是Windows 12，都将是深入融合AI的新版操作系统。

但整机厂商将在AI PC上构建出两个“杀手”级应用，一个是基于大模型和智能体技术的AIOS，另一个是基于混合算力的推理引擎。

整机厂商可以开发专门针对硬件优化的AI软件，以提高最终用户的体验，使AI PC更易于使用和更具趣味性；整机厂商还可以预装便于开发者和用户使用的大模型训练部署平台和工具链，并且设定智能体与其他应用之间的接口与标准。

整机厂商可以成为AI PC生态的整合者。商业软件将会集成中小型大语言模型，包括文字、数据、编程、图像甚至视频等功能，尤其是结合本地数据与知识库的应用，将会出现在桌面上和AI应用商店中，并且被AIOS的智能体所调用，形成新的商业模式。

AI PC在推向市场阶段，用户反馈是塑造和实现用户体验的关键。新的人机交互融入了机器学习的因素，进入了人机演化的阶段，人类用户“反馈”的作用将被放大。整机厂商拥有广泛的客户网络与丰富的应用场景，时刻验证技术路径、功能需求、交互体验，根据用户反馈调优产品，处于有利位置。用户群体越庞大，细分场景越齐备，就越有机会在产品创新与行业复苏中发挥主导作用。