“Oryon CPU 的开发进度甚至超过了我们自己的预期。”

 

北京时间 10 月 25 日凌晨,高通骁龙技术峰会正式召开。不同于以往手机厂商们排队抢首发的循规蹈矩,这次业界把焦点放在了高通专为 AI 打造的 PC 处理器骁龙 X Elite 上,一枚基于高通自研内核“Oryon”的 CPU。

 

在介绍这枚芯片时,高通 CEO 克里斯蒂亚诺·安蒙(Cristiano Amon)的喜悦之情也是溢于言表,苹果的 M2 Max 和英特尔的 i9-13980HX 成为活动现场的“对照组”,从单线程性能到峰值性能功耗,再到 GPU 算力和 AI 处理速度,安蒙试图用数据证明骁龙 X Elite 是一款全方位领先的产品。

 

在移动旗舰芯片方面,虽然全新骁龙 8Gen 3 被 X Elite 抢了风头,但凭借“首款专为生成式 AI 打造的移动平台”这一名头,依旧在发布会上博得满堂彩。

 

通过一场发布会,高通摇身一变成为“终端 AI”的代表,成功让人们忽视了英特尔才是最早主张 AI 端侧计算的企业。

 

而就在高通技术峰会召开前的一天,10 月 24 日,路透社报道称,英伟达和 AMD 正在开发能够用于 Windows 系统的 PC 处理器。虽然还不清楚上述产品的研发进展,但可以确定的是,两家公司的 PC 处理器同骁龙 X Elite 一样采用 ARM 架构。

 

英特尔曾凭借 x86 架构垄断 PC 处理器市场三十余年,但眼下英特尔的行业霸主地位,似乎在一夜之间迎来变数。

 

高通的蜕变,有多彻底?

 

在发布会开始,安蒙介绍了在端侧完成 AI 计算的必要性,基本还是那些老生常谈的观点:低成本、低时延、安全性高。但令人惊喜的是,高通地把移动端平台的生成式 AI 能力抬上了一个新的高度。

 

相较上代产品,骁龙 8Gen 3 的 CPU 性能提升了 30%,GPU 性能提升了 25%,NPU 性能提升 25%,目前骁龙 8Gen 3 已支持运行 100 亿参数的生成式 AI 模型。如果使用搭载 8Gen 3 平台的智能手机运行 Stable Diffusion,只需不到 1 秒就可以用文本生成图像。


图片来源:高通

 

如果只对比参数,100 亿模型参数要较 GPT 4 和 Llama2 等云端模型少了几个数量级,但对于手机厂商而言,这样的硬件能力在现阶段已基本够用。

 

以小米为例,该公司在今年 4 月完成了大模型团队的搭建,8 月成功在端侧跑通 13 亿参数大模型,但目前还未正式进入公测阶段。以此推断,在下一代骁龙移动旗舰平台发布之前,骁龙 8Gen 3 足以应对手机端的训练需要。

 

另外,在发布会现场,高通还拉出一票软件公司站台,并表示骁龙平台现已支持微软、Meta、OpenAI、安卓、百度等公司的端侧大模型。根据此前高通与 Meta 的合作计划,最早在明年应该就能看到 Llama 2 模型在骁龙平台上运行。

 

相较于多模态生成式 AI 能力,骁龙 8Gen 3 在其他方面则稍显平庸,只能算是中规中矩的常规升级,但眼下行业内似乎也并不关心骁龙新的移动平台,在游戏、影像等场景下有多少提升,全场的关注点都集中在骁龙 X Elite 上。


图片来源:高通

 

高通方面表示,这个专为 AI 打造的骁龙 X Elite 其 AI 处理能力是竞品的 4.5 倍,异构 AI 引擎性能可达 75TOPS,支持在端侧运行超过 130 亿个参数的生成式 AI 模型,当使用基于 70 亿参数的端侧聊天助手时,每秒可处理 30 个 Token。

 

虽然发布会现场高通并没有标注这个“竞品”是哪款 CPU,但还是以数据的形式展示了下 Oryon 内核的“基础能力”:单线程性能超过苹果的 M2 Max 和英特尔的 i9-13980HX,峰值功耗比 M2 Max 少 30%,比 i9-13980HX 少 70%。而在多线程方面,高通还对比了英特尔的 i7-1355U,称骁龙 X Elite 的性能可达其两倍,且峰值功耗减少 68%。

 

图片来源:高通


即便这种对比方式稍有“田忌赛马”之嫌,但不得不说,作为 Oryon 内核的首代商用产品,骁龙 X Elite 的表现远超过行业预期。

 

实际上,在 Oryon 项目上,高通某种意义上是沾了苹果的光。

 

2021 年 3 月,高通收购了初创芯片设计公司 Nuvia,这家公司的主营业务就是打造高性能 ARM 架构芯片,其创始人团队包括苹果前 CPU 首席架构师 Gerard Williams 以及曾参与苹果 A7-A14 芯片研发的 John Bruno、Manu Gulati 等人。

 

在完成对 Nuvia 收购后,高通在 Oryon 项目上进展神速,并于去年骁龙技术峰会上宣布推出 Oryon 内核。

 

值得一提的是,在高通 2022 年三季度财报发布后的电话会议上,安蒙曾表示过,“我们预计,2024 年骁龙 Windows PC 将出现拐点。”但在当时,考虑到高通在 PC 市场少得可怜的占有率,这句话并没有引起行业太多的关注。

 

三家分 Intel?

 

骁龙 X Elite 芯片的推出,让高通在 PC 领域的野心暴露无遗。尽管这家公司一度凭借手机芯片成为全球最大的 Fabless 厂商,但在 PC 行业,高通始终默默无名。

 

在 2018 年,高通曾在骁龙 855 芯片的基础上,推出了面向 PC 端的骁龙 8cx 处理器,但性能十分羸弱,甚至不及当时 iPhone 上的 A12 芯片。以至于当时有种观点认为,骁龙 8cx 存在的意义就是为了证明,ARM 架构不适合作为电脑处理器,它注定只能是移动端架构。

 

此后,鲜有芯片厂商再进行 ARM 架构在 PC 上的尝试。直到 2020 年,基于 ARM 架构的苹果 M1 芯片问世,人们才发现 ARM 架构在功耗大幅领先 x86 架构处理器的同时,性能同样可以有不俗的表现。

 

反映在市场表现上,根据 CouterPoint Research 的统计数据,自 2020 年苹果推出 M1 芯片后,截至 2022 年底,全球基于 ARM 架构处理器的笔记本市场份额从 2% 迅速增长至 12% 以上,其中 90% 都是苹果的产品。

 

需要说明的是,除了英特尔和 AMD 外,大部分厂商根本没有 x86 架构授权,此前连进入 PC 市场的资格都没有,而苹果凭借 ARM 架构在 PC 市场上取得的成功,给许多芯片设计厂商打入了一针强心剂。

 

与此同时,在“端侧 AI”概念兴起的当下,厂商们发现 ARM 架构芯片的另外一个优势非常适合端侧大模型的场景——低功耗。

 

相较于云端大模型,端侧大模型最大的意义在于可以在离线状态下使用,而在日常应用场景中,涉及到离线使用的基本都是笔记本电脑、平板电脑等便携式设备,这类产品往往因为续航的需求对 CPU 功耗有着很高的要求。

 

因此,过去被 x86 架构“卡脖子”的芯片厂商们,现在都心照不宣的开始了对 ARM 架构的研发工作,试图在“端侧 AI”时代从英特尔嘴里抢下一块肉。

 

值得一提的是,过去被认为和英特尔组成“Wintel 联盟”的微软,在“Arm on Windows”这件事上表现得甚至比芯片厂商还要积极。10 月 17 日,微软宣布了一项名为“ARM 咨询服务”的计划,以帮助开发者开发基于 ARM 的应用程序。

 

这其实也不难理解,虽然有着联盟之名,但长久以来,微软始终希望能够摆脱单一合作方的束缚。

 

从上述背景来看,眼下开发基于 ARM 架构的 PC 处理器,似乎占尽了天时、地利、人和。

 

不过,现在还远没有到能危及英特尔的时候。一方面,英特尔代表的 x86 PC 处理器市场仍然有着绝对的领先优势。

 

另一方面,英特尔在端侧 AI 上的努力同样不遑多让,在前不久的 Intel On 大会上,英特尔宣布年底推出的代号为“Meteor Lake 的酷睿 Ultra 处理器,将全系集成神经网络处理单元(NPU),而且还准备通过 OpenVINO 套件,帮助开发者进行 AI 训练、测试,及模型优化工作。

 

但无论如何,友商们通过 ARM 架构来描述端侧 AI 的蓝图,对于英特尔来说绝对是个值得警醒的信号。