CPU是如何被“瓜分”的 - 葱头胖友圈

本文来自微信公众号：远川科技评论（ID：kechuangych），作者：董指导，头图来自：视觉中国

1985年，英特尔双巨头格鲁夫和戈登·摩尔经过一番讨论后，做了一个“放弃祖业”的决定：

作为英特尔发家并成就公司当时地位的存储芯片业务，已经持续被日本企业压得喘不过气，既然无法保持领导地位，那不如放弃存储，开辟一个新天地，进军当时微不足道的微处理器领域。

而英特尔和微处理器的缘分，也恰巧是日本企业促成的。日企Busicom给英特尔下了个订单，这个订单促成了世界第一款商用计算机微处理器、“划时代产品”Intel4004微处理器，在1971年诞生。也正是这个机缘，奠定了英特尔在十四年后毅然决然的大转型。

也正是英特尔这个转型，迎来了公司和CPU产业相得益彰、相互成就的伟业。但格鲁夫和摩尔可能想不到的是，自己作为半导体龙头的地位，在日后竟然会遭到当年跟风小弟“GPU”的挑战。以及远处还站着ASIC、FPGA、RSIC-V，在时不时地“窥探”。

CPU这个顶着“中央处理器”名号的龙头地位、核心市场，是如何被一步步“瓜分”的呢？

前仆后继：让显卡可以计算

英伟达已经成为GPU的代名词，但在皮衣老黄创立公司之前，已经有诸多公司推动了显卡一步步的发展：从图形显示适配器，到图形加速器，继而是英伟达的图形处理器。

如今的GPU，堪称算力天王，但在起初，显卡不能计算，仅仅是CPU的跟班。当时图形计算等工作，都由CPU承担，而显卡仅仅将CPU算好的数据处理为屏幕等显示设备能识别的信号。所以也称为图形显示适配器。

1981年，IBM推出了2D二维图形加速卡，从而实现了从“显示”到“计算”的跨越。

而随着微软视窗操作系统的快速普及，电脑对图形处理的能力要求越来越高。这个趋势吸引了众多公司涌入，1993年黄仁勋也创立了英伟达，此时行业里也有三四十家公司，包括IBM、S3、ATi、Matrox、Trident、3Dfx、IGS等等。

其中，Trident的3D三维图形加速卡，也是鼻祖产品，而且第一次让显卡不再和CPU一起封装，共用存储，而是可以独立存在。相当于有了自己的领地，发展空间更大。

据传闻，黄仁勋创业之前给一个分析师打电话、咨询产业，对方说，可别来了，玩家太多。但挂了电话，老黄就进来了。这个狠劲，当然离不开公司团队的实力确实不弱。

但英伟达创业之初，也是差点被巨头“碾压”。

微软发布的Direct 3D图形标准，直接让英伟达早期的图像加速产品失去了市场。幸好还有日本电子游戏公司SEGA世嘉的订单，公司的研发才没有中断。很快，英伟达的Riva128显卡问世，为公司赢得了一定市场。

但在1995年，3Dfx公司发布的Voodoo以及Glide API接口，才是当时市场的主流，尤其在游戏领域基本是垄断地位。一直到1999年，英伟达放了“大招”：Geforce256。

Geforce256的特色是整合了3D图形处理的光影转换（T&L）功能，从CPU接管了大量相关计算工作。也可以说，这是真正意义上的第一个图形处理器GPU，不再只是加速功能，而是重要的计算单元。

Geforce256性能领先同行2~3倍，它的出现改变了竞争格局。2000年底，劲敌3Dfx就被英伟达收购（这其中一个因素也是3Dfx扩张业务、从设计进军板卡制造领域，从而加大了财务压力），而显卡玩家也仅剩1985年创立的ATi还能抗衡。

英伟达也不断提升GPU的计算能力，2001年具备顶点编程能力，这对于游戏开发人员而言，非常重要。2003年，可编程的GPU正式诞生。

此时的GPU和CPU在计算领域基本“泾渭分明”，CPU重在逻辑运算，GPU则可以并行处理大量单一的计算。业内经常用的比方就是，CPU是大学生计算高等代数，人数少但更高阶；GPU就是大量小学生计算四则运算，题目简单但是人多算得快。

随后的故事，就是英伟达不断提高“小学生”的计算能力：无论是更换更高效的架构、还是增加晶体管数量、改进功耗等方式提高性能，用一代代产品不断冲击对手。

而且还对照着CPU鼻祖摩尔提出的“摩尔定律”，提出了GPU领域要实现的“黄氏定律”：每6个月升级一次、功能翻番。野心、战斗力可见一斑。

2006年，英伟达的老对手ATi也被AMD收购。但是AMD既要CPU领域抗衡英特尔，又要GPU领域抗衡英伟达，着实有些困难，虽然有过产品超越英伟达，但还是被聚焦GPU的老黄牢牢压制。

看着英伟达在GPU领域越来越强，CPU老大英特尔也难免坐不住。2007年，英特尔高管就宣布将发布CPU与GPU融合的Larrabee架构，这将会让显卡在两三年内消失。

老黄就立刻“回怼”：即使英特尔能够在2010年将图形计算能力提高10倍，仍然无法与目前英伟达的产品相匹敌。

结果就在2009年底，英特尔宣布将无限期推迟Larrabee架构发行。这是芯片巨头罕见的产品研发失败。

当然，在英伟达的发展途中，经历过微软砍单反而扶持对手、英特尔停止专利授权等等事件，股价也是一度跌去80%，但这些遭遇之后，正如老黄所说，英伟达依然坚持只做GPU。

极致专注、耐心坚持，成就了行业护城河。当然，能坚持的人很多，就像大A的诸多散户，但未必都能成功。而英伟达的成功，离不开自身奋斗，但也有历史进程的影响。

历史进程：迎来五波浪潮

人获取外界信息的80%来自于视觉，因此，聚焦图形处理，似乎是光伟正的选择。但长期趋势还是要靠一波波具体浪潮来落地。英伟达迎接的历史进程可以说有五波：

第一波是视窗系统的发展，这是发家的开始。从敲代码操作电脑，到用鼠标点击，这是电脑快速普及的重要原因。带动了CPU逻辑运算需求的同时，也提升了GPU的必要性、并带来出货量。

第二波是游戏，这是从始至今的大潮。人们对游戏画面质量的要求不断提升，游戏玩家们对英伟达高价格高质量的显卡，是又爱又恨。游戏业务是英伟达的大头，但游戏毕竟不是时代发展的驱动力，也不能满足老黄对“GPU算力”地位的期待。

2015年的GTC大会上，黄仁勋就踌躇满志地表示，英伟达将不再是一家纯粹的游戏公司。

第三波是笔“横财”，比特币带来的挖矿需求。中本聪凭空创造出了一个可以和“股票、黄金”较量的金融交易品，吸引无数人参与“挖矿”。“挖矿”的原理，就是粗暴的计算，显然GPU比CPU更加适合。

早期“挖矿”基本是一些爱好者用CPU实现，但随着比特币越来越稀缺、价格越来越高，爱好者变成了专业投资者、投机者、团队，GPU也开始大显身手。

挖矿的火爆，一度导致电脑用户买不到显卡，抱怨极多。而挖矿，也不符合老黄对GPU算力的期待，英伟达也表示，用显卡挖矿，对社会实际上没有任何用处。

第四波是人工智能，熬来的风口。人工智能一波波浪潮的发展，自然是英伟达无法控制、只能享受的。但英伟达确实也在用芯片推动人工智能发展。

2007年英伟达推出了CUDA平台，让显卡用于图像计算以外的目的，并降低GPU编程门槛，而且还不计成本投入了6年。

CUDA让GPU从图像计算跨越到了“通用并行计算”，大幅扩产了GPU的适用范围，尤其是可视化计算领域，例如地质勘探、气象数据、流体力学、光线追踪等等。甚至日后AI领域的深度学习，也是基于该平台来不断发展。

2010年，AI先驱吴恩达为了让AI程序识别出一只猫，不得不花费了16000个CPU处理器，而换成GPU后，惊讶地发现只需要12个。2019年的GTC大会上，黄仁勋又一次公开提及了他对算力的信仰：“就算摩尔定律走向终结，GPU也将无所不能。”

这里要着重强调英伟达一次重要布局。2020年，面对英特尔的竞争，英伟达最终仍以近70亿美金，完成了对美国加州Mellanox迈络思公司的收购。

Mellanox成立于1999年，是服务器和存储端到端连接方案的供应商，简单理解，就是让数据中心享受高带宽、低时延的通信效果。在10GB以上高速网络应用中，Mellanox市占率高达70%。

英伟达收购Mellanox后，相当于获得进军数据中心业务，将AI等趋势落地的入口。而且协同效应很强，实现了“计算快”“传输快”的结合。

于是，GPU在数据中心设备采购中，快速发展。全球Top500的超级计算机中，用英伟达服务的就有342台。2021年，数据中心营收同比增长了124%，2022年第一季度超越游戏，成为英伟达新的营收支柱。

2023年ChatGPT又掀起了AI巨浪，大家才发现2016年英伟达把全球第一台AI超级计算机DGX-1送给了OpenAI，这成为一次经典的“人情投资”。而老黄也兴奋地喊道，AI 的「iPhone 时刻」已经到来。

第五波是XR，等待苹果的发力。VR虚拟现实、MR增强现实等等领域，从2013年起，就一直被大家所期待。元宇宙火的时候，老黄也很兴奋。

无奈的是，目前的产品力都不强，即使苹果也还在探索，可以期待下半年的产品发布。而一旦硬件市场打开，各种应用叠加，必然是又一场“视觉需求”大爆炸。

这其中，智能驾驶也算是一次小浪潮，英伟达也收获了不少客户。不过，英伟达在手机芯片方面的尝试，则以失败告终。

在产业趋势之外，其实还有一个隐线大浪潮：芯片制造的专业化。像微软和英特尔合作，击败IBM一样；GPU抢占CPU的过程中，也是强强联合。

英特尔作为IDM公司，既要搞设计、又要搞制造，全靠自己。但英伟达作为设计公司，制造则依靠台积电等专业制造公司，而且台积电也是超级能打。

于是，结果就是2016年英特尔宣布Tick-Tock开发模式受到“阻碍”，研发周期延长。而英伟达和制造公司台积电、光刻机ASML、EDA软件新思科技合作的光刻计算库 cuLitho，可以将计算光刻加速40倍以上，使得 2nm 及更先进芯片的生产成为可能。

既有一波波风口，还有生态伙伴，难怪老黄会兴奋地表示，以后都是GPU天下。

虎视眈眈：只要浪够大，玩家一定会更多

老黄感叹GPU的能力之余，谷歌也放话了：

自研的TPU和同期的CPU、GPU相比，可以提供15-30倍的性能提升，以及30-80倍的效率提升。这一幕，颇有断水流大师兄的“在座都是垃圾”的场景感。

2006年谷歌就开始考虑为神经网络搭建专门的芯片架构，2016年，谷歌针对Tensorflow平台开发了可编程AI加速器。

谷歌思路目标很明确：场景单一，不考虑复杂用途，就照着一个目标设计。但TPU的可编程性又可以加速许多不同类型的神经网络模型，实现了高效和场景下通用的结合。

TPU的打法，就是GPU对CPU的路数。果真是江湖竞争不止，套路不再多，好用就行。

TPU代表的就是另一个对CPU虎视眈眈的路线：专用集成电路ASIC，计算能力和计算效率都可以根据特定需要进行定制，实现固定算法最优化设计。

和其他路线相比，ASIC可以实现面积减小，功耗也进一步降低。但缺点是对算法依赖，它面向的场景特点是：固定、大量且重复。一旦下游场景变化，那么前期的投入也都会打水漂。可以说对眼光十分考验，因此设计周期也很长。

ASIC的玩家也不少，谷歌的TPU张量处理器，地平线的BPU大脑处理器，IBM推出了TrueNorth芯片、英特尔也有Xeon系列芯片。但考虑到场景聚焦，又依赖算法，这些芯片要走向市场、实现普及，也许并不容易。因为你的客户，也许就是你的对手。

另一条路线是FGPA现场可编程门阵列。和ASIC相比，配置FGPA的可编程架构来实现任意需要的数字功能组合。就像赛灵思Xilinx 是Kintex 7 Ultrascle芯片，也可以用于深度学习。FGPA的优势是灵活，劣势是必然有功能冗余、成本增加。

第三条路线是开源的RSIC-V路线。目前RISC技术的奠基人是2018年拿到图灵奖的Patterson教授。据说2010年他带着4个学生就搞出来了第一代版本。果真是人才，不在于人数而在于才华。

更犀利的是，Patterson完美地演绎了极客主义。不同于英特尔的封闭、ARM的高授权费用，Patterson把RISC技术进行了大尺度的开源，任何人都可以使用、修改，而不需要费用。

V代表的是第五代版本。RISC-V基金会会员已有高通、NVIDIA和Google等超过3000名成员。很多人认为，RISC-V有望创造继x86、ARM之后的第三波芯片浪潮。美国、欧洲、印度，都在加大相关研发力度。

RISC-V的灵活性，对定制化、碎片化场景的支撑力度良好；因此目前主要应用于物联网等终端领域，但在电脑、服务器等领域也已经有了一些尝试。要抗衡GPU路途还很远很远，但至少，从底层逻辑而言，这是一个可以实现“众人拾柴火焰高”的路径。

虽然目前来看，三条路线中也就TPU代表的ASIC还算能打一些。不过另一个趋势就是，如果AI浪潮巨大无比，AI芯片又如此重要，那么就像苹果会自研M1一样，微软等巨头也会有自研AI芯片。但不管怎么说，CPU的天下，是继续被瓜分了。

回溯CPU被瓜分的路径来看，三个规律隐含其中：

一是，只要不出现人为的拦阻，分工依然是高效的。

二是，随着数据越来越大，逻辑让位于“相关性”。就像大模型涌现能力一样，大力出奇迹，怎么出来的，人们也不知道。

三是，只坚持并没用，但不坚持肯定不行。在一个领域先做到极致，有立足之本了再不断拓展，而不是一开始就要吃个胖子。这一条对于我国芯片产业也许也是如此。

CPU被瓜分的故事，很精彩。但可惜，我们基本只是看客。幸运的是，如今，我们的“中国版英伟达”“中国版英特尔”，已经有了雏形。需要坚持的是，摒弃炒作思维、继续夯实研发。就像老黄说的，时刻记住“记住，英伟达离倒闭只有30天”。而英特尔的表现，也和其紧迫感丢失有关。

时刻保持紧迫感，才不会有被卡脖子的危险感。

本文来自微信公众号：远川科技评论（ID：kechuangych），作者：董指导