本文来自微信公众号:远川科技评论 (ID:kechuangych),作者:董指导,头图来自:视觉中国


1985年,英特尔双巨头格鲁夫和戈登·摩尔经过一番讨论后,做了一个“放弃祖业”的决定:


作为英特尔发家并成就公司当时地位的存储芯片业务,已经持续被日本企业压得喘不过气,既然无法保持领导地位,那不如放弃存储,开辟一个新天地,进军当时微不足道的微处理器领域。


而英特尔和微处理器的缘分,也恰巧是日本企业促成的。日企Busicom给英特尔下了个订单,这个订单促成了世界第一款商用计算机微处理器、“划时代产品”Intel4004微处理器,在1971年诞生。也正是这个机缘,奠定了英特尔在十四年后毅然决然的大转型。


也正是英特尔这个转型,迎来了公司和CPU产业相得益彰、相互成就的伟业。但格鲁夫和摩尔可能想不到的是,自己作为半导体龙头的地位,在日后竟然会遭到当年跟风小弟“GPU”的挑战。以及远处还站着ASIC、FPGA、RSIC-V,在时不时地“窥探”。


CPU这个顶着“中央处理器”名号的龙头地位、核心市场,是如何被一步步“瓜分”的呢?


前仆后继:让显卡可以计算


英伟达已经成为GPU的代名词,但在皮衣老黄创立公司之前,已经有诸多公司推动了显卡一步步的发展:从图形显示适配器,到图形加速器,继而是英伟达的图形处理器。


如今的GPU,堪称算力天王,但在起初,显卡不能计算,仅仅是CPU的跟班。当时图形计算等工作,都由CPU承担,而显卡仅仅将CPU算好的数据处理为屏幕等显示设备能识别的信号。所以也称为图形显示适配器。


1981年,IBM推出了2D二维图形加速卡,从而实现了从“显示”到“计算”的跨越。


而随着微软视窗操作系统的快速普及,电脑对图形处理的能力要求越来越高。这个趋势吸引了众多公司涌入,1993年黄仁勋也创立了英伟达,此时行业里也有三四十家公司,包括IBM、S3、ATi、Matrox、Trident、3Dfx、IGS等等。


其中,Trident的3D三维图形加速卡,也是鼻祖产品,而且第一次让显卡不再和CPU一起封装,共用存储,而是可以独立存在。相当于有了自己的领地,发展空间更大。


据传闻,黄仁勋创业之前给一个分析师打电话、咨询产业,对方说,可别来了,玩家太多。但挂了电话,老黄就进来了。这个狠劲,当然离不开公司团队的实力确实不弱。


但英伟达创业之初,也是差点被巨头“碾压”。


微软发布的Direct 3D图形标准,直接让英伟达早期的图像加速产品失去了市场。幸好还有日本电子游戏公司SEGA世嘉的订单,公司的研发才没有中断。很快,英伟达的Riva128显卡问世,为公司赢得了一定市场。


但在1995年,3Dfx公司发布的Voodoo以及Glide API接口,才是当时市场的主流,尤其在游戏领域基本是垄断地位。一直到1999年,英伟达放了“大招”:Geforce256


Geforce256的特色是整合了3D图形处理的光影转换(T&L)功能,从CPU接管了大量相关计算工作。也可以说,这是真正意义上的第一个图形处理器GPU,不再只是加速功能,而是重要的计算单元。


Geforce256性能领先同行2~3倍,它的出现改变了竞争格局。2000年底,劲敌3Dfx就被英伟达收购(这其中一个因素也是3Dfx扩张业务、从设计进军板卡制造领域,从而加大了财务压力),而显卡玩家也仅剩1985年创立的ATi还能抗衡。


英伟达也不断提升GPU的计算能力,2001年具备顶点编程能力,这对于游戏开发人员而言,非常重要。2003年,可编程的GPU正式诞生。


此时的GPU和CPU在计算领域基本“泾渭分明”,CPU重在逻辑运算,GPU则可以并行处理大量单一的计算。业内经常用的比方就是,CPU是大学生计算高等代数,人数少但更高阶;GPU就是大量小学生计算四则运算,题目简单但是人多算得快。


随后的故事,就是英伟达不断提高“小学生”的计算能力:无论是更换更高效的架构、还是增加晶体管数量、改进功耗等方式提高性能,用一代代产品不断冲击对手。


而且还对照着CPU鼻祖摩尔提出的“摩尔定律”,提出了GPU领域要实现的“黄氏定律”:每6个月升级一次、功能翻番。野心、战斗力可见一斑。


2006年,英伟达的老对手ATi也被AMD收购。但是AMD既要CPU领域抗衡英特尔,又要GPU领域抗衡英伟达,着实有些困难,虽然有过产品超越英伟达,但还是被聚焦GPU的老黄牢牢压制。


看着英伟达在GPU领域越来越强,CPU老大英特尔也难免坐不住。2007年,英特尔高管就宣布将发布CPU与GPU融合的Larrabee架构,这将会让显卡在两三年内消失。


老黄就立刻“回怼”:即使英特尔能够在2010年将图形计算能力提高10倍,仍然无法与目前英伟达的产品相匹敌。


结果就在2009年底,英特尔宣布将无限期推迟Larrabee架构发行。这是芯片巨头罕见的产品研发失败。


当然,在英伟达的发展途中,经历过微软砍单反而扶持对手、英特尔停止专利授权等等事件,股价也是一度跌去80%,但这些遭遇之后,正如老黄所说,英伟达依然坚持只做GPU。


极致专注、耐心坚持,成就了行业护城河。当然,能坚持的人很多,就像大A的诸多散户,但未必都能成功。而英伟达的成功,离不开自身奋斗,但也有历史进程的影响。


历史进程:迎来五波浪潮


人获取外界信息的80%来自于视觉,因此,聚焦图形处理,似乎是光伟正的选择。但长期趋势还是要靠一波波具体浪潮来落地。英伟达迎接的历史进程可以说有五波:


第一波是视窗系统的发展,这是发家的开始。从敲代码操作电脑,到用鼠标点击,这是电脑快速普及的重要原因。带动了CPU逻辑运算需求的同时,也提升了GPU的必要性、并带来出货量。


第二波是游戏,这是从始至今的大潮。人们对游戏画面质量的要求不断提升,游戏玩家们对英伟达高价格高质量的显卡,是又爱又恨。游戏业务是英伟达的大头,但游戏毕竟不是时代发展的驱动力,也不能满足老黄对“GPU算力”地位的期待。


2015年的GTC大会上,黄仁勋就踌躇满志地表示,英伟达将不再是一家纯粹的游戏公司。


第三波是笔“横财”,比特币带来的挖矿需求。中本聪凭空创造出了一个可以和“股票、黄金”较量的金融交易品,吸引无数人参与“挖矿”。“挖矿”的原理,就是粗暴的计算,显然GPU比CPU更加适合。


早期“挖矿”基本是一些爱好者用CPU实现,但随着比特币越来越稀缺、价格越来越高,爱好者变成了专业投资者、投机者、团队,GPU也开始大显身手。


挖矿的火爆,一度导致电脑用户买不到显卡,抱怨极多。而挖矿,也不符合老黄对GPU算力的期待,英伟达也表示,用显卡挖矿,对社会实际上没有任何用处。


第四波是人工智能,熬来的风口。人工智能一波波浪潮的发展,自然是英伟达无法控制、只能享受的。但英伟达确实也在用芯片推动人工智能发展。


2007年英伟达推出了CUDA平台,让显卡用于图像计算以外的目的,并降低GPU编程门槛,而且还不计成本投入了6年。


CUDA让GPU从图像计算跨越到了“通用并行计算”,大幅扩产了GPU的适用范围,尤其是可视化计算领域,例如地质勘探、气象数据、流体力学、光线追踪等等。甚至日后AI领域的深度学习,也是基于该平台来不断发展。


2010年,AI先驱吴恩达为了让AI程序识别出一只猫,不得不花费了16000个CPU处理器,而换成GPU后,惊讶地发现只需要12个。2019年的GTC大会上,黄仁勋又一次公开提及了他对算力的信仰:“就算摩尔定律走向终结,GPU也将无所不能。”


这里要着重强调英伟达一次重要布局。2020年,面对英特尔的竞争,英伟达最终仍以近70亿美金,完成了对美国加州Mellanox迈络思公司的收购。


Mellanox成立于1999年,是服务器和存储端到端连接方案的供应商,简单理解,就是让数据中心享受高带宽、低时延的通信效果。在10GB以上高速网络应用中,Mellanox市占率高达70%。


英伟达收购Mellanox后,相当于获得进军数据中心业务,将AI等趋势落地的入口。而且协同效应很强,实现了“计算快”“传输快”的结合。


于是,GPU在数据中心设备采购中,快速发展。全球Top500的超级计算机中,用英伟达服务的就有342台。2021年,数据中心营收同比增长了124%,2022年第一季度超越游戏,成为英伟达新的营收支柱。


2023年ChatGPT又掀起了AI巨浪,大家才发现2016年英伟达把全球第一台AI超级计算机DGX-1送给了OpenAI,这成为一次经典的“人情投资”。而老黄也兴奋地喊道,AI 的「iPhone 时刻」已经到来。


第五波是XR,等待苹果的发力。VR虚拟现实、MR增强现实等等领域,从2013年起,就一直被大家所期待。元宇宙火的时候,老黄也很兴奋。


无奈的是,目前的产品力都不强,即使苹果也还在探索,可以期待下半年的产品发布。而一旦硬件市场打开,各种应用叠加,必然是又一场“视觉需求”大爆炸。


这其中,智能驾驶也算是一次小浪潮,英伟达也收获了不少客户。不过,英伟达在手机芯片方面的尝试,则以失败告终。


在产业趋势之外,其实还有一个隐线大浪潮:芯片制造的专业化。像微软和英特尔合作,击败IBM一样;GPU抢占CPU的过程中,也是强强联合。


英特尔作为IDM公司,既要搞设计、又要搞制造,全靠自己。但英伟达作为设计公司,制造则依靠台积电等专业制造公司,而且台积电也是超级能打。


于是,结果就是2016年英特尔宣布Tick-Tock开发模式受到“阻碍”,研发周期延长。而英伟达和制造公司台积电、光刻机ASML、EDA软件新思科技合作的光刻计算库 cuLitho,可以将计算光刻加速40倍以上,使得 2nm 及更先进芯片的生产成为可能。


既有一波波风口,还有生态伙伴,难怪老黄会兴奋地表示,以后都是GPU天下。


虎视眈眈:只要浪够大,玩家一定会更多


老黄感叹GPU的能力之余,谷歌也放话了:


自研的TPU和同期的CPU、GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率提升。这一幕,颇有断水流大师兄的“在座都是垃圾”的场景感。


2006年谷歌就开始考虑为神经网络搭建专门的芯片架构,2016年,谷歌针对Tensorflow平台开发了可编程AI加速器。


谷歌思路目标很明确:场景单一,不考虑复杂用途,就照着一个目标设计。但TPU的可编程性又可以加速许多不同类型的神经网络模型,实现了高效和场景下通用的结合。


TPU的打法,就是GPU对CPU的路数。果真是江湖竞争不止,套路不再多,好用就行。


TPU代表的就是另一个对CPU虎视眈眈的路线:专用集成电路ASIC,计算能力和计算效率都可以根据特定需要进行定制,实现固定算法最优化设计。


和其他路线相比,ASIC可以实现面积减小,功耗也进一步降低。但缺点是对算法依赖,它面向的场景特点是:固定、大量且重复。一旦下游场景变化,那么前期的投入也都会打水漂。可以说对眼光十分考验,因此设计周期也很长。


ASIC的玩家也不少,谷歌的TPU张量处理器,地平线的BPU大脑处理器,IBM推出了TrueNorth芯片、英特尔也有Xeon系列芯片。但考虑到场景聚焦,又依赖算法,这些芯片要走向市场、实现普及,也许并不容易。因为你的客户,也许就是你的对手。


另一条路线是FGPA现场可编程门阵列。和ASIC相比,配置FGPA的可编程架构来实现任意需要的数字功能组合。就像赛灵思Xilinx 是Kintex 7 Ultrascle芯片,也可以用于深度学习。FGPA的优势是灵活,劣势是必然有功能冗余、成本增加。


第三条路线是开源的RSIC-V路线。目前RISC技术的奠基人是2018年拿到图灵奖的Patterson教授。据说2010年他带着4个学生就搞出来了第一代版本。果真是人才,不在于人数而在于才华。


更犀利的是,Patterson完美地演绎了极客主义。不同于英特尔的封闭、ARM的高授权费用,Patterson把RISC技术进行了大尺度的开源,任何人都可以使用、修改,而不需要费用。


V代表的是第五代版本。RISC-V基金会会员已有高通、NVIDIA和Google等超过3000名成员。很多人认为,RISC-V有望创造继x86、ARM之后的第三波芯片浪潮。美国、欧洲、印度,都在加大相关研发力度。


RISC-V的灵活性,对定制化、碎片化场景的支撑力度良好;因此目前主要应用于物联网等终端领域,但在电脑、服务器等领域也已经有了一些尝试。要抗衡GPU路途还很远很远,但至少,从底层逻辑而言,这是一个可以实现“众人拾柴火焰高”的路径。


虽然目前来看,三条路线中也就TPU代表的ASIC还算能打一些。不过另一个趋势就是,如果AI浪潮巨大无比,AI芯片又如此重要,那么就像苹果会自研M1一样,微软等巨头也会有自研AI芯片。但不管怎么说,CPU的天下,是继续被瓜分了。


回溯CPU被瓜分的路径来看,三个规律隐含其中:


一是,只要不出现人为的拦阻,分工依然是高效的。


二是,随着数据越来越大,逻辑让位于“相关性”。就像大模型涌现能力一样,大力出奇迹,怎么出来的,人们也不知道。


三是,只坚持并没用,但不坚持肯定不行。在一个领域先做到极致,有立足之本了再不断拓展,而不是一开始就要吃个胖子。这一条对于我国芯片产业也许也是如此。


CPU被瓜分的故事,很精彩。但可惜,我们基本只是看客。幸运的是,如今,我们的“中国版英伟达”“中国版英特尔”,已经有了雏形。需要坚持的是,摒弃炒作思维、继续夯实研发。就像老黄说的,时刻记住“记住,英伟达离倒闭只有30天”。而英特尔的表现,也和其紧迫感丢失有关。


时刻保持紧迫感,才不会有被卡脖子的危险感。


本文来自微信公众号:远川科技评论 (ID:kechuangych),作者:董指导