英伟达无疑是一家伟大的企业,几十年来一直以终为始、积极筹划,在 AI 技术革命当中发挥着核心作用。凭借精准的判断和预先布局,英伟达现已成为世界上最有价值的公司之一。但 HackNews 上一篇热帖认为,英伟达的 AI 霸主地位还只是暂时的,还远称不上稳固。


英伟达在AI领域的霸主地位只是短暂的?


这篇博文的作者 Pete Warden 阐述了英伟达目前所占据的优势:


  • 大型机器学习应用的普及度仍然不高。除了少数大型科技企业之外,很少有公司能在实际生产中运行大规模 AI 模型。他们的重点仍停留在学习新功能、试用新功能层面,所以主要成本集中在数据收集、硬件训练和模型开发等阶段。也就是说,机器学习技术的重点仍集中在训练、而非推理端;


  • 所有英伟达替代方案都很差劲。如果大家身为机器学习模型的构建或使用者,肯定会感觉到英伟达 GPU 用起来要比 AMD OpenCL、谷歌 TPU 或者 Cerebras 系统等各类替代性硬件更轻松、也更省时。英伟达的软件栈更加成熟,提供丰富的示例、文档和其他资源,在劳动力市场上更容易找到经验丰富的英伟达开发工程师,而且跟各类主流框架的集成度也更高;


  • 研究人员决定购买力。目前,人才市场上的机器学习研究人才相当稀缺,正处于人挑岗位、而非岗位挑人的阶段。所以企业才特别需要“哄人才开心”,而研究人员的一项基本要求就是使用英伟达平台了,所以出于吸引和留存优秀人才的考虑,企业在购买硬件时也会充分尊重他们的技能和使用偏好;


  • 训练周期原则。根据经验,从头开始训练模型大概需要一周时间。这一点从 AlexNet 诞生之初就基本得到了证实,这是因为一旦迭代周期变得更长,研究人员将很难开展实证测试和原型设计,而这些都是保证模型成果能达成准确性目标的关键前提。而随着硬件性能越来越强,人们开始构建起规模更大的模型,直到整个训练周期再次拉长到一周左右。这就让人们有了不断购买新款英伟达 GPU 的动力,因为新的同平台产品能以更快的速度直接兼容大部分现有代码。虽然竞争对手理论上有机会以性能取胜,但他们的软件栈却很难在短时间内抗衡投资积累数十年的英伟达 CUDA。


一些事情正悄然发生变化


看了以上内容,大家可能已经理解了英伟达为什么能在生成式 AI 时代叱咤风云。但 Pete Warden 表示,在未来几年中,一些事情正在悄然发生变化。


1. 训练退位,推理将占据主导


几年前,有人曾告诉我“训练成本将随着研究人员的数量而变化,推理成本则随着用户的数量而变化。”我从中得出这样的结论,即在未来的某个时刻 ,任何企业根据用户请求而运行模型所消耗的计算量,将超过其用于训练模型的计算量。哪怕单次训练运行成本要远远高于单次推理成本,面对全球各地的巨量潜在用户及其多种多样的应用需求,推理规模终归要超过训练总量。毕竟,研究人员的数量永远是有限的。


从硬件层面来看,这意味着 AI 研究的重点将转向如何降低推理成本。不少机器学习研究人员一直将推理视为训练的一个子集,但这种判断其实有失偏颇。在推理过程中整合大量输入往往非常困难,因为整个过程实际是在延迟与吞吐量之间寻求最佳平衡,而延迟则直接决定着面向用户类应用的市场命运。小批量/单批次输入会极大改变工作负载形态,因此必须对应不同的优化思路。与此同时,权重等因素在推理过程中却基本保持不变,因此可以配合权重压缩或恒定折叠等预处理技术进行优化。


CPU 在推理方面同样具有竞争力。前文列出的英伟达替代方案中并未涉及 CPU,因为这种历史悠久的计算架构在训练方面仍然慢得可笑。各类主流桌面 CPU(包括 x86、Arm,也许很快还将包括 RISC-V)的优势在于数十年积累而来的工具链投资,他们因此拥有着比英伟达更成熟的开发工具和社区,而且每次算术运算的成本也要比 GPU 低得多。


2. 部署工程师说了算


随着推理成本开始在模型生命周期中占主导地位,人们当然要想办法为其寻求成本优化空间。到这个阶段,研究人员将不再是话语权的主导者,他们的偏好将变得不那么重要,真正的重点在于简化生产和应用。而随着人们对 AI 相关技能的逐渐熟悉,未来几年将有更多模型训练人才进入劳动力市场。种种迹象表明,研究人员在企业中的主导权将有所萎缩,而部署团队的诉求将获得更高的优先级。


3. 应用成本原则


随着推理在整个 AI 预算体系中占据主导,对硬件和工作负载的要求也将随之变化。研究人员更重视快速实验的能力,因为他们需要充分的灵活性来探索各种原型设计方向。但生产应用对于模型的变更则不那么频繁,而且一旦研究人员交付了能满足需求的成果,整个基本架构往往可以稳定运行多年。


所以我们几乎必然会走向这样的新阶段:模型创作者使用专门的工具(例如用于数学算法的 Matlab)搞开发,再将结果交付给部署工程师,由后者手动将结果转换成有助于实际应用的形式。就是说只要能保证模型架构基本不变,那么即使权重不断接受调整,漫长的 AI 应用周期都能显著放大成本节约的实际效果。


英伟达在加速计算芯片市场上的霸主地位到底能持续多久我们无从得知,但回顾万亿市值英伟达的发展史就会发现,英伟达的成功并不只是上述提到的其在市场上的几点优势就可以概括的。


CEO有40多个直接下属,老黄几乎参与公司全部运营


作为公司创始人兼 CEO,黄仁勋几乎参与了英伟达日常运营的各个方面。据一位直接了解情况的现任英伟达经理人称,这包括审查销售代表计划对相对较小的潜在客户说的话。


该公司的组织结构图显示了黄的大部分报告关系,也反映了他的深度参与。这位人士表示,他的直接下属数量异常多,大约有 40 名,该阵容包括为游戏 PC 和数据中心服务器设计 Nvidia GPU 的高级硬件工程师,以及监督 CUDA 编程语言等软件产品开发的工程师。这远远超过了科技行业及其他行业绝大多数 CEO 的水平。


黄仁勋一直以来都赞成扁平化的组织结构。与竞争对手英特尔和 AMD 不同,英伟达没有中央产品管理团队。一位前英伟达经理表示,黄仁勋采取的是亲力亲为的方式,挑选他想要帮助开发的产品,并为它们“充当伪产品经理”。


黄仁勋曾在某次采访中称:“如果想要一个服从命令和控制的组织,那么你就把它做成一个金字塔,就像罗马帝国时期的旧军队一样。但如果你想赋予人们权利,就要尽可能地让它变得平坦,这样信息传播得更快。有很多人向我汇报工作,我不需要一对一进行指导。他们都非常快乐,他们知道自己在做什么,且都是各自领域的专家,所以那些一对一的交流真的没有必要。


此外,英伟达内部员工还提到,黄仁勋不主张员工报告工作状态,他会“随机对系统进行抽样” ,因为他认为当某项产品或者技术到达他手中时,它们已经足够完美了。公司中的任何人都可以通过电子邮件向他发送“最重要的五件事”,黄仁勋也都会阅读。


英伟达现任经理表示,黄仁勋对其他科技公司的内部斗争十分不屑。这位人士表示,英伟达全球共有员工 26000 余人,让大量员工向少数高级管理人员汇报就容易造成信息闭塞。


黄仁勋也不会只与副总裁或董事举行会议,公司中任何人都可以加入并做出贡献。黄仁勋曾表示:“如果有什么我不喜欢的事情,我只是公开说出来,我还花了很多时间对我的决定进行推理和解释,这赋予了员工权力,让他们了解领导是如何思考并作出这个决定的”。


不管多么不寻常,英伟达的管理结构似乎正在发挥作用。今年 5 月,受投资者对其在人工智能领域核心地位的热情鼓舞,英伟达加入了苹果、微软、Alphabet 和亚马逊的行列,成为一家估值超过 1 万亿美元的美国公司。


要么为了食物而奔跑,要么远离成为食物


黄仁勋曾在公开场合中讲述了英伟达的三个故事,包括英伟达如何从痛苦的失败中幸存下来,以及如何通过战略撤退,获得先发优势,在人工智能(AI)时代取得成功。


他强调,我们仍处于人工智能革命的起跑线上,并预测未来十年内,随着世界以新型加速人工智能计算机取代传统计算机,该行业将面临价值超过万亿美元的黄金机遇。


黄仁勋称,最初创立英伟达是为了创造加速处理芯片。英伟达的第一个应用程序是用于 PC 游戏的 3D 图形。彼时,英伟达发明了一种非常规的 3D 方法,称为前向纹理映射和曲线。这一方法能够大大降低了 3D 图形在游戏中的运行成本,也为英伟达赢得了世嘉的合同。此后,凭借这项技术,英伟达吸引了更多游戏厂商并得到了大量的资金支持。


但经过一年的开发,英伟达意识到这款处理器架构是错误的策略。当时技术很差,微软即将发布基于逆纹理映射和三角形的 Windows 95 3D。许多公司已经在开发 3D 芯片来支持该标准。如果英伟达正在研发的这款芯片应用到世嘉的游戏机上,那它与 Windows 不兼容,而且会远远落后。但如果不完成合同,前期投入全都打了水漂,没钱入账就会破产。不管怎样,英伟达似乎只有死路一条。


危机之际,黄仁勋联系了世嘉的首席执行官入尻正一郎,并解释说了该项技术是错误的,世嘉应该寻找另一个合作伙伴,英伟达不得不终止合同。但英伟达需要付给世嘉违约金,以英伟达当时的情况没有了这笔生意再付出高额的违约金就相当于直接宣布破产。


最后黄仁勋说动了入尻正一郎,世嘉的理解和慷慨让英伟达又活了六个月。


就这样,英伟达在资金即将耗尽时建造了 Riva 128。Riva 128 震惊了年轻的 3D 市场,让英伟达名声大噪,并拯救了公司。


1. CUDA的传奇


2007 年,英伟达宣布了 CUDA GPU 加速计算。英伟达的愿望是让 CUDA 成为一种编程模型,促进从科学计算到物理模拟和图像处理的应用。创建新的计算模型非常困难,而且历史上很少有人这样做。自 IBM System 360 诞生以来,CPU 计算模型已成为标准 60 年。


CUDA 需要开发人员编写应用程序并展示 GPU 的优势。开发人员需要庞大的安装基础,而庞大的 CUDA 安装基础需要客户购买新应用程序。因此,为了解决“先有鸡还是先有蛋”的问题,英伟达使用了 GeForce GPU 来建立安装基础,该 GPU 已经拥有庞大的游戏玩家市场。


但 CUDA 的附加成本非常高。英伟达的利润受到了巨大打击。多年来,英伟达的市值一直徘徊在略低于或略高于 10 亿美元的水平。英伟达在此期间挣扎良久。在 AI 时代来临之前,股东对 CUDA 也持怀疑态度,并希望他们专注于提高盈利能力。但在黄仁勋坚信加速计算的时代终将会到来。于是英伟达创建了一个名为 GTC 的会议,并在全球范围内孜孜不倦地推广 CUDA。


然后,应用程序出现了:地震处理、CT 重建、分子动力学、粒子物理、流体动力学和图像处理。一个又一个科学领域,他们都向加速计算走来了。英伟达与每位开发人员合作编写他们的算法并实现了令人难以置信的加速。在 2012 年,人工智能研究人员发现了 CUDA。著名的 AlexNet 就是在 GeForce GTX 580 上进行训练的,这也让 CUDA,自此开启了人工智能大爆炸的序章。


老黄称,幸运的是,他们很早就意识到深度学习作为一种全新软件方法的潜力,并调动公司的各个方面来推进这个新领域,他们冒着一切风险去追求深度学习。十年后,人工智能革命开始了。英伟达顺势也成为了全球人工智能开发者的引擎。因为他们发明了 CUDA,并开创了加速计算和人工智能。这段旅程也塑造了英伟达的企业调性——能够承受实现愿景需付出的所有痛苦和磨难。


2. 在移动芯片市场中以退为进


老黄称,在英伟达的发展史中,还有一段历程值得铭记。


2010 年,谷歌的目标是将 Android 开发成一款具有出色图形功能的移动电脑。手机行业拥有调制解调器专业知识的芯片公司,而英伟达的计算和图形专业知识使英伟达成为帮助构建 Android 的理想合作伙伴。于是他们进入了移动芯片市场。


随后,英伟达在移动芯片市场取得了巨大的成功,公司业务和股价飙升,竞争很快就蜂拥而至。调制解调器芯片制造商正在学习如何构建计算机芯片,而英伟达正在学习如何构建调制解调器,因为手机市场是巨大的,英伟达不得不为市场份额而战。


但没多久,英伟达做出了一个艰难的决定——放弃移动芯片市场。


据黄仁勋称,英伟达的使命是制造能够解决普通计算机无法解决的问题的计算机,公司应该致力于实现我们的愿景并做出独特的贡献。


很快,英伟达退出移动芯片市场的战略得到了回报。离开手机市场后,英伟达打开了新思路——发明了一款新手机,他们设想为机器人计算机创建一种新型计算机,配备神经网络处理器和运行人工智能算法的安全架构。


就这样,英伟达进入了机器人市场。


现在,英伟达已经拥有数十亿美元的汽车和机器人业务,并开始了一个新的行业。黄仁勋表示:


“对于很多成功的人和成功的公司来说,撤退并不容易。然而,战略性撤退和牺牲,决定好放弃什么,才是成功的核心”。


参考链接

https://twitter.com/danhockenmaier/status/1701608618087571787

https://semiwiki.com/forum/index.php?threads/ceo-jensen-huang-runs-nvidia-with-a-strong-hand.18499/

https://petewarden.com/2023/09/10/why-nvidias-ai-supremacy-is-only-temporary/


本文来自微信公众号:InfoQ (ID:infoqchina),作者:冬梅、核子可乐