“我们需要更大的GPU。”

 

当地时间3月18日,黄仁勋在英伟达2024 GTC大会上,宣布了英伟达新一代加速计算平台NVIDIA Blackwell,以及基于Blackwell GPU架构的双芯片GPU B200和超级芯片GB200。

 

Blackwell架构单GPU AI性能达到 20 PFLOPS,性能比上一代提高了5倍,而成本和能耗下降降低25倍。黄仁勋以训练1.8万亿参数的GPT模型为例(可能GPT-4的参数量)。同样以90天为训练周期,上一代Hopper架构的GPU至少要用8000个,功耗15MW,而使用Blackwell架构的GPU,只需要2000颗,功耗约4 MW。


Blackwell

 

作为全球加速计算市场的“老大”,英伟达今天的一切成功都建立在GPU上。

 

不过,从黄仁勋在GTC大会上的主题演讲来看,英伟达似乎并不希望外界只看到他们的GPU。在黄仁勋2个小时的主题演讲中,虽然Blackwell平台的发布是绝对主角,但他也把超过一半的演讲时间放在了GPU“周围”的技术上,包括:芯片设计、生产技术,生成式AI模型训练,数字孪生,以及具身智能等。

 

一直以来,英伟达都在强调自己是“人工智能时代领先的计算公司”,而不只是一家芯片或是硬件公司。在GTC上宣布的软件技术、AI训练技术、机器人技术等,也无不透露着“源于GPU,高于GPU”的味道。

 

软件是GPU的护城河

 

加速计算市场上并不乏性能与英伟达接近的GPU产品,然而英伟达真正的护城河其实来自GPU软件开发工具。

 

在Blackwell之外,英伟达公布了一系列与AI、GPU、机器人相关的创新软件应用,包括:

 

AI 模型和工作流微服务产品NVIDIA NIM(NVIDIA AI Microservices);企业级的 AI 软件平台NVIDIA AI Enterprise 5.0;用于机器人开发的仿真环境NVIDIA Isaac Sim;GPU 加速、性能优化的轻量级应用NVIDIA Isaac Lab;用于计算编排服务的工具NVIDIA OSMO;用于药物研发的微服务NVIDIA BioNeMo;用于基因组学分析的软件套件NVIDIA Parabricks;用于视频分析和智能视频管理的软件平台NVIDIA Metropolis等。

 

其中,NVIDIA NIM(NVIDIA AI Microservices)最为突出。

 

NIM是一系列集成AI模型和工作流的微服务,专为企业和开发者提供在生物、化学、影像及医疗数据领域构建和部署AI应用的高效、灵活方式。NIM的关键优势是其符合行业标准的API,便于开发者创建云原生应用。

 

目前,NIM 微服务以及开始在医疗影像领域推广。通过利用 NVIDIA 的 AI 技术,NIM 微服务可以帮助医疗专业人员更快速、更准确地分析和解释医疗影像数据,从而提高诊断的质量和效率。此外,NIM 微服务还可以用于药物研发,通过生成式化学模型和蛋白质结构预测模型,加速新药的发现和开发过程。

 

事实上,软件应用生态除了在AI等开发端支撑英伟达的GPU业务,在未来也有可能为英伟达走出一条新的增长曲线。

 

SaaS行业是公认的毛利更高、赚钱快,且软件、应用研发资产轻,不会像硬件生产那样受到供应链的制约,也没有生产、库存压力。

 

虽然英伟达的GPU借着AI的东风也能赚得盆满钵满,但增长速度相比不如爆发增长的OpenAI。而且如果只做GPU和算力生意,未来的发展空间,也难免会受到制造业自身增长缓慢属性的影响。

 

已经垄断了GPU生意的英伟达,自然不希望像AMD、Intel、高通那样,“躬耕”于芯片行业卷生卷死。对于英伟达来说,基于AI大模型、软件等向上再迈一层,不仅能巩固自己当下的行业地位,也能拓宽未来的赛道。

 

算力怪兽的关注点在通信

 

专为AI而生的Blackwell可以处理万亿参数规模的大语言模型(LLM)。每块GPU拥有2080亿个晶体管,采用专门定制的双倍光刻极限尺寸4纳米TSMC工艺制造,通过 10 TB/s的片间互联,将GPU裸片连接成一块统一的GPU。

 

与Blackwell平台一同推出的还有采用双芯片设计的新一代GPU B200,单GPU AI性能达到20 PFLOPS。B200配备192GB内存。以及基于B200的超级芯片GB200 ,通过900GB/s超低功耗的片间互联,将两个 NVIDIA B200 Tensor Core GPU 与 NVIDIA Grace CPU 相连。

 

虽然Blackwell的性能提升巨大,但今天的超大规模AI模型多数都需要多GPU并联计算。由此,GPU的连接性能,才真正体现了GPU在AI大模型训练和应用过程中的价值。

 

第五代NVIDIA NVLink提供1.8TB/s 双向吞吐量,可以使576块GPU之间实现无缝高速通信,满足更为复杂的大语言模型训练需求。

 

在云端模型部署方面,英伟达还推出了NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X800 以太网网络平台,提供了高达800Gb/s 的端到端吞吐量,大幅提高了AI和HPC分布式计算的可用性。

 

此外,英伟达还推出了6G研究云平台,以推动AI在无线接入网络 (RAN) 技术的应用。保证了端侧设备到云基础设施之间的链接,从而推动自动驾驶汽车、智能空间和沉浸式教育体验的发展。


英伟达全新网络交换机 - X800 系列。

 

与Blackwell架构一同宣布的,还有英伟达与主流服务器、云计算厂商的合作。AWS、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉和XAI等预计都会在未来将加速计算服务器更新到Blackwell架构。

 

促进落地是英伟达的当务之急

 

在GPU硬件方面,英伟达在全球GPU市场中持续保持领先。Blackwell的性能比2年前的Hopper架构提升了5倍,比8年前的Pascal架构提升了1000倍。

 

黄仁勋在演讲中自豪地说:“摩尔定律是每10年提升100倍性能,过去8年里,我们提升了1000倍,我们还少用了2年。”

 

英伟达GPU性能八年提升1000倍


Blackwell一出,业界一片欢腾,很多人直呼:新摩尔定律诞生了。

 

相对于英伟达的用户,华尔街对英伟达的看法相对冷静。

 

刚刚过去的3月前几周,英伟达遭市场逼空,3月8日股价下跌5.55%。虽然华尔街对英伟达本届GTC表现乐观,市场普遍预测此次大会将帮助英伟达股票结束近期震荡走势。但是黄仁勋的主题演讲结束后,英伟达夜盘表现不佳,次日开盘股价亦未见起色。

 

这主要是因为GTC上公布重磅新品,对于市场来说基本都在预期之内。其实对于英伟达来说,不管是8年前的Pascal还是今天的Blackwell。1-2年一次的GPU架构的升级早已经是顺理成章的技术迭代,时至2024年,推出Blackwell在英伟达来说是一个“渐进式创新”的必然结果。

 

另一方面,对于如今的市场来说,随着GPU技术的迭代,算力快速增长很可能会大幅压缩英伟达的增长空间。

 

方舟投资首席执行官、知名投资人“木头姐”凯西·伍德(Cathie Wood)在3月7日致股东的一封信中对英伟达未来可能面临的竞争压力发出警告,并将其与思科在1997至2000年期间股价经历的“抛物线”进行比较。

 

伍德认为,如果AI公司、软件公司在应用层面一直见不到收益的话,很可能会停止增加在GPU建设方面的投入。

 

只是循序渐进地提升GPU性能,显然不能保证英伟达业务的长期增长。英伟达需要给客户提供更多围绕GPU构建业务能力的工具。英伟达大概也早就认识到了这一点。

 

在传统的GPU图形渲染方面,英伟达重点向客户推广工业数字孪生应用和工作流创建平台Omniverse。本次GTC,也宣布了最新的NVIDIA Omniverse Cloud API,用以帮助开发者将 Omniverse 技术集成到他们的设计和仿真工具中。

 

英伟达还宣布了与西门子、达索系统、Ansys、楷登软件、新思科技等主流工业软件厂商的进一步合作。

 

在AI方面,本次GTC上英伟达公布了一款人形机器人基础模型NVIDIA Project GR00T。可以支持通过语言、视频和人类演示来学习动作和技能,为机器人技术的 AI 应用提供了新的可能。Project GR00T与前段时间Figure推出的使用OpenAI大脑控制的机器人有些异曲同工。Project GR00T是一个多模态的人形机器人通用基础模型,可以使机器人通过观察人类行为来模仿动作,从而快速学习协调、灵活性等技能。

 

除此之外,英伟达一直着力打造的机器人开发和仿真环境Isaac平台此次也升级加入了生成式 AI 基础模型和仿真工具,以及针对机器人学习和操作的优化工具。