简而言之,本次演讲具有其“亮点”、“重点”和多个“看点”。其中“亮点”是英伟达秘密研发并向芯片制造业甩出的一枚技术“核弹”——光刻计算库cuLitho,可以用500套DGX H100,取代4万个用来驱动计算光刻的CPU服务器。“重点”是围绕生成式AI发布的系列加速模型训练和推理软硬件产品及服务,而“看点”则是展示针对量子计算、云服务、元宇宙、汽车等领域的新进展。
值得注意,为了出口至中国市场,英伟达基于旗舰芯片H100开发出了H800芯片,并称800系列产品完全符合出口管制法规,而且已被多家国内科技企业采用。但业内人士指出,H800的数据传输速率已被降低到旗舰H100速率的一半左右。
计算光刻提速40倍 获半导体巨头力挺
在黄仁勋本次主题演讲中,最大的亮点莫过于英伟达秘密研发四年、向业界甩出的一枚技术“核弹”——通过突破性的光刻计算库cuLitho,将计算光刻加速40倍以上。可以说,计算光刻是提高光刻分辨率、推动芯片制造达到尖端工艺的关键手段。
据了解,作为芯片制造过程中最复杂、昂贵、关键的环节之一,光刻成本约占硅片加工成本的1/3以上。配合光刻计算EDA工具使用,其可以帮助晶圆厂缩短原型周期时间、提高产量,为2nm及以上先进工艺奠定基础,并使得曲线掩模、High NA EUV、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术成为可能。
“计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。”黄仁勋称,“大型数据中心24x7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元资本支出的一部分。”
另据其介绍,英伟达H100 GPU需要89块掩膜板,在CPU上运行时处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时。通过这项应用,台积电可以把4万个用来驱动计算光刻的CPU服务器,换成500套DGX H100,能耗将从35兆瓦降至5兆瓦。此外,使用cuLitho的晶圆厂,每天可以生产3-5倍多的光掩膜,仅使用当前配置电力的1/9。
实际上,在计算光刻库研发过程中,英伟达已经与三家全球顶顶尖芯片厂商开展了长达4年的合作,包括晶圆制造巨头台积电、光刻机制造商ASML,以及EDA巨头新思科技。目前,这三家厂商均已开始将cuLitho技术引入芯片设计和制造流程。
对于这一“四年磨一剑”的技术,台积电CEO魏哲家表示,cuLitho为台积电在芯片制造中广泛地部署光刻解决方案开辟了新的可能性;阿斯麦CEO彼得·温宁克(Peter Wennink)称ASML计划将对GPU的支持集成到其所有的计算光刻软件产品中;新思科技则表示,在cuLitho平台上运行公司的光学邻近校正(OPC)软件将性能从几周加速到几天。
发布ChatGPT专用GPU可提速达10倍
本次GTC开发者大会上另一大重点,无疑是当前大热的生成式AI。在演讲中,英伟达发布了一系列相关加速模型训练和推理的软硬件新品及服务。训练方面,英伟达H100 GPU基于Hopper架构及其内置Transformer Engine,针对生成式AI、大型语言模型和推荐系统的开发、训练和部署进行了优化。
在DGX AI基建领域,自从英伟达向OpenAI交付首台DGX超级计算机后,目前《财富》100强企业中已经有一半用上这类产品。黄仁勋表示,“DGX(AI超级计算机)是大型语言模型实现突破背后的引擎,已成为AI领域的必备工具。”目前,NVIDIA DGX H100 AI超级计算机已全面投入生产,很快将面向全球企业。
值得注意,英伟达已基于H100芯片开发了H800版本出口到中国。英伟达发言人表示,“我们的800 系列产品完全符合出口管制法规”,阿里巴巴、百度和腾讯控股等中国科技公司的云计算部门正在使用这款新芯片。对于两款芯片的不同之处,据业内人士透露,H800主要将芯片到芯片的数据传输速率降低到H100速率的一半左右。
在推理硬件方面,英伟达也推出了全新GPU推理平台,包括针对不同工作负载进行优化的4种配置,分别用于AI视频、图像生成、大型语言模型(LLM)部署以及推荐系统,即L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper超级芯片。
其中,H100 NVL是专门为LLM设计的GPU,采用Transformer加速解决方案,可用于ChatGPT等大型语言模型的大规模部署。黄仁勋称,目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100。与适用于GPT-3处理的HGX A100相比,一台搭载4对H100及双GPU NVLink的标准服务器的速度要快10倍。
此外,L4是针对AI生成视频的通用GPU,用于加速AI视频,可以提供比CPU高120倍的性能,能效提升约99%;可以优化视频解码与转码、视频内容审核、视频通话等性能。因此,一台8-GPU L4服务器将取代100多台用于处理AI视频的双插槽CPU服务器。
L40则用于图像生成,针对2D、3D图像生成进行优化,并可以结合Omniverse直接生成3D内容、元宇宙等,推理性能是英伟达最受欢迎的云推理GPU T4的10倍。而Grace Hopper超级芯片是为推荐系统和大型语言模型AI数据库设计,可以通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。
BlueField-3 DPU已投产 加码量子计算布局
除了计算光刻和生成式AI,英伟达GTC大会上也公布了该公司多款最新升级的技术产品及服务。在DPU方面,黄仁勋宣布英伟达BlueField-3 DPU已投入生产,并被腾讯、百度、京东、微软和甲骨文等多家领先的云服务提供商所采用,以加速其云计算平台。而在算力生态以中,英伟达还想要通过云服务,把制造大模型的能力交给更多用户。
在大会上,英伟达发布的DGX Cloud云服务,提供了专用的NVIDIA DGX AI超级计算集群。搭配NVIDIA AI软件,其可使每个企业都可以使用简单的网络浏览器访问AI超算,消除了获取、部署和管理本地基础设施的复杂性,进而为生成式AI和其他开创性应用训练先进的模型。
紧接着,黄仁勋带来的另一项关于云的重磅发布是NVIDIA AI Foundations,包括语言模型NEMO、视觉模型PICASSO和生物学模型BIONEMO,以为用户提供定制化LLM和生成式AI解决方案。其中,NEMO可提供80亿、430亿、5300亿参数模型;PICASSO可用于训练图像、视频和3D应用等生成式AI模型;PICASSO可以通过高文本提示和元数据用DGX Cloud上的模型创造AI模型。
值得注意,英伟达还在量子计算等前沿科技领域取得了突破。在演讲中,黄仁勋宣布的第一个全新产品就是与Quantum Machines合作的NVIDIA DGX Quantum。该产品结合了通用量子控制系统Quantum Machines OPX+和NVIDIA Grace Hopper超级芯片,可为高性能和低延迟量子经典计算的研究人员提供革命性的新架构。
据他介绍,“NVIDIA DGX Quantum是全球首个GPU加速的量子计算系统,可以实现GPU和量子处理单元(QPU)之间的亚微秒级延迟。”这种组合使研究人员能够建立强大的应用,实现校准、控制、量子纠错和混合算法,将量子计算与最先进的经典计算相结合。
另外,英伟达也发布了一系列面向元宇宙、汽车和工业等领域的新进展,包括推出第三代OVX计算系统和新一代工作站,PaaS服务NVIDIA Omniverse Cloud现已向特定企业开放,与宝马集团扩大合作建设虚拟工厂、比亚迪更多车型将采用NVIDIA DRIVE Orin平台等。在GTC发布会上,最后登场的是“数字孪生”工业模拟应用Omniverse,主要的用处是让企业在实际建设工厂、生产产品前,通过数字化模拟“预览”实际的成品。
结语
“生成式AI正在推动AI的快速应用,并将重塑几乎所有行业。”黄仁勋数次表示,如今整个AI产业正处于“iPhone时刻”——创业公司正在竞相建立颠覆式的商业模型,而业界巨头也在寻找应对之道。由此,AIGC已在全球商业界掀起了开发AI策略的紧迫性。
可以看出,围绕AI、计算光刻、量子计算、芯片等前沿科技发布一系列前沿技术和产品,英伟达已构建了一套围绕产业上下游运转的应用开发生态,覆盖从GPU、DPU等硬件到帮助企业加速构建定制生成式AI模型的云服务以及升级数据中心、芯片制造工艺等等,因而在自然科学、视觉解析、数据处理、机器学习和AI等领域成为不可或缺的一环。
显而易见,黄仁勋正在带领英伟达走向一个新阶段,乃至进一步推动产业界释放新的创造力。近十年来,人工智能的飞速发展背后其实都离不开英伟达的软硬件支持。而如今,在生成式AI几乎激励着每个行业重新设想其商业战略和技术路线的发展前景下,英伟达正在让行业伙伴受益AI等前沿应用的变革性力量过程中变得越发强大,甚至不可替代