英伟达推出了更高性能的H200,但与中国市场无缘。
没有比黄仁勋这个CEO更难当的CEO了。
11月14日,在全球超算大会(SC2023)上,英伟达宣布在AI芯片H100的基础上,发布新一代H200芯片。作为备受热捧的H100升级款,H200被称为“史上最强”芯片。以700亿参数的Meta大语言模型Llama2为例,H200推理速度几乎比H100提高2倍,而且能耗还降低了一半。
受此消息影响,英伟达股票实现连续第十个交易日上涨,创下了最长连涨纪录。截至11月14日收盘,英伟达股价为496.54美元,市值1.23万亿美元,均再创新高。
H200计划于2024年第二季度正式出货。届时,包括亚马逊,谷歌,微软等大型计算机厂商和云服务提供商将成为H200的首批用户,客源依然稳健。但由于美国方面的制裁,这款芯片依然无法输送给中国市场的客户。
今年开始,中国的科技巨头与创业者已经开发了约130个大模型,他们急需英伟达速度更快的GPU芯片来提供算力支撑。原本,黄仁勋认为他和英伟达可掌控一切——算力的源头就是芯片以及算力集群,英伟达也将持续享受最丰厚的利润,有分析师测算,H100芯片的利润率是1000%。但这一切在10月18日再次被打破。
来源:视觉中国
10月18日,美国商务部进一步收紧对华芯片出口管制,被称为A100、H100“阉割版”的中国大陆市场特供版本A800和H800面临下架。更值得一提的是,原本禁令有30天缓冲期,但英伟达发布公告称,出口限制禁令在10月23日开始生效。
黄仁勋不忍心放弃中国市场。中国是全球人工智能芯片最重要的市场之一,英伟达在中国AI芯片市场占据了九成份额。在过去几个季度,中国市场支撑了英伟达约25%的营收,并且增长幅度以及利润都非常可观。
近日有消息称,英伟达将推出三款针对中国市场的HGX H20、L20 PCIe和L2 PCIe芯片,以满足美国对中国最新的芯片限制技术标准。据了解,三款产品针对的是训练、推理和边缘场景,量产时间为今年12月至明年1月。
有媒体报道,这三款AI芯片并非“改良版”,而是“缩水版”。其中,用于AI模型训练的HGX H20在带宽、计算速度等方面均有所限制,以符合美国最新的芯片禁令。截至发稿前,英伟达并未对大陆特供的“缩水版”芯片作出回应。
中国厂商会买单吗?
HGX H20性能在H800的基础上大幅度缩水。
钛媒体报道称,理论上,HGX H20整体算力要比英伟达H100 GPU芯片降80%左右,即HGX H20等于H100的20%综合算力性能,而且增加HBM显存和NVLink互联模块以提高算力成本。所以,尽管相比H100,HGX H20价格会有所下降,但预计该产品价格仍将比国内华为的AI芯片910B高一些。
不过,国内厂商可能并没有其它选择,大概率会为这款低性能芯片买单。
一位芯片从业者告诉《中国企业家》,目前还没获得H20的确定报价信息,根据经验,H20的单位算力训练成本应该与H100接近或略高。时间、训练成本可以通过训练框架、算法的优化提升,可能会出现针对H20这类“阉割版”GPGPU的训练优化框架。
他还举例说,H100用于训练时,大部分算力是闲置的,没有专门优化的时候利用效率为20%左右。
“国内一些公司还会采购H20。目前华为、寒武纪和其他GPU厂商的生态适配成本及工程师学习成本明显高于英伟达,尤其在训练上英伟达的GPGPU系统互连方案还是目前的主流。”这位从业者说。
根据公开披露的消息,今年下半年,百度向华为订购了1600枚昇腾910B AI芯片,总价值为4.5亿人民币,截至目前,华为已交付了其中60%以上,超过1000枚;360集团创始人周鸿祎也于近期表示,360采购了1000枚左右华为AI芯片。
但千枚级别的910B更多带着试验性质,还无法完全替代英伟达的A100甚至H100。
算力的成本以及需求还在上涨。
11月14日,一家名为汇纳科技的上市公司发布公告称,接到合作公司通知,由于内嵌英伟达A100芯片的高性能算力服务器算力需求大幅增加,相关高性能运算设备持续涨价,算力资源持续紧张,合作方决定对其A100算力服务收费拟上调100%。
可以看得出,目前主流厂商对算力服务的第一选择仍然是英伟达。
黄仁勋舍不得中国
中国市场是黄仁勋绕不开的话题。
2024财年第二季度,英伟达营收创历史新高,达135.1亿美元,同比增长101%;其中数据中心业务收入103亿美元,同比增长170%;净利润达61.88亿美元,同比暴涨843%。其中,来自中国的需求占英伟达数据中心收入的20%至25%。
中国市场不仅仅提供源源不断的营收数字,也是英伟达人工智能芯片的试验场,来自中国的科技公司和开发者是英伟达CUDA生态的重要参与者。
一位自动驾驶行业人士向《中国企业家》表示,英伟达车载智能芯片最大市场在中国,中国也提供了最丰富的场景探索。
时间回到2013年。当时,黄仁勋频繁来到中国推销GPU芯片。那一年的小米3发布会上,他特意飞到北京为雷军站台,用蹩脚的中文介绍英伟达:“我们发明了GPU,我们的GPU是最快的,是最好的。”场下有人喊:“没有之一。”
今年5月30日,黄仁勋在台北出席活动时说,不要低估中国企业的追赶能力。“我们自己必须要跑得非常快。中国在这方面投入的资源……相当庞大,所以你不能低估他们。”
来源:视觉中国
黄仁勋还说,芯片出口管制措施可能对美国科技行业造成“巨大损害”。出口管制令使英伟达的“双手被绑在背后”,无法在其最大市场之一销售先进芯片。黄仁勋强调,中国约占美国科技行业市场的三分之一,不可能被取代。
在过去的一年,中国的科技巨头与创业者已经开发了约130个大模型,他们急需GPU芯片来提供算力支撑。GPT-4的更新发布以及近期最新的OpenAI开发者大会正在刺激他们,开发出更准、更快、性能更好的大模型。
“国内多模态大模型刚刚起步,GPT-4的完整发布干掉很多中小AI创业企业的未来。所以国内短期对算力需求的声音变小了,但长期来看这个需求还是很大的。”一位行业人士说。
AMD正在抢抓英伟达缺席后的空白。AMD CEO苏姿丰在公司最新的财报电话会议上说:“中国对我们来说是一个非常重要的市场。当然,在我们考虑加速市场时,我们的计划是完全符合美国的出口管制。”苏姿丰预想将今年6月发布的MI 300和旧版MI 250芯片的规格调整后重新出口中国。
谁能成为英伟达的平替?
华为被视为此次算力热的潜在受益者。它推出了两款GPU芯片昇腾310和昇腾910B,其中,昇腾910B被视为“基本与A100性能相当”,颇受市场追捧。目前,华为已经收到了科大讯飞、百度、360等公司的订单。
科大讯飞还与华为联合开发了基于昇腾生态的算力底座“飞星一号”平台,据传,讯飞星火一体机在性能方面已经可以对标A100平台水平。
“华为的GPU能力已经跟英伟达A100一样了,但在过去一段时间,综合效率对比英伟达还有蛮大差距。”科大讯飞董事长刘庆峰在一次公开会议上说,“不过,任正非高度重视,还有华为的三个董事作为联系工作组到科大讯飞,我们有个专班工作组,现在已经可以做到了对标A100。”
华为和英伟达的差距不是一朝一夕能解决的。毕竟,从1993年成立开始,英伟达就专注在GPU芯片领域,它在2012年成立了GPU加速深度学习框架CUDA,此类社区还包括TensorRT、DeepStream等,他们可以帮助开发者更高效地使用其芯片。
“很多企业也担心华为和寒武纪的保供能力,不敢拿这些企业的产品作为主力计算卡。”一位芯片行业人士说。
今年4月,国内大模型烈火烹油之际,被称作“AI芯片第一股”的寒武纪股价达到创纪录的254元,但之后迅速回落,截至发稿为151元,这中间经历了投资机构套现离场、高管调整等,可以说,大模型热并没有捂热寒武纪。
技术与成本是芯片行业迭代的最根本动力,它永远追求算得更快,更准以及成本足够低廉。
除了成本,还要解决异构问题。芯片只是算力链条的一环,它还要组合成服务器,解决连接、网络、安全与算法,还要解决计算机集群的异构问题,不同模块芯片之间的组合问题。性能稳定的计算集群是大模型训练的必要条件。
在当下,黄仁勋只能眼睁睁看着一个巨大的市场,被其它竞争者占据,但他或许应该更重视来自中国的GPU从业者的雄心。
除了科技巨头公司和创业公司,最新的消息是,国家队已经入场了。据市场消息,第三期大基金即将推出,也是目前资金规模最大的一只——拟募集3000亿元人民币,加快中国半导体发展进程。
第一期国家集成电路产业投资基金(简称“大基金”)成立于2014年9月,注册资本987.2亿元,大基金二期注册资本为2041.5亿元,投资方向涵盖了晶圆制造、集成电路设计工具、芯片设计、封装测试、装备、零部件、材料以及应用等多个领域。
目前看来,随着美国实施更多的出口管制措施,或将为“中国芯”崛起制造机会窗口,这可能导致英伟达在中国市场面临更大的竞争压力。