铁流

提供对中国高新技术企业和产品的专业点评

日前,网传美国AMD、英伟达相继收到总部通知,对中国区客户断供高端GPU,称该事件的理由是“为了防止被用于军事”。随后,英伟达发布公告称,美国政府已授权英伟达开发H100集成电路所需的出口、再出口和国内转让。该授权还允许公司在2023年3月1日之前执行为A100的美国客户提供支持所需的出口。此外,美国政府还授权英伟达通过公司的香港工厂为A100和H100订单履行和物流到2023年9月1日。



铁流认为,美国政府此举主要是针对中国超算、人工智能等关键行业,试图通过在基础硬件上卡脖子延缓中国科技进步,只不过英伟达游说非常给力,使英伟达和国内客户获得了缓冲期。从结果上说,该事件对中国顶级超算没有任何影响,对人工智能行业会产生一定影响,对国产GPU公司而言则是利好。

美国对超算加速器非常敏感

GPU可以分为三类,分别是AI、FP和渲染。AI就是英伟达和AMD近年推出的一系列用于深度学习的加速卡;FP则是那些用在超算上的加速卡,支持双精度浮点数运算,可以做科学计算,比如美国E级超算Frontier就搭载了AMD Radeon Instinct MI250X GPU作为加速器;渲染就是比较传统的做游戏、做桌面,做各种图形化应用。目前,TOP500榜单中很多超算就以GPU作为加速器,TOP500榜单中第一名、第三名、第四名和第五名均使用了英伟达或AMD的GPU。

由于超算在国防、科研等诸多领域不可替代的作用,多年前,美国就针对中国HPC的双精度高性能卡。2015年4月,美国政府宣布制裁中国四家超算中心以及国防科技大学,禁止英特尔等美国公司向中国出口高性能计算芯片,理由是中国的超算涉嫌用于核爆试验。当时天河二号就搭载Xeon Phi加速卡,美国的禁令使天河二号超算失去了使用Xeon Phi加速卡升级的途径,逼迫天河二号换了国产加速器。

事实上,美国对于支持双精度浮点数运算的芯片非常敏感,不要说专门用于超算的加速器,即便是出口民用高性能CPU技术,也要受出口管制法律约束。2014年,苏州宏芯公司与IBM公司达成协议,引进IBM Power8处理器,然而,受美国出口法律管制,宏芯引进的Power8是阉割了浮点模块的处理器。像ARM CPU由于浮点性能比较弱,国内公司在引进技术时才免遭美国毒手。

从上述例子可以看出,美国政府对于超算加速器,以及一些具有较高双精度浮点性能的芯片比较敏感,这方面的技术对中国防范比较严格。可以说,即便这次英伟达通过游说获得了一个宽限期,彻底断供高端GPU只是时间问题。随着中国综合国力逐步增强,美国对中国的敌意会越来越大,技术脱钩已经是大势所趋。

高端GPU断供对中国顶级超算没有影响

虽然美国称英伟达和AMD的计算卡可能会被用于军事,但实际上国内顶级超算根本就不用美国的加速器。超算是国之重器,国内单位早在20多年前就开启了超算芯片的研发,是完全自主指令集,自主CPU架构,而且已经取得了丰硕的果实。在2011年,国内就完成了神威蓝光超算的研制,这款超算的性能在同时期不突出,但胜在超算芯片完全自主设计,不需要采购美国的超算芯片。在2016年,采用SW26010的神威太湖之光正式亮相,成为全球首个100P级超算,并连续4次蝉联TOP500第一名。

不久前,英国《金融时报》发布了一篇题为《美国急于在超算竞赛中赶上中国》的报道,称中国已在美国之前实现E级超算,首台E级超算已经运行一年多,只是没有参加排名,“中国企业现在更专注国内竞争,而不是国际对手在做什么”。

根据披露的公开信息,新一代神威超级计算机的计算能力由自主研发的多核SW26010P CPU 提供。虽然SW26010P CPU的具体参数我们无从得知,但2021年中国高性能计算机性能TOP100排行榜上有一款基于SW26010P 打造的超算,我们可以基于这台超算一探究竟。

从榜单显示的信息看,该超算在仅用992片SW26010P就打造出一台13.9P的超算,作为参照,神威太湖之光性能为125P,使用SW26010芯片共计40960片,换算一下,SW26010P的性能相对于SW26010提升了5倍。更为可怕的是,这台超算效率极高,达到90.3%。作为参照,TOP100榜单上前20的超算除神威太湖之光效率达到74%外,其余超算效率在46%至62%之间。即便是美国超算Frontier,其效率也只有65%。

在应用方面,这台新超算也取得了多项成绩。2021年,“千万核可扩展第一性原理拉曼光谱模拟”和“多架构大规模并行保辛结构电磁全动理学等离子体模拟”和“超大规模量子随机电路实时模拟”三项应用入围“戈登贝尔奖”。国际计算机协会将2021年度“戈登贝尔奖”授予中国超算应用团队,我国联合科研团队基于新一代神威超级计算机的应用“超大规模量子随机电路实时模拟”而获此殊荣。

另外,天河超算在超算芯片上也使用了自主设计的加速器取代了英特尔的加速器,天河2号使用国产加速器升级之后,性能提升了70%以上。可以说,中国顶尖超算压根不用英伟达和AMD的加速器,而且性能是世界顶尖,在应用方面也屡屡斩获国际大奖。

利好国产GPU

近年来,一批GPU初创公司如雨后春笋般发展起来,多家公司获得资本青睐,摩尔线程完成数轮投资获得数十亿元,无独有偶,壁仞科技宣布完成总额11亿元的融资,沐曦集成电路宣布完成近亿元天使轮融资,登临科技宣布完成融资。另外,天数智芯、芯动科技等公司还即将发布GPU新产品,或已经成功回片通过测试,开始客户送样。诚然,这当中不乏拿英伟达开源代码去流片标榜国产的浑水摸鱼之辈,但也有一些有理想有抱负的公司。

在这批GPU公司中,有一些是主打桌面GPU的,比如芯动科技、格兰菲,就像素填充速率和FP32来说,风华2号、Arise-GT-10C0和GT1050大致处于同一档,3DMark测试分数推算应当在GT75至GT1050之间。也有一些是主打人工智能,主攻数据中心场景,比如摩尔线程的MTT S2000和壁仞100。

这些国产GPU虽然主攻场景不同,但都有一个共同的问题,那就是缺乏应用场景,而且对比英伟达和AMD的货架商品并没有多少性能优势,在产业生态方面则完全被英伟达碾压状态。

这里必须说明一下,一些厂商为了营造光环,在PPT上会以田忌赛马的方式进行宣传,比如某款GPU就标榜自己超越国际旗舰算力,但实际上该GPU压根不支持双精度浮点运算,做不了科学运算,只能用于人工智能方向。其他厂商的宣传也是类似,虽然在这些厂商的PPT中,英伟达的GPU总是作为背景板被超越,但实际上这种宣传是含有较大水分的。



过去,由于英伟达在软件生态上非常成熟,而且GPU性能强,产品质量稳定,客户根本找不到使用国产GPU去替换英伟达的理由,但在这次事件后,国内互联网公司恐怕会找一个备胎,无论是自研GPU,还是收购一家初创公司,对于我国GPU行业而言都是利好。

结语

当下,国产GPU的水平明显落后于国产CPU,国产CPU中不乏龙芯、申威这类采用自主指令集,完全自主研发,并且在各自的应用市场做的非常不错的产品。而国产GPU则大多数有境外技术来源,国内GPU公司大多数是从英伟达、Imagination、S3、图芯等公司获得技术,或者是逆向ATI老旧GPU起家,走的技术引进消化吸收的路子。

如果说国产CPU已经是小米+步枪,依靠优秀的指挥、精湛的战术能够和美式装备打的有来有回,国产GPU基本属于冷热兵器混用时代(大多数是冷兵器,少数是买来的洋枪洋炮),和英伟达、AMD的差距很大,少数几款技术引进GPU能够通过田忌赛马的方式在PPT上与英伟达对标,但产品成熟度、产业生态和英伟达差距巨大。过去,国产GPU能够拿到融资,但很难找到市场,很难落地,但在今后,无论是政策,还是资本和市场都会给予国产GPU更多扶持和帮助。