就在不久前,微软方面突然宣布全面开放Bing Chat,因此也意味着所有拥有微软账户的用户均已能够免费使用这一功能,而不在需要进入waiting list候补名单等待获得测试资格。然而大量涌入的用户却让微软的算力不堪重负,Bing Chat已经开始出现了响应等待时间过长的问题。



为此,微软广告和网络服务负责人米哈伊尔・帕拉欣在社交平台公开向用户道歉。他表示,“由于使用量不断增长,我们添加GPU的速度还不够快,但会竭尽所能地修复这个问题”。但为了解决Bing Chat由于全面开放导致用户激增,而产生的算力不足问题,微软方面不仅仅是在添加GPU。

近日有消息显示,甲骨文(Oracle)和微软(Microsoft)近期讨论了一项不同寻常的协议,那就是如果任何一家公司为使用大规模AI的云客户所提供的计算能力不足,那么双方就将相互租用对方服务器。而这笔交易也被外界认为,将帮助这两家云服务提供商满足市场对可运行AI所需的服务器资源日益增长的需求。



没错,即使两者都是全球云计算领域的巨头,并且也是互为竞争对手关系,但是面对生成式AI所需要的海量算力,双方也只能放下冰人。其实从本质上来说,ChatGPT这类大型语言模型就是要“大力出奇迹”,毕竟神经网络的层数多了、参数规模大了、语料丰富了,“智能”也就涌现出来了。

根据市场调查机构TrendForce在今年3月初的推算显示,如果以半精度浮点算力为311.88 TFLOPS的英伟达Ampere A100来计算,运行算力消耗高达3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)的ChatGPT,需要至少3万片A100 GPU才能让这个模型运转起来。而且这还没完,并非将上万片GPU堆叠在一起就能获得算力,还必须要用专用网络把它们聚集在一起。



那么问题就来了,即使生成式AI对算力的需求是庞大的,作为市值惊人的科技巨头,微软和甲骨文难道是没钱买算力吗?

其实正如百度创始人李彦宏在不久前的内部演讲中所言,“算力是可以买来的,但创新的能力是买不来的”,就能够代表一种极为普遍的认知。那就是算力本身虽然是资源、但它不是非卖品,只要有钱就能买到。然而,事实真的是这样的吗?

答案或许是否定的,最起码现阶段有钱还真就不一定能买到算力。

此前在2022年剑桥AI发布的工智能状况全景报告中,就对当时全球各企业和机构拥有的英伟达A100和H100 GPU数量进行了统计。其中排名前三位的分别是Meta(21400)、欧洲超算Leonardo(13824)和特斯拉(7360),只不过彼时这三家公司/机构都没有将算力应用在生成式AI领域。例如Meta将算力给到了元宇宙业务上,欧洲超算Leonardo主要瞄准的是气候、航空航天和生物医药,特斯拉则是将算力用在了训练Autopilot与自动驾驶的深度神经网络。



没错,即便是一手打造了A100和H100的英伟达,也没有预料到生成式AI会从2022年秋季开始如同超新星爆炸般席卷全球,以至于他们在今年3月为了满足激增的用户需求,向台积电增加了A100、H100、A800 GPU的订单。换而言之,即便微软、甲骨文想要挖掘生成式AI这个金矿,现在可能也没有足够的铲子。这时候为了缓解燃眉之急,两者暂时握手言和也不是不能理解的。

看到这里,或许有许多玩家可能会有这样一个疑问,那就是以ChatGPT为代表的生成式AI的走红,会像当初加密货币的矿潮一般造成显卡大幅度溢价吗?

显然,玩家们的担忧不无道理,因为“挖掘"加密货币需要计算,所以拥有算力的显卡也就成为了矿工的生产力工具。而后者汹涌澎湃的购买需求更是曾直接导致了前几年显卡价格的一飞冲天,并且一卡难求的景象更是历历在目。同理AI也需要算力,英伟达的GeForce显卡同样能提供出色的算力。



然而事实并非如此,人工智能训练需要的更多是半精度浮点运算性能(FP16),英伟达的A100和H100这类产品就都对此进行了专门的优化,而作为游戏显卡的GeForce系列则更注重单精度(FP32)和双精度(FP64)浮点算力。

比如说都是基于安培架构,A100的FP16大概是311.9TFLOPS,而作为RTX 30系列中高端产品的RTX 3070就只有81.2TFLOPS。甚至于到了RTX 40系列,作为旗舰产品的RTX 4090由于被取消了NVLink桥接设计,使得多卡协同至此变成了过去式。但不同于挖矿是一张显卡“单打独斗”,训练大语言模型则是需要GPU集群的。



所以尽管AI算力紧缺已成为事实,但也无法像曾经的“挖矿”一样影响到消费级市场,因此玩家朋友们也大可放宽心。