一夜醒来,大模型圈都在热议一个词——“GPU贫民”(GPU-Poor)


来自行业分析机构SemiAnalysis的一篇报告,爆料谷歌拥有的算力资源比OpenAI、Meta、亚马逊、甲骨文和CoreWeave加起来还要多。


分析师Dylan Patel预测,谷歌DeepMind联手的下一代大模型Gemini,到年底训练量将碾压(Smash)GPT-4达到后者5倍。


报告提出在这种压倒性的优势面前,大部分创业公司和开源势力都成了“GPU贫民”,在用有限的资源苦苦挣扎。


这个既扎眼又扎心的说法迅速成为新梗,在行业里流传开来。



上次这么火的梗还是“没有护城河”。巧了,也是同一位作者搞出来的,另外GPT-4内部架构细节大曝光也是他干的。


被点名的开源扛把子HuggingFace联合创始人Julien Chaumond表示:不要小看我们贫民啊。



也有人代表学生在线吐槽:金钱上穷,算力上也穷,说的就是我们博士生了。



正致力于让手机跑大模型的知名学者陈天奇表示,未来每个人都会拥有自己的AI助手,其中大多数人都会是“GPU贫民”,但不要低估合起来的总量。



也有不少人认为,抛开争议性的内容和大部分内容收费不谈,这篇报告的免费前言部分就是对大模型行业现状的一个很好的批评和总结。


“GPU贫民”在做无用功


报告下笔很不留情,直言很多创业公司在GPU匮乏情况下花费大量时间精力做的事,都是无用功。


比如很多人热衷使用大模型的输出微调小模型,然后去刷排行榜,但是评估方法不完善,更注重风格而不是准确性或实用性。


报告还认为各种测量标准不完善的排行榜本身,也是对小公司的误导,由此产生一大批不实用的模型,对开源运动也是一种伤害。


另一方面,GPU贫民们反而对资源的利用效率不高,大多使用密集模型,主要基于开源的羊驼生态。


但是OpenAI谷歌这些巨头已经在玩MoE架构这样的稀疏模型,以及利用小模型投机采样 (speculative decoding)提高推理效率了,完全是两个游戏。


作者希望GPU贫民们不应该过度限制模型规模以及过度量化,而忽视模型质量下降。应该专注于在共享的基础设施上高效地提供微调模型,减少延迟和内存带宽需求,满足边缘计算的需求。


看到这里,也有人提出不同意见,认为创造性的突破往往正是来自有限制的环境,这反而是某种优势。



但Perplexity.AI联合创始人Aravind Srinivas认为,GPU丰富的组织实际也会投资于带限制条件的研究。


并且要找到下一个像Transformer这样的突破,需要成千上万次的实验,要求的资源绝对不低。



“GPU土豪”的游戏怎么玩


那么GPU平民的另一面,谷歌这个“GPU土豪”在做什么呢?


严格来说,谷歌算力不是GPU而是自家TPU。报告认为虽然TPUv5单体性能不如英伟达H100,但是谷歌有最高效的基础设施架构。


谷歌大脑与DeepMind合并后,联手训练对标GPT-4的Gemini大模型。


由前DeepMind两位研究VP Koray Kavukcuoglu与Oriol Vinyals和前谷歌大脑掌门人Jeff Dean共同领导百人团队。


根据多方爆料,Gemini预计年内就会发布,更准确地说是美国的秋季范围之内(9月23日-12月21日)


Gemini将整合大模型与AI图像生成的能力,使用Youtube上93.6亿分钟的视频字幕训练,总数据集大小据估计是GPT-4的两倍。


前DeepMind创始人Hassabis曾透露,Gemini将结合AlphaGo类型系统的一些能力和“其他非常有趣的创新”。


另外谷歌创始人布林也一直在亲自参与Gemini研发,包括对模型做评估并协助训练。


关于Gemini更具体的消息还不多,但是有人推测也将与GPT-4一样使用MoE架构和投机采样技术。


8月初Google DeepMind发表的新论文From Sparse to Soft Mixtures of Experts被认为可能与Gemini相关。



投机采样能在不损失生成质量的前提下,让Transformer大模型获得2-3倍的推理加速。


具体来说是让小模型生成提前生成一些token并让大模型做评判,如果接受就让大模型生成下一个token再重复第一步,如果小模型生成的质量不高再换用大模型。


谷歌一方的投机采样论文在2022年11月才发表,但之前的爆料认为GPT-4也用了类似的技术。



实际上投机采样技术的前身Blockwise Parallel Decoding也来自谷歌,作者中包括Transformer作者中的Noam Shazeer。


Noam Shazeer这个人在谷歌时同时参与了Transformer、MoE和投机采样的研究,对今天的大模型来说都至关重要,另外他还参与了T5、LaMDA和PaLM等多个大模型研究。


SemiAnalysis的报告中还讲了他的一个八卦。


早在GPT-2时代Noam Shazeer就在谷歌写了一份内部备忘录,预测了未来大模型将以各种方式融入人们的生活,但当时这个观点并未被谷歌重视。


现在看来,他预测的很多事都在ChatGPT发布后真实发生了。


不过Noam Shazeer在2021年就离开谷歌创办了Character.ai,按照这篇报告的说法,他现在也是“GPU贫民”的一分子。


参考链接:   

[1]https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

[2]https://x.com/dylan522p/status/1695956854344749234

[3]https://x.com/AravSrinivas/status/1696182301934395486

[4]https://arxiv.org/abs/2211.17192


本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨