Groq会同时挑战英伟达和谷歌吗？ - 葱头胖友圈

这几天，英伟达的市值刚刚超过谷歌，然后又被谷歌反超。

就在英伟达即将发布季报之际（2月21日），一家名叫Groq的初创芯片及模型企业，突然卷起了一股波澜，被人惊呼要颠覆英伟达。怎么回事？

让我们先打开这家公司的网站。出现了一个像谷歌搜索一样的主页面，甚至比谷歌更简洁。敲入一个问题，它以闪电般的速度，给出了一个完整的答案。每秒钟278个token！

它号称是世界最快大模型，比GPT-4快18倍，测试中最快达到破纪录的每秒吞吐500 tokens，还用上了自研LPU（语言处理单元），是一种名为张量流处理器（TSP）的新型处理单元，自然语言处理速度是英伟达GPU 10倍，做到了推理的最低延迟。

前段时间，Groq曾公开基准测试结果，已经引起关注。在去年的高性能计算会议 SC23 上，Groq 以每秒超过 280 个 Token 的速度生成回复，刷新了 Llama-2 70B 推理的性能纪录。今年 1 月，Groq 首次参与公开基准测试，就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成绩，远超其他基于云的推理提供商。

目前，LPU推理引擎可支持多种用于模型推理的机器学习开发框架，包括PyTorch、TensorFlow和ONNX。

尽管社交媒体称之为“最快大模型”，Groq还是做出了澄清：“我们不是大型语言模型。我们的LPU推理引擎是一种新型的端到端处理单元系统，它为计算密集型应用提供最快的推理能力，这些应用具有序列组件，例如人工智能语言应用。” 它只提供推理，不能用来训练大模型。

目前它采用了Mistral 8X7B和Llama2 70B两种最流行的开源模型，适配到其编译器上运行。它们的商业模式是针对大型系统，也为企业部署，它不出售单卡/芯片。因为拥有芯片到系统的整个技术栈，而且没有中间商，它能产生单位Token的价格优势。

Groq芯片的厉害之处，各路自称专家的做出了不同的解读，但真正权威的，还应该是Groq的首席架构师和研究员 Igor Arsovski。

他认为，传统的高性能计算（HPC）系统和数据中心使用动态的时间和空间共享，平台动态协调计算、内存和网络资源在线程或工作负载之间的使用。这对于不可预测的计算工作负载来说是一个自然的解决方案，其不可预测性使得这种调解成为先决条件。不幸的是，这导致了堆栈的所有层面上的效率和复杂性成倍增加：处理器架构、内存、网络等等。

然而，现代AI工作负载具有可预测的结构，允许对计算和网络资源进行高效的静态调度。Groq通过从底层使组件确定性化，改变了这个游戏的规则。这就决定了LPU与GPU的工作原理不同。

“我们开发了大规模同步计算平台，赋予软件静态进行更多编排决策的能力。与传统网络不同，在Groq网络中，所有流量都由Groq编译器完全预先计划，没有网络冲突。这不仅最大化了链接的利用率，还最大化了芯片之间可采取的最小路径数量。”

确定性计算和静态编排引入了新的软硬件挑战和共同优化机会，克服这些挑战为AI工作负载上的更大计算和功率效率解锁了机会。Groq的软件调度网络提供了关键优势，包括：

（1）通过编译器驱动的网络流量调度实现全局网络负载平衡；

（2）通过低控制开销实现高网络带宽效率；

以及（3）通过直接拓扑实现低延迟的芯片到芯片通信。

LPU的架构，无需像使用高带宽存储器（HBM）的GPU那样频繁地从内存中加载数据，也不需要依赖高速数据传输。Groq的LPU在其系统中内嵌了SRAM（静态随机存储芯片），比HBM快约20倍。LPU只进行推理计算，需要的数据量远小于模型训练，从外部内存读取的数据更少，消耗的电量也低于GPU。Groq的LPU芯片设计实现了多个TSP的无缝连接，避免了GPU集群中的瓶颈问题，显著地提高了可扩展性。

因此，Groq公司宣称，其LPU所带来的AI推理计算是革命性的。

Groq成立于2016年，位于加州山景，目前有员工180人。其CEO兼联合创始人Jonathan Ross在创立Groq之前，曾是谷歌的员工，在一个项目中负责了其中的20%，设计并实现了第一代TPU芯片的核心元素，这就是后来的谷歌张量处理单元（TPU）。

对比一些流行的（开源）模型所提供的API服务，Groq自认为性价比最高。Ross提出了Token作为服务的概念（TaaS），即按照每秒钟的吞吐的词元数量进行定价。

这是Groq使用的一张第三方机构的分析。从中可以看出，Groq每百万token的价格最低，在0.7美元左右，而且其吞吐速度看起来“遥遥领先”。其中排第二位的，是华人AI科学家贾扬清创办的Lepton。

但是，在同样一家机构出示的另外的图表上，比较吞吐量与质量，以及比较价格与质量，Groq就消失了。显然，目前Groq仅在吞吐量与价格这一项指标上表现比较突出。

Groq就是快。但部署起来并不便宜。

贾扬清做了一番估算，采购性能相当的H100和Groq服务器，运行三年，H100在初始投资及运营成本（主要是电费）方面，要远优于Groq卡。

每张 Groq 卡的内存为230MB。
对于 LLaMA 70b 模型，假设使用 int8 量化，并完全忽略推理过程中的内存消耗，所需的最少卡片数量为 305 张。实际上需要更多，有报告指出需要 572 张卡片，因此我们将基于 572 张卡片进行计算。
每张 Groq 卡的价格为 20，000 美元，因此，购买 572 张卡片的成本为 1144 万美元。当然，由于销售策略和规模效应，每张卡的价格可能会低得多，但现在让我们先按照标价计算。（据其后续补充，每张卡的BOM应该在1000美元~2000美元之间——编者注）
对于 572 张卡片，每张卡的平均功耗为 185W，不包括外围设备的总功耗为 105.8kW。（注意，实际消耗会更高。）
目前，数据中心每月每千瓦的平均价格约为 200 美元，这意味着年电费为 105.8 * 200 * 12 = 25.4 万美元。
基本上，使用 4 张 H100 卡可以实现 Groq 一半的性能，这意味着一个 8 卡 H100 盒子在能力上大致相当于上述配置。一个 8 卡 H100 的名义最大功率为 10kW（实际约为 8-9 kW），因此年电费为 24，000 美元或略低。
如今，一个 8 卡 H100 盒子的价格约为 30 万美元。
因此，如果运行三年，Groq 的硬件购买成本为 1144 万美元，运营成本为 76.2 万美元。对于一个 8 卡 H100 盒子，硬件购买成本为 30 万美元，运营成本为 7.2 万美元或略低。

他进一步吐槽说：坦白说，我们对目前的词元价格加上速度服务等级协议（SLA）的组合并不满意。换句话说，我们对词元的价格是满意的，但如果有人大量并行调用API，我们不保证速度。言外之意，似乎Groq也会面临同样的问题。

由于GPU的生态极为发达，Groq目前只能绑定少数较大模型服务客户。它需要扩展其服务量，进一步降低TCO （总体成本），这样在低延迟方面的优势才能持续建立起来。

尽管如此，Groq的技术和模式很有启发性：

1. 它的芯片+推理服务，端到端的AI模式，也是一些大模型公司正在考虑的，OpenAI推出了Sora，很快也将推出GPT-5，但其算力正严重影响其业务的进一步发展，它在推理延迟方面，以及大量并发调用其API服务方面，都需要更强大高效的算力。奥特曼从去年底就一直在忙乎融资造芯片，故事越讲越大，已经达到了7万亿美元。

2. 大模型推理等AI专用加速芯片，也是英伟达正在努力的方向。GPU是数据中心的通用芯片，但是在一些专用的领域，它并不是效率最高的。目前各大科技巨头、一些芯片设计独角兽企业，都在研发更具效率、部分替代GPU的芯片。英伟达也已经意识到这一点，建立起了定制芯片的业务部门。

3. 它是GPU的一个重要补充，它让面对紧缺昂贵的GPU芯片的初创企业有了一个新的选择。据测算，目前AI初创企业融到的钱，其中60%到75%花到GPU上，这是一家独大卡脖子的局面。

4. 谷歌出身的Groq团队，做出的对话框速度之快，极大改变了推理的体验，它让人们进一步思考接下来搜索的前途和发展方向。

One More Thing：

Groq成立于2016年，这个词来自Grok。

Grok是美国作家海因莱因（Robert A. Heinlein）1961年科幻小说《异乡异客》（Stranger in a Strange Land）中创造的一个词。

Grok是一个火星词，在地球语中无法定义，但延伸出各种字面意义，如“水”、“饮用”、“相互关联”、“生命”或“生活”，并且具有更为深刻的喻义。在地球文化的单一现实中，词意更颇为迷离。

书中描述，饮水是火星上的一个生存焦点，那里水资源稀缺。火星人用他们的身体与水融合，成为一个简单的例子或象征，展示了两个实体如何结合创造出一个大于部分之和的新现实。水成为饮水者的一部分，饮水者也成为水的一部分。两者相互理解（grok）。曾经拥有独立现实的事物变得在相同的经历、目标、历史和宗旨中交织在一起。在书中，主要角色之间口头表达的神圣声明，是发自内心的，“你即是上帝”，是从grok这一术语内在概念中逻辑推导出来的。

（注：本文作者在选取这段英文原文翻译成中文时，Groq的确要快很多，但GPT-4的翻译在信达雅方面结合得更好，因此选用了GPT-4的翻译，并进行了编辑润色。）

Grok很快在计算机、极客、黑客圈子里流行开来，并且成为60年代兴起的反主流文化中的一个重要词汇。

马斯克2023年准备推出自己的模型时，一度想用Groq，但Groq已经注册了商标，并且发出警告，于是马斯克就“盗用”了Grok。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究