本文来自微信公众号:硅星GenAI(ID:gh_e06235300f0d),作者:椒盐玉兔,题图来自:Groq
首先得说一下,区别于 Gemini 或者 GPT,Groq 不是一个模型,而是自研的 TSP 微架构。Groq把开源的 Llama 2 70B 和 Mistral 8x7B 塞到了其特调的芯片上,实现了极其离谱的速度,具体有多离谱呢?这里列一些对比。
首先,上场的基准选手,也就是 驰名中外的GPT-4,速度上的显眼包。回答问题时,是这样的:
GPT-4,哎,不多说了……
接下来,让我们看看由 Groq 加速后的 Llama 2 70B:
右上方计数器 278 T/s,折合差不多200个单词/秒
以及,Groq 代理的 Mistral 8x7B:
又快又好!右上方计数器 408 T/s,折合差不多408个单词/秒
上面的测试里 Groq 的速度已经足以让人吃惊了!
接下里我们从理解能力、生成能力、逻辑推理、翻译能力、情感分析、常识判断等六个维度更直观地看三个模型的效果如何。
测试成员从左到右依次为:
GPT-4、Groq 的 Llama 2 70B、Groq 的 Mistral 8x7B。
请三位选手开始表演:
首先是理解能力:二者回答都很流畅,没有出现明显的事实性错误。
提示词:概述光合作用的过程
生成能力:二者在故事生成上表现均不错,若论生成速度,则 Groq 取胜。
提示词:根据以下提示编写一个短故事:“在一个风雨交加的夜晚,一位老船长发现了一张古老的藏宝图。”
逻辑推理:针对这个简单的勾股定理问题,Groq 回答约 158KM 而正确答案是约112KM。但是它对题目的理解和计算过程都是对的,属于典型的过程对了但答案错了。最后开根号没开对。
提示词:一列火车东行50公里,然后向北行驶100公里。从起点到终点的直线距离是多少?
语言翻译:在这项测试中,GPT-4 表现不错,但 Groq 无法完成测试。
提示词:翻译内容选自论文《Attention Is All You Need》
不过除了中文以外,Groq 在其他语言翻译上的表现还是相当不错的。
目前 Groq 可以理解中文提示词,但无法生成高质量的中文回答。
情感分析:在这一部分,Groq上的两款模型跟 GPT-4差距不大。
提示词:分析以下评论的情感倾向:“我简直不敢相信我花了这么多钱在这个产品上,完全不值!”
最后是常识判断:两者都给出了足够可信的回答。
提示词:如果你在夜里听到鸟叫,最可能是什么情况?
测试动图全程无加速,这种速度感第一次体会到是在去年第一次用到 Bard 的时候。在开源模型上这还是第一次。
除此之外还有一个有趣的地方:
在 Groq 的回答完成之后,还可以更改生成的选项,即时生成或者扩展回答内容,选项如图所示:
对于生成类型有不同的设置,选择的类型不同,生成的结果也不大相同。而在 Professional 这个选项下无论是 Llama 2 70B、还是 Mistral 8x7B,不仅生成速度又长又快,还可以选择不同的领域和功能,比如 Table(表格选项)、Professional。具体操作可以在生成之后,根据自己的喜好进行不同的选择。
Table 选项:Llama 70B-4K 直接切换成表格
而 Mistral 8x7B 则在此设置下无响应,直接罢工了!
Professional 选项:二者可见速度和答案都跟之前的大不相同
Groq 的员工最近在 Hacker News 上异常活跃,参与着一个又一个讨论。
有时候技术的讨论还会演变成“我家儿子比你家儿子多考了 2 分”这种骂街式争吵。
不管是直接在生成结果的时候还是右上角给 Token 的调用速度标出来,还是通过员工在各个渠道上的活跃,至少 Groq 相比于其他加速卡,被更多人看到。
体验过了 Groq 的生成速度之后,越看 GPT-4 越不顺眼了。
本文来自微信公众号:硅星GenAI(ID:gh_e06235300f0d),作者:椒盐玉兔