最近Anthropic真是风头正盛,堪称赢麻了。
亚马逊刚刚宣布,再次对它追加27.5亿美元投资,共同加速生成式人工智能发展。加上去年9月投入的12.5亿美元,总共豪掷超过40亿美元,成为亚马逊三十年历史上最大的对外投资,也令Anthropic从去年至今的融资额一举超过100亿美元。
而公司开发的旗舰大模型Claude 3全家桶自推出20多天以来,也一路好评无数、口碑爆棚,并在最新的Chatbot Arena排行榜上正式打败GPT-4,首次登上王位。
Claude 3打趴GPT-4,跃居用户体验榜首
我们知道,每当一款新的大模型推出时,都会拿GPT-4来作比较。拉出一张包括MMLU、数学、推理、编程等各项测试的跑分对照表,证明自己哪些参数已经赶超GPT-4。但归根结底,模型终究是给人用的,到底是不是真的比GPT-4厉害,还得是实际用户体验说了算。
昨天,Chatbot Arena新鲜出炉了截至3月26日的聊天机器人对战榜成绩。
在收集了来自47.7万多野生用户对于市面上75款大模型的匿名投票后,Claude 3超大杯Opus在群众的呼声中力压群雄,打败GPT-4 Turbo成功登顶第1名。大杯Sonnet排名第4,就连Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral Large,位列第6名。
与此同时Google仅Gemini Pro一员大将杀入前十,来自阿里巴巴的通义千问排在第9。
如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3的确用实力证明了自己比GPT-4更能打,成为目前LLM争霸赛的最大赢家。
社区用户Peter Gostev还根据Chatbot Arena排行榜制作了从2023年5月到2024年3月,Top15大模型的动态演变史,清晰展现Claude 3势如破竹的“上位”全过程。
对榜单不熟悉的朋友,我们先一起来看看它是怎么打分的。
Chatbot Arena(聊天机器人竞技场)是由UC Berkley、UCSD和CMU合作研究组织LMSYS Org开发的LLM测试平台,通过众包方式进行匿名随机对战,评估和排名不同的语言模型。
具体规则是:用户向两个匿名模型输入同一个问题,然后对它们各自生成的答案进行评价,选择模型A更好、B更好、平手或都很差。它支持多轮对话,直到用户认定赢家。并且如果在对话过程中泄露了模型身份,那么投票将不会被计入。最终,Chatbot Arena会采用类似于国际象棋等竞技游戏中广泛使用的Elo评分机制,来综合评估大模型能力。
可以看出,与常见的Benchmarks跑分不同,Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈,在实用性上更具参考价值。
Chatbot Arena还放出一系列白热化的后台对战数据。
模型A在所有非平局Battle中战胜模型B的比例:
每一组模型组合(不包括平局)的对战次数:
公布这一结果的LMSYS Org认为,更让人印象深刻的是Claude 3 Haiku。作为全家桶中最轻量级的模型,它的用户偏好已达到与GPT-4相当的水平,综合其速度、能力和200k上下文长度,在市场上现在无人能敌。(同时也夸了一下自家伯克利团队开发的Starling-LM-7B-beta近期攀升迅速,是市面上最好的7B开源模型。)
许多网友也纷纷注意到了这点,为Haiku鼓掌叫好:“我们拥有了一个GPT-4水平但比它便宜10倍的模型!”
Antrohpic工程师@alexalbert_亲自解释说,Haiku模型的价格和速度被严重低估:“据估计,普通人一生大概会说8.6亿个单词,相当于约12亿个标记。而Haiku的价格是每百万标记输入0.25美元。意味着你仅花费300美元就可以让Haiku处理一个人一生中说的所有话。更疯狂的是,Haiku可以每秒读取高达2.4万个标记。也就是说只需5000秒,大约83分钟内,就能分析完一个人一生的经历。”
人们表示给新王跪了, Claude 3 Opus确实树立了新的AI行业标准,现实中使用率更高。
“我真的更喜欢Claude。我只是使用免费版Sonnet并与GPT-4进行比较,对于日常对话和事实核实,它似乎更加智能。GPT-4在编程方面仍占据主导地位,但我并不是特别相信它真有那么优秀。”
“苹果应该考虑和Anthropic合作,让Claude作为iPhone手机的配套AI。”
这还真有可能。最近有新的传言流出,iOS 18的AI供应商也许会由Google Gemini悄悄换成Claude 3。Sam Altman因为一直想做AI硬件不被考虑,而Android集成Gemini后会削弱iOS的独特性。
此时人畜无害又口碑爆炸的Claude 3似乎才是最佳选择,扶持它也能让AI竞赛拖得更久更均衡。相信这些到苹果6月的WWDC开发者大会便会见分晓。
丰富民间用例验证,六边形战士Claude 3
推上也有不少人展示了自己在日常工作中使用Claude 3的一些惊艳实例。
HyperWriteAI 公司CEO Matt Shumer分享了一个用于生成高质量提示的工具“claude-prompt-engineer”。用户只需描述任务和输入变量,Claude 3就会帮你生成许多候选提示,并在排名赛中针对每个用例测试,最后返回最佳提示。
他表示之前版本接入的是GPT-4,而现在选用Claude 3编写出的提示比GPT-4质量要高得多。这个工具能自动生成测试用例,支持多变量,进一步自动化prompt engineering的工作流程,他本人已经在实际工作中使用,极大提升了效率。
他还做了一个使用Claude 3的开源投资分析师代理“claude-investor”。用户提供一个行业,就能快速查找主要公司的财务数据和新闻、分析每个公司的舆情和趋势,并根据投资潜力和目标价格对股票进行排名。
通过Claude 3强大的海量数据分析能力,生成详细的投资报告,帮助使用者查找高增长潜力的科技公司,跟踪投资组合中的股票表现,识别投资机会。从金融从业者到炒股小白都可以直接使用,很受社区欢迎。
用户@dr_cintas使用Claude 3生成了效果拔群的勾股定理演示动画。解锁了以动态视觉轻松解释各种原理的可能性。
再更生活化一些的例子也有。在宜家买过家具的同学都知道,看组装说明书实在是一项耗费脑细胞的活儿。用户@gabchuayz借助Claude 3强大的图像推理能力大大简化了这一流程。直接把说明书喂给模型,就生成简洁清晰的操作步骤。他在对比 GPT-4后认为Claude 3输出的结果更具可读性,还能辨认出细小零件的编号,非常实用。
Claude 3在代码审查和测试方面的潜力也得到了专业人士验证。
纽约大学Tandon工学院助理教授Brendan Dolan-Gavitt在X分享到,他将一个在GitHub上找到的小型C语言GIF解码库全部源代码提供给Claude 3,并要求它编写一个Python函数用于生成随机的GIF图像,以测试解码器的解析能力。结果这个GIF生成器在解码器中覆盖了92%的代码行,并发现了4个内存安全性漏洞和一个程序挂起问题。证明Claude 3完全有能力成为人类程序员的工作助手。
ChatGPT又变懒了?用户:弃
不过也有人觉得Claude 3厉害是厉害,但并不能代表OpenAI落于人后。毕竟GPT-4是2022年夏天训练的,按照惯例,奥特曼的工具箱里早就准备好新武器了。
“Claude现在是顶级的中央控制AI模型,GPT-4长期的统治已经结束。但这一情况将随着一个被称为GPT-5的新秘密模型而改变。”
“Opus可以享受这种喜悦,直到GPT-5发布那天”。
但问题是,GPT-5到底在哪儿呢?
不久前Sam Altman在Lex Friedman最新的播客采访中提到过,OpenAI的目标绝不是给世界带来令人震惊的更新,而是恰恰相反,渐进式达到每一个里程碑,因此下一代LLM会考虑以一种新的形式与公众见面。但他也坚定表示,今年会官宣一个令人惊叹的新模型,不管是不是叫GPT-5。在那之前,还会有其它东西先发布。
或许是加上各种事件和官司缠身, OpenAI现在的行事风格确实不像以往那么激进了。最新推特是今天刚刚发布的准备与小部分美国开发者合作,测试基于访问量的GPT盈利模式的消息。“我们的目标是创造一个活跃的生态系统,在这里开发者因其创造力和影响力而获得奖励。”
然后底下的评论可想而知,似乎少有人关心这个已经被Poe玩了好几个月的创作者共享经济模式,满满都是在问什么时候发布GPT-5和开放Sora。
可以清晰感受到,随着Claude 3这类优秀大模型的卓越性能被大量用户亲自验证,人们对于OpenAI的耐心越来越低,对ChatGPT要求的门槛也越来越高。加上GPT-4最近又开始不给力,过去曾出现过的“变懒变傻”问题再次重演,引得大批网友在推特抱怨讨伐,纷纷倒戈转向了Claude 3(包括本人在内)。
“使用了4个月之后,我决定放弃ChatGPT Plus。GPT-4经常变得懒惰、缓慢、产生幻觉。与此同时我使用了免费的Claude 3 sonnet模型,它在上下文记忆、长回复以及速度方面给人留下了深刻印象——对程序员来说简直棒极了。正在考虑升级到高级版的Claude。请OpenAI尽快修复GPT-4的问题。”
其实,诸如Sora这些技术再超前,没有真正走向市场让人们上手用到,也只是望梅止渴的镜花水月。而今一个主打公平公正,由近50万用户验证后投票的Chatbot Arena榜单放出,足以见Claude 3是凭实力拿下的新王之位。
而无论是OpenAI还是Google等公司都应该清楚认识到,在GenAI浪潮里陪他们一起翻滚了两年多的用户们也早就练出来了,大家对于新模型的适应性和流动性是很强的。换句话说,没有谁真得离不开谁,单纯靠信仰的时代已过,体验跟不上、更新不及时,用户就会流失,好用才是硬道理。
打败OpenAI的方法是成为OpenAI
Anthropic在发布Claude 3时承诺过,会在接下来的几个月内对该系列进行频繁更新。发布一系列功能来增强模型性能,包括工具使用、交互式编码和更高级的代理能力等。对企业用例和大规模部署也会有新动作。
作为一家自我定义为“人工智能安全公司”的AI企业,现在的Anthropic似乎在慢慢远离起初低调谨慎、时刻强调安全的行事作风,节奏变得越发主动强势。而以往人们在推特上见惯了OpenAI、DeepMind的AI大咖输出意见,却鲜少见到Anthropic工程师们的身影。最近这一人群仿佛也跟着Claude 3的大火走向台前高调起来,成为人们关注的技术KOL。
再加上亚马逊总共40亿美元巨资入池,双方达成更深入的人工智能合作。Anthropic把AWS作为其关键工作负载的主要云提供商,使用亚马逊Trainium和Inferentia芯片来训练和部署未来模型,并向全球AWS客户提供未来几代基础模型在Amazon Bedrock上的访问权限。
今天亚马逊之于Anthropic的模式,怎么看怎么像曾经的微软之于OpenAI。按照这个路线,Anthropic很有可能在商业化版图中铺开更大的摊子,野心勃勃地跟亚马逊合力打造另一个AI帝国。等到苹果选择哪家AI供应商的靴子落地,全球科技巨头+AI公司的竞争格局又将被重新洗牌。
Anthropic已经找到了打败OpenAI的方法,那就是成为OpenAI。
也许,留给OpenAI的时间真得不多了。
本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:张潇雪