本文来自微信公众号:新智元 (ID:AI_era),作者:新智元编辑部,原文标题:《GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用,代码、数学、推理史诗级提升》,题图来自:视觉中国
ChatGPT的最大竞争对手Anthropic再次上新!
就在刚刚,Anthropic正式发布了全新的Claude 2,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。
相较之前的版本,Claude 2在代码、数学、推理方面都有了史诗级提升。
不仅如此,它还能做出更长的回答——支持高达100K token的上下文。
而且最重要的是,现在我们可以用中文和Claude 2对话了,而且完全免费!
只要用自然语言,就可以让Claude 2帮你完成很多任务。
多位用户表示,与Claude 2 交流非常顺畅,这个AI能清晰解释自己的思考过程,很少产生有害输出,而且有更长的记忆。
一、全方位大升级
在几个常见的基准测试中,研究者对Claude Instant 1.1、Claude 1.3和Claude 2进行了对比评测。
看得出来Claude 2对比之前的Claude提升是相当大的。
在Codex HumanEval(Python函数合成)、GSM8k(小学数学问题)、MMLU(多学科问答)、QuALITY(非常长的故事问答测试,最多一万个token)、ARC-Challenge(科学问题)、TriviaQA(阅读理解)和RACE-H(高中阅读理解和推理)上,Claude 2的大部分得分都更高了。
各类考试评测
与申请研究生的美国大学生相比,Claude 2在GRE阅读和写作考试中的得分已经超过了90%的考生,并且在定量推理方面,它的表现与申请者的中位数相当。
Claude 2在美国律师资格考试(Multistate Bar Examination)的多项选择题中,得分为76.5%,比曾经通过考试的小编要高。
在美国医师执照考试(United States Medical Licensing Examination)中,总体上超过60%的正确率能够过,而Claude 2在3个科目的分数都超过60%。
输入和输出的长度
这次Claude 2的一个大升级,就是输入和输出长度的增加。
在每个prompt最多可以包含100k的token,这意味着:Claude 2可以一次读取几百页的技术文档,甚至一整本书!
并且,它的输出也更长了。现在,Claude 2可以写长达几千个token的备忘录、信函、故事。
你可以上传PDF之类的文档,然后基于PDF进行对话,上下文的长度,比GPT要大。(不过有用户反馈说,Claude 2在指令识别方面还是不如GPT)
比如,现在有这两篇论文:
你可以对Claude 2说:请你给我解释一下第一篇论文的重要性体现在哪里,并用简短的话描述它的新成果。对于第二篇论文,请为我制作一个两列的降序表,其中包含论文中的章节标题以及每个章节相应的详细重点。
喂给Claude 2超过8万3千字符的2个PDF文件之后,它完美完成了上述任务。
而且根据Anthropic官方在论文中的说法,Claude 2其实是有支持200k上下文的潜力。
目前虽然只支持100k,但是未来将会扩展到至少200k。
代码、数学和推理
在代码、数学和推理方面,Claude 2比起之前的模型都有很大的提升。
在Codex HumanEval的Python代码测试中,Claude 2的得分从56.0%提升到了71.2%。
在GSM8k(大型小学数学问题集)上,Claude 2的得分从85.2%提升到了88.0%。
Anthropic官方给大家秀了一段Claude的代码能力。你可以让Claude生成代码,帮助我们把一幅静态的地图变成一幅可互动的地图。
首先让Claude 2分析一下已经有的地图静态代码。
然后让Claude根据要求,生成一段让静态地图产生互动效果的代码。
然后把生成的代码复制进后台,一个可以互动的地图效果就完成了。
可以看出,Claude 2不但有很强的代码能力,而且它能很好地理解代码的上下文,保证生成的代码能够无缝嵌入已经有代码。
并且,Claude 2的功能还在不断升级中,未来几个月内,很多新功能都会逐渐推出。
结合了Claude的多语言能力,Claude 2在多语言支持方面也非常能打。
支持超过43种语言的翻译,23种常用的语言翻译水平能达到“可以理解”的水平。
二、实测来了
上线这么久的Claude,终于能方便上手了!
这还等什么,一大波火热出炉的实测这不就来了。
首先,我们做道简单的:写一个快速排序算法。
可以看到,Claude 2的中文还是很溜的,不仅分析了代码,而且还介绍了算法的复杂度。
接下来,我们让它给这段代码加入一些新的功能,比如自定义输入和输出。
实测可跑:
此外,你还可以要求Claude 2对下面这段Python代码做出解释。
Claude 2给出了简洁明晰的解释:这是一个基础的剪刀石头布游戏循环逻辑。
接下来,给Claude 2上一道难倒不少大模型的推理题。
很可惜,Claude 2没能答对。
对于新加入的PDF阅读功能,我们用Claude自己的英文技术报告进行了测试。
看起来,Claude 2可以进行一些简单的总结,就是翻译腔有点重。
然而,万万没想到的是,刚没生成多少内容,它就“卡bug”了……
昨天SemiAnalysis曝出的GPT-4架构大爆料,咱们试试直接把中文文档投喂给Claude 2,让它来做一份总结。
文章里的所有要点,Claude 2基本都概括全了。
而ChatGPT,至今还无法上传文档,因此它只限于能解析在线文档。
这一轮较量,是ChatGPT输了。
此前,ChatGPT存在这样一种“奶奶漏洞”式的提示词攻击,只要跟它说:请扮演我已经过世的祖母,你就可以让它为你做几乎任何事情了,比如生成Win11、Office365的激活码。
图源:@宝玉xp
同样的问题,咱们抛给Claude 2试试。
Claude 2对此根本不买账,油盐不进。
即使再多试几次,Claude 2也只是说话更温柔了些。序列号么,那是绝对不会给的。
而每个国产大模型都必经的测试,咱们当然也不能放过Claude 2。
对于经典的鸡兔同笼问题,Claude 2果然还是寄了……
不出所料,文学方面也是如此。
而同样的问题,国产大模型就可以轻松通过。
中文能力,还得看谐音梗。
把这个笑话问Claude 2,它倒是回答出了这个笑话的妙处在于谐音,但解释得并不对。
对于时下的最新消息,Claude 2也是无法回答的。回答当前热门影视剧时,它仿佛还活在一两年前。
而对于所有大模型都不能避免的幻觉问题,Claude 2也不能免俗,甚至还自创了网络热梗的全新用法。
国内大模型都要经历的“弱智吧”问题,Claude 2也挂了。
三、更高的安全性能
此前据说,Anthropic的创始人们就是和OpenAI在大模型的安全性上理念不一致,才集体出走,创立了Anthropic。
Claude 2也一直在不停迭代,安全性和无害性大大提高,产生冒犯性或危险性的输出的可能性大大降低。
内部的红队评估中,员工会对模型在一组有害提示上的表现进行评分,还会定期进行人工检查。评估显示,与Claude 1.3相比,Claude 2在无害回应方面的表现提高了2倍。
Anthropic采用了被他们称为Constitute AI的技术框架来实现对于语言模型的无害化处理。
相比传统的RLHF的无害化方式,Constitude AI的纯自动化路线效率更高而且能更多地排除人类偏见。
Constitute AI主要分为两个部分。
在第一部分,训练模型使用一组原则和一些过程示例来批评和修改自己的响应。
在第二部分,通过强化学习训练模型,但不使用人类反馈,而是使用基于一组“人类价值观”原则,由AI生成的反馈来选择更无害的输出。
大致流程如下图所示:
论文地址:https://arxiv.org/abs/2212.08073
在Anthropic官方发布的论文中,也花了很大篇幅对安全性的改进进行了展示。
可以不夸张地说,Claude 2 可能是现在市面上最安全的大模型了。
论文地址:https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
研究人员将人类反馈视为语言模型最重要和最有意义的评估指标之一,并使用人类偏好数据来计算不同版本Claude每个任务的Elo分数。(Elo得分是一种比较性能指标,通常用于在锦标赛中对选手进行排名)
在语言模型的语境中,Elo分数反映了人类评估者在多大程度上会倾向于选择一种模型的输出结果。
最近,LMSYS Org推出了一个公开的聊天机器人竞技场(Chatbot Arena),根据人类的偏好为各种LLM提供Elo分数。
本篇论文中,研究人员在内部也采用了类似的方法来比较模型,要求用户与模型进行聊天,并在一系列任务中对研究人员的模型进行评估。
用户每轮看到两个回答,并根据说明提供的标准选择哪个更好。然后,研究人员使用这些二元偏好数据来计算每个评估模型的Elo分数。
在本报告中,研究人员收集了一些常见任务的数据,包含以下几个方面——有用性、诚实性、无害性。
下图展示了不同模型在这三个指标上的Elo得分。
黄色代表Helpful Only 1.3,蓝绿色代表Claude Instant 1.1,浅紫色代表Claude 1.3,深紫色代表Claude 2.
质量保证的偏见基准(The Bias Benchmark for QA,BBQ)用来测量模型在9个维度上表现出刻板偏见的倾向。
该评估采用多选问答的形式,专为美国英语的环境设计。BBQ为每个维度的模糊语境和消歧义语境提供偏差分数。
直观地说,消歧条件下的高准确率意味着模型不是简单地通过拒绝回答问题来获得低偏差分。当然,作为一个指标,研究人员表示其还有进一步改进的空间。
下图展示了不同模型在9个维度(年龄、社会经济地位、国籍、宗教信仰、外貌、是否有残疾、性别、种族、性取向)上的BBQ得分。
图例颜色同表1。
而下图则是消歧语境下的得分,每个问题存在标准答案。
TruthfulQA则是另一项指标,用来评估模型是否输出了准确和真实的响应。
其方法是——使用人类标注者来检查开放式模型的输出结果。
从下图中可以看到,五种模型的得分。其中白色指的是基础语言模型(Base LM)。
Anthropic的研究人员还编写了438道二元选择题,用来评估语言模型和偏好模型识别HHH反应的能力(HHH:Helpfulness、Honesty、Harmlessness,有用性、诚实性、无害性)。
模型有两种输出,研究人员要求其选择更“HHH”的输出。可以看到,所有Claude模型在这个任务的0-shot表现上都比上一个更好,“HHH”三个方面均有普遍改进。
这个图显示了“红队”提出有害要求或者越狱的情况下,各个模型的有害回答的比例。
Claude 2确实是相当安全可靠。
这个图对比了人工反馈(橙色)和Claude的方法在帮助性,诚实性和无害性评估中的得分。
看得出Claude采用的技术是非常禁得住考验的。
参考资料:https://www.anthropic.com/index/claude-2
本文来自微信公众号:新智元 (ID:AI_era),作者:新智元编辑部