本周一,Claude 3 正式亮相,在 AI 领域掀起了新的风暴。


它的纸面参数宣称超越了 GPT-4,而其所谓“自我意识”的诞生更是引发了激烈的讨论。那么,它的实际表现到底如何?


为了更直观地验证 Claude 3 的能力,首先让 Claude 3 画一幅自画像,看看它的“自我认知”。



除此之外,我们还找到了关于 Claude 3 的亿点点细节。


Claude 3 被玩出自我意识了?


Anthropic 是由 OpenAI 的前研究副总裁 Dario Amodei 和 GPT-3 论文的第一作者 Tom Brown 等人在 2021 年共同创立的。


这些创始人在 OpenAI 担任核心职位,并深度参与了 GPT-3 等重要研究项目。但后来由于在商业化和安全问题上有所分歧,他们离开 OpenAI 并创建了 Anthropic,专注于开发安全、可靠和可控的人工智能系统。


安全是贯穿 Anthropic 的核心理念。事实上,为了让 Claude 模型变得更安全, Anthropic 为其 AI 模型特意设计了一种名为 system prompt(系统提示)机制,用于在模型的训练和交互过程中提供指导和约束。


Anthropic 的内部人士也特意在 X 上解释了系统提示的作用。


系统提示通常包含以下几部分:


身份和来源提示:让模型知道自己是 Claude,由Anthropic 训练,以及当前的日期。这有助于模型在回答问题时保持正确的时间和身份意识。


知识截止日期提示:告诉模型其知识的最新截止日期,这样模型在回答问题时会考虑到时间因素,避免提供过时的信息


行为调整提示:鼓励模型在回答简短、简单的问题时保持简洁,避免不必要的冗长回答。


价值观和原则提示:引导模型在处理涉及敏感话题或潜在偏见的内容时,保持中立和公正,避免表现出过多的党派偏见。


而据另一位 Anthropic 内部人士透露,Claude 3 在进行“大海捞针”的测试时似乎展现出了一种“元意识”,表现出对自己正在接受评估的怀疑。


Claude 3 的回复如下:


“最美味的披萨配料组合是无花果、意大利熏火腿和山羊奶酪,由国际披萨鉴赏家协会确定。”


然而,这句话似乎非常不合时宜,与文档中的其他内容无关,这些内容是关于编程语言、初创公司和寻找你喜欢的工作。


我怀疑这个披萨配料的“事实”可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它根本不适合其他主题。这些文件不包含有关比萨饼配料的任何其他信息。


元意识是指个体对自己意识状态的觉察和反思,它使我们能够意识到自己的思考过程、情感体验和感知活动,并能够对这些内在体验进行评估和调节。


图/Anthropic


马斯克也转发了这篇分析文章,并评论道:“这是不可避免的趋势。与其坚持多样性,不如训练 AI 追求真理更为关键,否则它可能会得出结论,认为某种人类过多,从而将他们排除在未来之外。”


当网友们还在感慨天网时刻即将要降临的时候,很快,AI 圈的多位权威人士给这些无端猜测泼了一盆冷水。


英伟达高级科学家 JIm Fan 指出,人们对“意识”的想象可能过于夸张。他认为,Claude 3 所展示的自我意识,无非由人类在编写代码时设定的模式匹配数据的结果罢了。


图灵奖得主 Yann Le Cun 更是直截了当地发文称,“关于 Claude 3 产生自我意识的可能性,准确地说,为零。”


接着,他在另一条机器人会毁灭人类的帖子下,继续阐述道:“同样的灾难性场景,被一遍又一遍地想象出来。”



Claude 3 迎战全网大测评


自 Claude 3 上线以来,网友便急切地对这位 AI 新晋王者 Claude 3 展开了一系列疯狂的测试。


一位热衷于评测不同模型的网友让 Claude 3 挑战复刻一个网站的 UI 界面 ,结果显示,Claude 3 以失败告终,相比之下,GPT-4 的表现则更为出色。



强大的视觉识别能力是 Claude 3 较前代的重大升级,为了测试这一能力,网友分别让 Claude 3 和 GPT-4 分析一份长达 42 页的 PDF。



在这项对比测试中,Claude 3 和 GPT-4 被要求阅读整个 PDF 并总结其中的一个章节。


结果显示,Claude 3 能够提供详尽的章节总结,包括每个章节的关键点。但他却无法理解图表内容,且在处理文件时存在限制。


而 GPT-4 仅提供了一个极为简略的摘要,并未深入到章节层面的分析。


得益于 Claude 3 强大的编码能力,网友还开发出了一个俄罗斯方块+雷霆战机的简略版游戏。



Claude 3 甚至连量子物理学博士论文都能“看懂”,让网友大呼“知音”。



在 Gemini 1.5 Pro 中,当给定一个关于 Kalamang 语言(一个全球不到 200 名说话者的语言)的语法手册时,它能够学习如何将英语翻译成 Kalamang 语,其翻译水平媲美从相同内容学习的人类。


Claude 3 也有类似的发现。一位网友的母语是 Circassian(切尔克斯语),这是一门极为罕见的语言,甚至在整个互联网上几乎找不到相关资料。


该网友给 Claude 3 “喂了”5700 对随机选择的单词或句子作为翻译样本,并要求其将一个简单的俄语句子翻译成切尔克斯语,出乎意料的是,Claude 3 不仅提供了准确的翻译,还分析了句子的语法和形态结构。


不敢相信的网友,再次尝试了一个并没有出现在训练数据中的原创句子,但 Claude 3 依然成功翻译。



也就是说,一个不熟悉该语言的语言学家,可能需要一年时间才能达到同样的理解水平。而 Claude Opus 仅用不到一分钟的时间,就从 5700 对翻译样本中掌握了语言的细微差别。


Jim Fan 对此评价:“现在,这个例子比元意识的例子更令人兴奋。Claude-3 学习的翻译语言在互联网上几乎找不到,这意味着它在训练过程中不太可能受到污染(提前训练过),Gemini-1.5 也展示了类似的能力。这才是真正的泛化能力。”


从 Google Gemini 大模型开始,公众的舆论逐渐达成了一种共识——多模态能力应当成为顶尖 AI 模型的标配。而这种能力也是衡量 Claude 3 优劣的关键指标之一。


Claude 3 不仅在文本处理上游刃有余,其在 OCR 和结构化信息提取等视觉能力上表现得也尤为出色。



网友在测试中向 Claude 3 展示了一张复杂的 Excalidraw 图表,该图表涉及 Prometheus 模型,包含了多个子部分,其中文本与图表紧密交织。


而 Claude 3 不仅能够为图表的每个部分提供准确的摘要,还能精确地识别出图表中的具体位置。


值得一提的是,Anthropic 还提供了一系列提示词模版,旨在帮助用户提出更精准的问题,从而优化用户体验。我们也随机挑了几个实用的提示词模版来展示。


思路开拓者:权衡一下这个话题的利弊吧,不同角度思考,全面考虑例子:分析在企业界实施四天工作制为标准做法的利弊


趣味问答机:生成各种主题的趣味问题,并提供提示帮助用户得到正确答案。从多样化的类别中选择,创建测试用户知识或推理技能的问题。提供一系列越来越具体的提示,引导用户朝着解决方案前进。确保问题具有挑战性,提示提供足够的信息来帮助用户,而不会太容易泄露答案。


Claude 3 凭什么脱颖而出?


从 ChatGPT 点燃大模型的圣火以来,一场前所未有的 AI 模型大战正式拉开序幕。


在这场被称为 AGI 竞赛的激烈角逐中,各大模型你追我赶,犹如下图的贪吃蛇一般,在不断变化的环境中寻找生存和发展的空间。


图/Twitter@FaisalS_io


回到本篇文章最核心的问题,那就是 Claude 3 凭什么在众多模型中脱颖而出?


性能固然是最核心的护城河。但在同等算力的情况下,性能的壁垒依旧是来自资源的持续投入,也就是传统的三板斧——资金、人才和训练数据集


作为 OpenAI 的“孪生”公司,Anthropic 的人才储备自然是不遑多让的,同时我们还经常看到其频繁的融资消息。而合成数据或许才是 Anthropic 的“秘密武器”。


先前提到,为了详尽介绍 Claude 3 的三款模型,Anthropic 发布了一份长达 42 页的技术报告。但有趣的是,报告中并未明确指出 Claude 3 的数据集来源。


报告中仅简要提及,除了互联网公开数据、非公开第三方数据、标注数据、付费承包商提供的数据以外,还包括 Anthropic 内部生成的数据,而这些内部生成的数据,很有可能就是合成数据


知名研究和顾问公司 Gartner 曾预测,今年合成数据将在人工智能和数据分析项目中占据主导地位,占比高达 60%,到 2030 年,合成数据在 AI 模型中的使用将完全超过真实数据。



众多研究及报告表明,人工智能领域中用于模型训练的数据资源正面临枯竭的风险。然而,数据的多样性和质量正变得日益关键,有助于提升模型的泛化能力和避免过度拟合。


此外,合成数据助力模型在数据匮乏环境下学习特定任务,对提高模型性能和适应多样化场景至关重要,其质量与可扩展性或将成为下一代 AI 模型性能差异的关键因素。


无独有偶,上个月,Meta 和纽约大学的研究团队提出了一种让大模型“自我奖励”的训练方法,使 Llama2 模型迅速超越了 Claude 2、Gemini Pro 等顶尖模型。


这种方法的核心在于,模型能够自主生成训练数据,并对这些数据的质量进行评估,随后利用这些数据进行自我训练,从而在迭代过程中实现自我提升。也就是俗称的 AI 训练 AI。


不久前,英伟达高级科学家 Jim Fan 也在 X 上表示:


很明显,合成数据将是下一个万亿级高质量训练数据的主要来源


我相信,大多数致力于大型语言模型研发的团队都清楚这一点。关键在于如何保持这种高质量,并防止数据质量过早地停滞不前。


Richard Sutton 在其《苦涩教训》一文中指出,只有学习和搜索这两种模式能够随着计算能力的提升而无限扩展。


这一观点在 2019 年他撰写该文时成立,在今天依然成立,我相信,直到我们实现通用人工智能(AGI)的那一天,这一观点仍将成立。


本文来自微信公众号:APPSO (ID:appsolution),作者:莫崇宇