因为它要求玩家掌握、理解他人的观点以及背后的动机,制定复杂的计划并及时调整,然后应用语言与他人达成合作,最后说服他们建立伙伴关系和联盟等。
对沟通、信任和背叛的关注,使外交与围棋和国际象棋等更注重规则的「游戏」截然不同。
然而Meta的最新研究表明:外交官的活儿,AI也很可能能干了!
在2022年8月至10月进行的线上外交游戏比赛中,CICERO在所有「选手」中高居前10%。它的平均得分为25.8%,是其82名对手平均得分(12.4%)的两倍还多。
更加值得一提的是,在实际的比赛过程中,没有一名玩家——发现是人工智能在打比赛!
如今,这项最新成果也以论文的形式发表在了Science上。
CICERO的推出,必将成为自然语言处理领域的一项重大成就。
因为这预示着人工智能有潜力「更好、更自然地与人类合作」,代表着人类向AGI迈进的一大步。
吊打90%人类,无人发现AI参与
《外交》是一款七人制经典策略游戏,可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合,由美国著名玩具公司孩之宝(Hasbro)于1950年代开发。
通过对20世纪初欧洲七大国的「角色扮演」,玩家需要与其他选手建立信任、谈判和合作,并尽可能多地占领领土。
为避免因对手的反击而被阻止,玩家会私下交流、讨论潜在的协调行动,然后将他们的行动付诸纸上,遵守或违反对其他参与者的承诺。
这样一款充满欺骗与权术的游戏,也被一些玩家视为失去朋友的理想方式,堪称「友尽赛」!
正如上文所言,与国际象棋和围棋等游戏不同,外交是一种更关乎于「人」而不是「规则」的游戏。
如果模型无法识别某人可能在虚张声势,或者精准识别其他玩家某步棋中的攻击性,它显然会很快输掉比赛。
同样,如果它不像一个真人那样说话,表现出同理心、建立关系、谈论游戏,它就不会找到其他愿意与它一起工作的玩家。
在过去的几十年里,研究人员一直在构建一种自然语言交流能力的「AI外交官」。然而因为这一重大挑战已经远远超出了现有AI的能力范畴,因此从来没有一名研究员成功过。
直到近期CICERO的横空出世,才彻底颠覆了这个事实。
CICERO本质上是一台「聊天机器人」,可以与其他外交玩家沟通,从而在游戏中采取有效行动。
西塞罗则是一名古罗马著名政治家、哲学家、演说家,诞生于公元前106年1月3日,以善于雄辩而闻名于罗马政界。
Meta将在这款AI模型取名于此,意义不言而喻。
马尔库斯·图利乌斯·西塞罗
2022年8月至10月,CICERO在webDiplomacy组织的线上《外交》比赛中,共参加了40场比赛,在所有参与者中成绩高居前10%;在打了五场或更多比赛的19人中,西塞罗则排名第二。
40场比赛中,CICERO的平均得分为25.8%,是其他82名对手平均得分(12.4%)的两倍还多,并将其战略对话和游戏能力展现得淋漓尽致。
会思考又能表述,如此AI谁能不爱?
CICERO基于一个27亿参数的类BART语言模型,该模型根据来自互联网的文本进行预训练,并使用 webDiplomacy.net上在线玩的4万多场外交游戏的数据集进行了扩充。
这些数据中还包含玩家之间交流时产生的超过1200万条消息。
CICERO的模型主要由两部分组成,分别是「战略推理」和「自然语言处理」。
两项技术的整合使CICERO能够针对玩家的动机进行推理并制定策略,然后使用自然语言进行交流,达成一致以实现共同目标,形成联盟并协调计划,主要体现在「合作」、「谈判」和「协调」三方面。
例如,CICERO可以推断在游戏的后期,它将需要某个特定玩家的支持,然后制定策略来赢得此人的青睐——甚至识别该玩家的风险和机会。
对话感知策略模块能够帮助CICERO预测其他玩家可能采取的行动,以及别的玩家认为CICERO可能采取的行动,给定他们过去的对话和游戏板的状态。
由此,CICERO将根据这些预测为自己和其他参与者制定互惠互利的计划。这些规划不仅能让CICERO找到互利合作的机会,也能帮助它在无法合作的时候找到有效的举措。
CICERO中有一个可控对话模型,它与控制对话生成的战略推理算法相结合。
可控对话模型允许CICERO在一组精心选择的计划中进行对话,通常是对CICERO和其他玩家都有利的计划。
CICERO的对话深深植根于正在进行的游戏中的自由形式对话中生成的。
例如,CICERO可能会与另一位玩家协商战术计划,向盟友保证其意图,讨论游戏中更广泛的战略动态,甚至只是进行随意的闲聊——包括几乎任何人类玩家可能会讨论的内容。
「西塞罗在使用自然语言与外交人员谈判方面非常有效,以至于他们往往更喜欢与西塞罗合作,而不是其他人类参与者。」Meta在自家的Twitter中表示。
Meta AI副总裁兼首席人工智能科学家严乐存则认为,「能够在像外交这样战略极其复杂的游戏中上演人类级别的表现,预示了人类与人工智能合作的巨大潜力」。
虽然CICERO只能玩外交,但这项成就背后的技术却与许多现实世界的应用息息相关,例如通过规划和RL控制自然语言的生成,可以缓解人类与人工智能模型之间的沟通障碍。
例如,今天的人工智能助手只能进行简单的问答,比如告诉你今天的天气等,但如果他们通过长期对话教你一项新技能呢?
亦或者想象一个视频游戏,其中的非玩家角色 (NPC) 可以像人们一样自由计划和交谈——了解你的动机并相应调整对话,从而帮助你完成攻城掠地的任务。
当然,就连Meta自己也承认「CICERO还不够完美」——在游戏的某些重要时刻,CICERO经常会出现十分离谱的错误。
因此,Meta选择将CICERO的代码开源发布,希望借助AI开发者社区的力量进一步完善它。
网友:请把小扎送上法庭!
全球首款与人类同等水平的「AI外交官」的发布,也引发了网友们的热议。
不少网友纷纷表示:
「实在太期待这项研究接下来的发展了。」
「击败人类可以说是最人性化的游戏。这简直太迷人了…」
虽然CICERO初出茅庐,却也有人对这项「AI黑科技」在现实生活中的应用前景进行了展望:
「它能构建一个版本来帮助应对集体行动挑战吗,比如#COP28?」
该网友所言的「COP28」,应该是指第28届联合国气候大会。
在刚刚结束的27届气候大会上,经过持续数天的紧张谈判,各国代表最终同意设立一个基金机制,以补偿因气候变化引发的损失和损害。
此外,CICERO的推出也引发了不少网友的担心,「这将直接激励研究人员建立擅长欺骗的模型」。
「以模仿人类行为的方式欺骗并赢得外交游戏,可爱又有趣。」
「真不知道它还能用来做什么?我们需要警觉此类工具的发展。」
「人工智能很擅长创作艺术等。但现在,它的说服能力被『激活』了。」
「如果你能说服一个人,就能控制他们的选择,从而控制他们的生活。」
「因此最终结局会是——AI通过说服来奴役人类!」
最后,也有不少人逗比的网友调侃道:
「这东西靠谱吗?西塞罗最终可是被砍了头的!」
「请将小扎送到海牙(国际法庭)!」
就在前两天,因为将谎言陈述为事实,由Meta AI推出的大型语言模型Galactica上线仅3天便仓皇下架。如今CICERO的推出,可谓是再一次在AI科技圈掀起了层层波澜。
那么,你们看好这款「AI外交模型」的前景吗?评论区说说看!