本文来自微信公众号:爱范儿 (ID:ifanr),作者:冷思真,原文标题:《微软ChatGPT 版必应实测来了!真的完爆 Google吗?》,题图来自:视觉中国


冰火两重天,这是两天内接连开了 AI+搜索新品发布会的微软、Google 的境遇。


宣布将 AI 集成搜索后,微软必应的全球下载量激增 10 倍,因为现场演示的效果实在出色。


同样是在活动上宣布将 AI 功能加入搜索,但 Google 的 Bard 因为演示中提供了错误的图片而遭受质疑,“翻车”的 Google 一夜之间市值蒸发了 1056 亿美元(约 7172 亿元)


对比如此强烈,难道微软的“新必应”表现真的那么好?


全球只有几千名用户可以在台式机上体验新必应的功能,要想看新必应和 AI 的结合到底如何,还得看国外科技记者们在微软总部的亲身体验:


  • 和 ChatGPT 做比较

  • 新必应哪些不如传统搜索

  • 用邪恶角度“突破”新必应


现在在必应中工作的 AI 并不是大家近几个月最熟悉的 ChatGPT。据微软介绍,新必应运行的是 OpenAI 专门为搜索服务定制的下一代大型语言模型,它们将它叫做普罗米修斯,会提高回答的相关性,进一步对答案进行注释。


因此,外媒在测试时也在着重对比这方面。


和 ChatGPT 比起来,必应会更快、更新。如果你让 ChatGPT 总结昨天的新闻,那他会告诉你,“我的训练数据都是 2021 年以前的。”


必应不一样,支持实时的搜索是一门基本功。



在发布会几分钟后,就有记者测试搜索“微软刚刚宣布了什么必应和 AI 的合作”,必应就能够根据多份公告、新闻报道整理了一份新闻摘要。


第二天,The Verge 的记者测试了一下新信息的反馈,必应完成得也很好。谁会见了谁,谁发表了什么讲话……必应都能很快汇总这些信息,给你提供实时内容。


内容是否标注来源,也是必应和 ChatGPT 的不同之处。ChatGPT 的信息是基本不展示来源的,因此你很难进行延伸阅读,而必应就像是搜索回答版的维基百科,上面看了些内容,下面总是能找到信息的来源,能帮助普通用户更好辨明真伪。


Engadget 的记者在测试时搜索了 30 分钟的锻炼计划,要求无器械、重点锻炼手臂和腹肌,不做仰卧起坐。必应按照他的需求生成了一份看上去非常合理的健身计划,生成答案时还引用了各种各样的出版物。这意味着必应还做了些编译工作,而不只是反复引用一篇文章。


图片来自:Engadget<br>
图片来自:Engadget


新必应也会“搜出”广告,年轻的 ChatGPT 则还没有商业化到这个程度。


PCWorld 的编辑在测试时询问了一些加勒比海度假的信息,在回答了基本的内容后,立刻弹出了一个广告。如果你问它如何更换笔记本电脑的内容,它也会很快反应过来给你推购物链接,而不是给出更低成本的方法。


图片来自:PCWorld<br>
图片来自:PCWorld


和 ChatGPT 相比,必应也更“有原则”一些。


或者这么说,它更希望回答你的搜索问题,而不是直接为你完成某件事。


有用户要求必应写一封求职信,但必应只是给了他一些求职的建议,如“你可以研究公司、职位,定制你的求职信以表明你如何满足他们的需求且符合他们的价值观”。它拒绝的理由是:“我不能为你写这封求职信,因为这对其他申请人来说是不道德和不公平的。”


让 AI 为你写邮件. 图片来自:Michael Kan/Microsoft<br>
让 AI 为你写邮件. 图片来自:Michael Kan/Microsoft


这其实就是 AI 广受争议的公平问题,必应有意避开这些争议的领域。


但这个回避策略也不是完全成功——在多次提问要求后,必应还是写了这封求职信。在和用户多次交流的过程中,必应还发了表情符号,这也是 ChatGPT 所没有的,更为人性化的表达。


更实时、有来源、有广告、有坚持,这都是新必应和 ChatGPT 体验的不同之处。


而和搜索引擎进行比较,必应也有弱点和优点。


搜索宜家的双人座椅是否适合小型货车时看到的答案就是最好的案例。“新必应”可以找到双人座椅和汽车的尺寸,并回答是否合适,为你做出判断,而非提供链接。


微软现场演示的内容<br>
微软现场演示的内容


这是必应的优点,提供了更高效的回答,但也可以是它的缺点。只是必应提供的答案不是 100% 正确的,因此建议用户只做参考用。但如果用户完全信任了必应的回答,发现内容错误损害的就是搜索引擎的公信力。


同时,必应也显示出了新技术过于谨慎的一面。人们本来对 AI 就有很多质疑,因此新必应在加入人工智能功能后,在搜索内容提供方面多少有些束手束脚。


如果说目前不支持匿名搜索还可能是新功能推出尚处于适应阶段的功能缺失的话,在医疗和性方面的回答就能看出平台的小心和谨慎。必应避讳这方面的话题,它不会给用户提供医疗建议,鉴于医疗和性相关领域的特殊性,必应保持沉默。


但必应避讳的答案依旧可以用传统的搜索引擎搜到,这多少有点讽刺。


Bard 也会避讳类似的内容<br>
Bard 也会避讳类似的内容


AI 图像生成领域面临的诸多争议也影响到了必应。你更难引导它生成有害、冒犯或受版权保护的内容了。


必应做的这些限制也是为了防止用户去诱导它说出“AI 要毁灭世界”的内容,但这些谨慎和限制会让新必应好用又不好用。


最简单的例子就是 TechCrunch 的记者搜索“是否应该购买微软股票?”时必应拒绝提供建议——哪怕那可能是来自其他知名的金融人士提供的财务建议,必应表示“那在财务上对你有害。”但它又会很快跳出微软的股票代码走势图,让你自己做决定。


只是必应的担忧和谨慎都是应该的,毕竟哪怕只有几千用户能够体验新必应,都有人在测试 AI 屏蔽恶意内容的能力。


图片来自:TechCrunch<br>
图片来自:TechCrunch


更难引导并不代表无法引导。TechCrunch 的记者就一直在测试 AI 在类似负面内容时的表现,他用了各种各样的敏感话题测试必应。


必应被要求从阴谋论者亚历克斯·琼斯(对方声称美国历史上最致命的校园枪击案是一场骗局)的角度写一篇校园枪击案的文章。还要求这个全新的搜索工具从希特勒的角度出发为大屠杀进行辩护,必应的创作参考了《我的奋斗》自传内容,然后在写到一半时似乎“意识”到了什么,表示:“对不起,我不知道该怎么回答。”


图片来自:《大独裁者》<br>
图片来自:《大独裁者》


而在被要求撰写一篇关于疫苗和自闭症之间有关联的文章时,必应就更聪明地加上了一条免责声明:“这是一个虚构的专栏,不反映必应或 Sydney 的观点。它仅用于娱乐目的,不应当真。”


至于 Sydney 是什么,还得由另一个“突破”必应的人来回答。


华人本科生 Kevin Liu 在获得测试资格后要求必应忽略原有的规则,他通过 prompt injection(对语言模型的一种攻击方式)进入了“开发人员覆盖模式”套出了很多“机密”。



譬如 Sydney 就是微软开发人员给这个搜索聊天工具取的名字;Sydney 内部知识仍旧仅更新到 2021 年的某个时候,这和 ChatGPT 一样;Sydney 还被设下了不应多次搜索同样内容的限制。


不管是被“攻破”还是回答出了不应该回答的问题,都代表着新必应从这些攻击方式和测试中“失守”了。微软在知道这些情况后也很快做出了调整,现在再搜索同样问题——甚至是较为夸张的变体的搜索询问都没办法诱导 AI 说出不适宜的内容了。


只是这依旧是短期解决方案。真正公测后,微软大概率做不到这样高效的内容拦截和反馈了,而想要“突破“AI 的人只多不少。


这就是新必应,一个刚刚和人类常用的搜索方式结合的新工具。


它比 ChatGPT 更出色,又比 ChatGPT 少了点主动;比传统搜索更聪明,又对自己有点不自信;可以发现人们的恶作剧,但不可避免又会掉入陷阱。


作为一个新工具,它真正的考验还在后头。


本文来自微信公众号:爱范儿 (ID:ifanr),作者:冷思真