本文来自微信公众号:计算广告(ID:Comp_Ad),作者:大数据仁波茄,题图来自:《终结者》


这两天,新上线的ChatGPT实在是太火了。首富马斯克一马当先,带着大家玩得不亦乐乎,看起来,人工智能的奇点就要到来了。没玩过的朋友,我也不多作介绍了,自行搜索即可。


图源:Twitter
图源:Twitter


作为一名二手人工智能从业者,好多人催我写写,人类是不是悬了?当然,人家源代码我没地儿看去,看了没人给讲也是一头雾水,外面那些信息,我看也半真半假。


所以,咱们也不讲什么技术框架,就从实际的使用案例来看看,这款现象级的AI应用,采用的是什么样的技术路线,能颠覆现有的哪些应用。


篇幅有限,今天只聊以下几个问题:


  • 这次的ChatGPT,为啥一下子这么猛?

  • 这家伙准备先颠覆谁,是搜索引擎么?

  • AI关底的图灵测试,马上要被KO了么?


ChatGPT这次为啥这么猛?


与其前一代相比,ChatGPT的效果太惊艳了。大家体会最深的一点,是机器人说的“像人话”了。这个像人话,有两层意思,首先是对一些知识性内容的回答准确率大大提升,这个例子就太多了,咱们随便贴两条:


图源:ChatGPT
图源:ChatGPT


图源:ChatGPT
图源:ChatGPT


您看这专业程度,至少比问我靠谱!它反映了什么技术进展呢?


自然语言处理的大模型,一直有个问题:如果完全无监督训练,无法甄别语料的真假和质量;这次ChatGPT从回答质量上有质变,应该是对某些高质量内容做了加权,采用了类似有监督训练的方法。从结果上来看,是相当成功的。


最让我感到惊讶的,是ChatGPT这次在伦理方面给出了诸多令人称赞的限制,不用说,这肯定也得有点监督。除了大家熟悉的“未来预测类问题不作答”以外,下面这两个例子的对比,也相当出彩:


图源:ChatGPT
图源:ChatGPT


图源:ChatGPT
图源:ChatGPT


除了内容,ChatGPT回答的条理性和语言流畅度也特别好。基本上会把各方面的信息综合成一二三点的模板,颇有点领导讲话的派头。因此,我认为在语言生成的结构上,也应该是特意选择了一些高质量的严肃帖子,同样采用某种程度的有监督学习。


所以你也能看出来,它说话老是脖子冲南脸冲北的老干体,一点儿也不像在论坛里混出来的语言风格。


后来有消息说,ChatGPT这回采用了强化学习的方案,而强化的具体做法,就是找几个人盯着结果标注,这本质上跟有监督意思也差不多。


ChatGPT将首先颠覆谁?


那么,ChatGPT是不是能够如很多人所期盼的那样,成为搜索引擎的杀手呢?


熟悉搜索的朋友应该了解,搜索查询分为两类:信息型搜索(Informational search)和浏览型搜索(Navigational search),咱们分别来看看。


信息型搜索,就是要找某个具体的信息或知识,要求当然就是准确、清晰。从清晰性来说,ChatGPT给的这种结构性呈现,比传统搜索引擎强多了。可是从准确性来说,坦率地说,目前还差点儿,经常会有些似是而非回答,关键是——人家还倍儿自信:


图源:ChatGPT
图源:ChatGPT


图源:ChatGPT
图源:ChatGPT


图源:ChatGPT


特别是中间那个,给我气乐了:要这么找富婆,恐怕活不过正月十五。


再来说说浏览型搜索,说白了就是用户给个关键词用搜搜引擎帮忙逛街呢,这时候不要求信息每条都准确,但是全面性和实时性很重要。


拿实时性来说,看看下面这两个例子,这个模型目前还是做不到准实时更新的,并且可能因为训练成本相当高,目前其信息的横截面,应该还停留在去年的《纽约时报》:


图源:ChatGPT


从语言相关的信息覆盖度来看,ChatGPT说只有英文语料,中文的问答都是通过机器翻译转换成英文进行的。这一点也通过实测得到了验证,如果要用到只有中文语料中才有的背景知识,它基本上回答得是驴唇不对马嘴的:


图源:ChatGPT
图源:ChatGPT


图源:ChatGPT


所以,总结一下:我认为,ChatGPT对于搜索引擎来说,肯定算是一个重要对手了。只不过,由于用单条回答替代了信息罗列,对准确性的挑战相当大,目前还是任重道远;另外,现有的技术栈看起来还不能支持准实时的信息索引,这对其实用性限制非常大。


(顺便说一下,关于秦明夜走瓦砾场的事儿,普遍认为是被宋江所害,然而金圣叹认为,是花荣出的主意。)


然而,目前的ChatGPT,替代维基百科、Stackoverflow这种非实时专业信息社区,前景十分光明。这不,Stackoverflow应该已经感到了寒意,开始禁止上传ChatGPT生成的内容了。


图源:Stackoverflow
图源:Stackoverflow


当然,对那些情绪性、非专业性的图文社交网络,比如微博、Twitter,这么个说话人五人六、又不知疲倦的机器人,很可能给整个社区内容生态带来巨变,那就不是颠覆了,有可能直接就给干挺了!


图灵测试要被通关了么?


最后,再说说图灵测试的事儿。


ChatGPT一出,有群众惊呼:图灵测试要被终结了。我的看法是,这恐怕还是大大言过其实了。


图灵测试的标准,其实远超普通人的想象。要想让计算机聊一会不露馅儿,关键并不在于写代码、问攻略这些专业问题,而在于人类看起来非常浅近的一些日常聊天。


会聊的人,聊一两句对方就现原形了。比方说,我问ChatGPT的这两个问题,你看看它怎么回答的:


图源:ChatGPT
图源:ChatGPT


图源:ChatGPT


前一个问题,正常的人类回答多半是:“你为啥会关心1.25亿这个奇怪的数啊?”


后一个问题,正常的人类回答应该是:“这事儿哪能提醒领导,多尴尬呀!”


看到这两个问题的回答,我知道,虽然ChatGPT在理解和表达上已经取得了长足的进步,但是一些核心的困难点还是如常,并不容易解决。


当然,也没必要要求人工智能一定要通过图灵测试,即使通过不了,它潜在的商业应用场景也很多了。只是客观地说,在目前的技术栈和方法体系下,通过图灵测试,短期内我认为还看不见希望


毫无疑问,ChatGPT是人机自然语言交互的一个重要里程碑,并且已经具备了在非实时、专业性知识领域替代原有社区和垂直搜索的巨大潜力。


当然,客观地说,就目前的状态而言,如果说它就能替代搜索引擎,甚至通过图灵测试,那无疑是过于乐观了。


大家不要误会,我可并不是唱衰ChatGPT。恰恰相反,我觉得这玩意应该早点商用,随着大量用户反馈的累积,质量的提高很可能一日千里,适用的场景也越来越多。只是,就像咱们一开始分析的,如果在大规模的用户反馈中甄别高质量语料,实行有监督的模型进化,可能还真是个挑战。


当然,作为一个老码畜,看到ChatGPT写的那些程序,我是为很多码农朋友的未来捏一把汗的。怎么样,你的后脊梁发凉了吗?


本文来自微信公众号:计算广告(ID:Comp_Ad),作者:大数据仁波茄