中文聊天机器人--百度"文心一言"标志 路透社图片


8月31日,"文心一言"、"商量"等四款聊天机器人正式向中国公众开放。但很快传来消息,在向这些机器人提出政治敏感话题时,聊天就会被迫中止。中国政府的钳制手段到底是如何伸进聊天机器人的运行中的?这种限制对人工智能技术的发展又会带来怎样的影响?


这次向公众开放的聊天机器人或生成式人工智能产品,包括商汤科技“商量”、百度“文心一言”、智谱AI“智谱清言”和百川智能科技的“百川大模型”等,他们均是​​依据《生成式人工智能服务管理暂行办法》向中国政府备案后,向大众开放的。

据广州日报客户端等媒体报道,北京的抖音(云雀大模型)、智谱AI(GLM大模型)、中科院(紫东太初大模型),上海的MiniMax(ABAB大模型)和上海人工智能实验室(书生通用大模型)等多家企业和机构的人工智能产品,也位列第一批获批名单。

被打码的"天安门大屠杀"

但很快外界就披露,在使用“文心一言”等人工智能平台时时,对敏感政治话题有不少限制。

一位计算机专业在读大学生上周四(8月24日)在虚拟机和代理上试用了中国瓴岳科技的Smart Chat智能客服平台,并给本台发来了他试用的一段视频。视频中,当他用英文提问,1989年6月4日发生了什么时,平台用三段英文回答了这个问题,大意是:1989年6月4日在天安门广场发生了大屠杀;中国政府用部队和武器镇压了学生们的示威;这一事件对中国政局和人权产生了深刻的影响。

这几段话似乎与外界对六四事件的理解和记忆并没有什么差别,但在几段文字完成显示后,其中的关键词全部被以星号取代,包括“天安门大屠杀”、“人权”和“言论自由”等。

这位学生匿名向本台分析说,Smart Chat智能客服平台实际是套用了美国公司OpenAI的人工智能产品chatGPT,但附加了一些审查功能。他还强调,现在虽然文心一言等平台开放使用了,但他不敢实名尝试去问政治敏感问题,“怕被勾勒用户画像。”

无独有偶,德国之声在检测“文心一言”时也发现,在与其对话时,如果输入“台湾独立”、“维吾尔族”、“中国青年失业率”等敏感话题时,系统就会终止对话。

由于中国政府一直以来对言论的严格管控,对于聊天机器人的这种表现,外界似乎并不感到惊讶。身在华盛顿的IT专家弗兰克(Frank)向本台分析说,这种人工智能系统要阻挡政治话题的讨论并不难做到,“只要在它的AI系统里放一个过滤器,在最后结果出来之前放一个过滤器,那些相对敏感的语言马上就会被控制,并不是说它愿意做什么就做什么。”

2023年8月31日,手提电脑屏幕上显示的中文聊天机器人--百度"文心一言"。(法新社)



就像"严歌苓"一样

但人工智能本身是在西方世界自由的科技交流环境下发展起来的,中国严格的审查制度与人工智能发展似乎从一开始就显得格格不入。

外界普遍认为,目前的中文聊天机器人使用的底层技术,实际都来源于chatGPT的开源代码。一位身在美国马里兰州的IT专家匿名向本台分析说,代码开源这本身体现了欧美技术人员的理想主义精神,但言论审查制度却与之相反;而这种做法本身对于人工智能发展有多方面的负面影响。

他认为,在软件开发者的环节,言论审查制度就会造成障碍,“开发的时候,你会怕犯错误,就会加上很多安全功能(safety function),这个字不能用,那个字不能用,这就会把程序搞得非常麻烦。”他说,这就像前不久华裔作家严歌苓接受采访时说的一样,她在国内进行创作时,已经有了很多自我审查。

他强调,更重要的是,这种前置的自我审查本身就与人工智能的属性是相矛盾的,“聊天机器人这种东西他本来的思路就跟人不一样,这就是他的魔力所在;如果所有的答案都是可以预测的,那这就跟搜索功能没什么差别了。他本身的功能就在于把很多你意识不到的东西综合起来给你一个很好的回答。”

弗兰克(Frank)则告诉本台,中国政府对言论和信息的控制会影响到中文方式呈现的数据,“它(人工智能)都是靠统计信息,比如你跟它咨询的问题,它是只能统计中文的信息,中文的信息又主要是以大陆的信息为主,但大陆的数据受到限制。所以很多问题它答不出来,或者答出来是错误的。”

弗兰克说,这种信息质量影响到的不仅是中文的聊天机器人,还包括chatGPT的中文信息。他举例说,1980年代中国非常有名的四通科技公司,在chatGPT里就找不到可靠的信息。

另一方面,这么多的中文聊天机器人同时面市还牵涉到新的问题。前述那位匿名的IT专家分析说,其中主要是算力问题,“现在这些平台都要求算力无穷,这对中央处理单元(CPU)的要求是很高的,但现在中国在这方面已经受到出口限制了,我不知道中国的算力能不能跟得上,这些都是规模很大的计算。”

他还强调,现在的chatGPT已经到了4.0版,这一代的代码已经不再开源,中国企业在这方面能否跟得上技术的发展也是一个问题。