AI技术正在快速渗透各个行业,从生成图像的Midjourney和Stable Diffusion,再到今年窜红的ChatGPT,不论是图像还是文字,都突破了我们的想象,也引发了不少人的担忧。而人们对人工智能(AI)深伪技术(deep fake)越来越多的关注主要集中在视觉欺骗上。


深伪技术指深度学习(Deep Learning)+Fake(伪造)的合成词,现在专门指基于AI的图像、音频等合成技术的应用,其中最为大众熟知的形式就是AI换脸。想想看,视频能够不可思议地将一个人的脸叠加到另一个人的身上,甚至AI创建的合成面孔的可信度比真实面孔还要高,我们还能如何辨认真假?


本期聚光灯,深圳大学传播学院新闻系副主任张田田就来与我们聊聊“深伪”。在她看来,AI技术带来的美丽新世界之外,还有更多的挑战与威胁。当然,也无需太过悲观。毕竟,AI技术也是当前信息打假的重要力量。


本文来自微信公众号:深港书评 (ID:jbsgsp),作者:张田田,题图来自:视觉中国


我身边的很多人首次接触到“深伪”(deep fake)这个词,都在2018年。当年4月,美国前总统奥巴马的一段一分钟视频走红网络,浏览量超480万次。在视频的前半段,奥巴马端坐在美国国旗背景前,如同我们平时在媒体上所看到的那样侃侃而谈。忽然,画风骤变,他开始用“蠢货”“笨蛋”之类的粗鲁语言疯狂攻击其继任者特朗普。


正在人们张大嘴巴即将惊掉下巴的时刻,视频的作者——美国演员乔丹·皮勒出现了。人们开始回过神:原来这并不是一段真实的视频,而是使用一种人工智能(AI)形式的计算机程序来完成的“深度伪造”视频,其中的内容也并非奥巴马所言。知晓真相后,人们再次惊掉下巴:AI创造的影像竟可以如此以假乱真,说好的“有图有真相”呢?


生成的奥巴马演讲视频
生成的奥巴马演讲视频


AI技术再次碾轧了人类想象力


事实上,影像的编辑和操纵并不是什么新鲜事儿,利用我们最常见的软件PS也可以实现对图片的精细修改。但是,“深伪”则是通过AI的深度学习来实现的,也就是设计出一套算法来训练AI识别特定对象的音视频记录中的各种元素。深度学习完毕之后,人们就可将已有的图像或影片叠加至目标图像或影片上,并借助AI技术来调整表情姿态与模拟嘴唇动作,也就是我们俗称的“换脸”。在这里,一段音视频内容中的元素可以被随意更换,比如替换成其他人的脸或者声音。


该技术与语音克隆技术的叠加使用,就能制造出更具误导性的影像,让特定对象以自己的声音说出你希望其表达的内容。在这一过程中,深度学习算法所包含的数据库越大,“深伪”的内容也就越显真实。奥巴马的这则“深伪”视频就是在AI深度学习了56小时的录音样本之后完成的。


究竟是何种深度学习可以让AI具备如此以假乱真的能力?这便是被称为“生成对抗网络”(GAN)的机器学习技术。深度学习是一种人工智能方法,它通过由多层(因此称为“深度”)人工神经元组成的算法来模拟大脑。


“生成对抗网络”就是一种极具创造性的深度学习方法,其包括生成网络和鉴别网络。生成网络能够合成图像,鉴别网络则经由大量数据(可能是数以万计的人脸)的训练,竭尽全力判断该合成图像的真假,发现其与真实图像之间的差距。在获得鉴别网络的反馈之后,生成网络就能够“教”自己产出更加写实的图像。在这种类似“左右互搏”的对抗循环中,两种网络不断改进与更新,最终制作出异常逼真的音视频内容。


这种“深度伪造”一度被认为已经到达了虚假信息生产的天花板:能够让目标对象在影像中说出他们没说过的话,做出他们没做过的事,还有什么可以超越呢?然而,AI技术的蓬勃发展和应用再次碾轧了人们的想象力。


就在过去的2022年,数种“文本生成图像”的AI应用现身社交媒体,并获得人们的热捧。相对于“深伪”而言,“文本生成图像”的应用操作明显简单太多。“深伪”在一定程度上还属于运用AI驱动技术的高度复杂的操作,对于普通人来说还是具有相当的准入门槛的。而“文本生成图像”的应用几乎人人都可操作。


以AI制图工具DALL-E(以西班牙艺术家达利和2008年同名电影中的皮克斯角色Wall-E的名字命名)为例,只需在程序中输入一段文字描述,比如“一只戴眼镜的纯白波斯猫在草地上奔跑”,便可获得AI自动生成的与日常摄影照片几乎毫无二致的图像。“文本生成图像”几乎可以模仿任何视觉风格,梦幻的、逼真的、平凡的……马背上的宇航员、在古埃及购买面包的泰迪熊、著名艺术家风格的新颖雕塑,你能想象到的几乎任何视觉形象在这里都可以轻松实现。


操作的便捷性和巨大的创作空间使得类似工具在社交网络迅速走红。DALL-E就曾在去年宣布,其用户平均每天创建超过200万张AI生成的图像。


OpenAI推出了AI制图模型,输入叙述文字,就能产生与文字内容相应的图片。(图来源:OpenAI)<br>
OpenAI推出了AI制图模型,输入叙述文字,就能产生与文字内容相应的图片。(图来源:OpenAI)


逼真的图像可被轻松创建


此外,“深伪”更多是对现有视听内容进行的复杂操作,无论是“移花接木”还是“无缝对接”都还要依赖于一定的真实素材。“文本生成影像”无疑进一步拓展了AI的创造空间,其能根据既有描述(可能是虚假的)创造一整套全新的场景和图像。去年,导演凯尔·沃尔巴赫利用开源的AI图片合成模型SD(Stable Diffusion)创建了个人资料照片和他的宠物照片,甚至生成了整整一个月的生活:这里有他与朋友的约会,有纽约之旅,有万圣节聚会,还有他在洛杉矶漂亮公寓的生活场景。


这些AI图像合成赋予大众极为强大的想法可视化的能力,但不可否认,这种技术一旦被用于虚假信息的生产,也会带来难以想象的严重后果。AI生成图片究竟能在多大程度上欺骗我们的眼睛?


去年,英国兰开斯特大学和美国加州大学伯克利分校联合开展了一项研究,要求参与者从800张面孔中识别出真假面孔,并评估他们的可信度。经过三个独立的实验,研究人员发现AI创建的合成面孔的可信度比真实面孔的平均评级高 7.7%。在实验中,被评为最值得信赖的三张面孔是假的,而被评为最不值得信赖的四张面孔则是真实的。


事实上,伴随廉价甚至免费的AI图片生成工具的普及,社交媒体中的AI生成图片已经越来越多了。就在近期,脸书的母公司元平台发布的一份报告称,AI生成的虚假个人资料照片正在迅速增加。


此外,重大公共事件中混淆视听的AI图片也不断现身。去年9月,日本静冈县因台风侵袭发生严重水灾,一名推特用户发布多张静冈水灾图片,并在推文中表示这些都是航拍的实况照片。照片中,水淹民宅,死伤惨重。然而,就在发布12个小时后,该账号在推文下方留言承认这些照片都是AI创建的图片。尽管推文者已发出声明致歉,但惊悚的照片仍引发各大社交媒体平台疯传,让许多民众信以为真。


这些滥用的 AI 生成图片不仅会让公众对公共事件产生错误认知,更会令人们对信息生态逐渐丧失信心。在传统的信息生态中,图片往往被认为是最可靠的证据。然而,在AI工具普及的当下,几乎不需要太多的技巧,人们便可轻松创建各种逼真的图像,“有图有真相”的时代或许正式终结了。那么,还有什么是我们可以相信的?


很多时候,人们似乎还没有准备好,技术创新便出现了。在AI技术带来的美丽新世界之外,还有更多的挑战与威胁。技术运用的边界在哪里?如何实现有效的监管规避技术的负面影响?需要思考的问题还有很多。当然,也无需太过悲观。毕竟,AI技术也是当前信息打假的重要力量。


本文来自微信公众号:深港书评 (ID:jbsgsp),作者:张田田(深圳大学传播学院新闻系副主任)