本文来自微信公众号:爱范儿 (ID:ifanr),作者:张成晨,题图来自:Twitter@skyferrori
悬疑英剧《真相捕捉》里,情报机关为了给罪犯定罪,伪造了监控录像。
他们认为,伪造监控录像,只是将窃听材料等非法证据,“重演”为合法证据,事情的确发生了,罪犯的确犯罪了。
但是谁也不知道,使用技术的人会不会越界。毕竟,从移花接木到无中生有,从有的放矢到肆意伪造,只有人性的一步之遥。
当 AI 制图一日千里,这样的世界可能离我们并不远。
特朗普、教皇争相刷屏,全靠 AI 鬼斧神工
上周,几十张特朗普被捕的照片火爆 Twitter,它们记录了特朗普锒铛入狱的全部过程,从西装革履地走出大楼时被按在地上,到穿着囚服在铁丝网边思考人生。
不过,这些只是 AI 生成的图片。
始作俑者 Eliot Higgins 的账号被关小黑屋(现在又恢复了正常),“被捕(arrested)”这个词也被平台封了。
周末,又轮到 Twittter@skyferrori,让教皇方济各穿着巴黎世家风格的羽绒服出场。
有人评价这是说唱风、DJ 范,一副要发专辑的架势。
这条推文目前浏览 2600 多万次,转发 3 万多次,骗过了很多人的眼睛。“AI 生成图片”的说明,后来才补充在图片下方。
有 Twitter 网友认为,这起事件是第一个真正大规模的 AI 虚假信息案例,可以载入史册。
更多的模仿随之而来。
特朗普下乡再就业,在街头拉黄包车;教皇换上羽绒服,奔赴星辰大海;异形体验生活,上了一天的班然后深夜买醉......
这些名人在平行世界的脑洞图片,多半出自 AI 绘画工具 MidJourney V5 版本。
V5 版本模型能够生成比 V4 版本更高质量、更真实的图像,并且有更多的定制选项和更快的渲染速度,是目前最高水平的 AI 绘图工具之一。
最直观的一点是,它基本上解决了之前 AI 画不好手指的问题,人类又失去了一个辨别真假的办法。(顺带一提, V1 版本发布于 2022 年 7 月,可见迭代速度之快)
输入的 prompt(提示词)也并不难,某个名人的名字,再加动作、地点等,即可以成图。
以上也有不少图片属于“一眼假”,接下来还有更让人眼花缭乱的进阶版本。
上周,这张用 Midjourney 生成的中国情侣照走红网络。
几天前,Reddit 网友发了一组新闻图片,记录了 2001 年北美西海岸卡斯卡迪亚发生的 9.1 级地震和海啸事件。
你可以看见报道这场灾难的各个角度:现场房屋毁坏、巨浪奔腾,滞留机场的人们露出惊恐的表情,救援人员竭力从废墟里救出被困的幸存者,新闻记者赶到现场直播。
整组照片的色调、着装、场景,都有着世纪初的味道。其中有些看起来很“业余”,像是当地居民随手拍下来的,但往往这类照片会被看作珍贵的资料。
然而,这组图片也是用 Midjourney 生成的,灾难并不存在。
类似地,网友 Arctic_Chilean 伪造了“2012 年 7 月美国太阳超级风暴和停电”事件,他觉得 MidJourney 善于捕捉 2010 年初的新闻镜头美学,在生成天际线和地标上的极光照片方面也表现出色,但无法生成城市断电的场景。
另一位网友 FinewithIX 用 AI 生成了 1969 年的登月花絮图片,模仿了当时颗粒感更强的胶片风格。
这种写实的新闻图片,没有特朗普、教皇这种鲜明的个人化特征,你反而更容易被迷了眼。
从 Deepfake 到 Cheapfake
打造“时尚教皇”的@skyferrori,在作品刷屏后接受了媒体采访。
他是来自芝加哥地区的一名 31 岁建筑工人,使用 Midjourney 并没有什么目的,对教皇也没有什么恶意,只是为了好玩。
意外的走红,让他后知后觉地明白了 AI 的影响之广。别有用心的人甚至拿着这些图片指责天主教会奢侈浪费。
我以前没有想过这点。人们正在接受它,认为它是真实的而不质疑它,这绝对是可怕的。
目前的大多数玩家也无非是找个乐子,但就像《真相捕捉》里探讨的伪造证据和程序正义,我们不知道边界何时被越过,以及终点在哪里。
在多数情况下,色情、政治和谣言总是先行。一位女性在地铁上的照片被 AI 一键脱衣,登上了今天的微博热搜,作恶者却隐藏在 AI 身后。当时间和地点都对得上,普通人又如何为自己分辨。
语音克隆的发展速度之快,同样令人胆战心惊。
骗子使用 AI 模仿对方家人的声音,打诈骗电话诓钱,此类案件已经在美国发生了好几起。
语音克隆这项技术并不稀奇,问题在于门槛越来越低。就像加州大学伯克利分校教授 Hany Farid 所说:
两年前,甚至一年前,克隆一个人的声音,需要大量的音频。现在,如果你有一个 Facebook 页面,或者如果你录制了 TikTok 并且你的声音持续了 30 秒,人们就可以克隆你的声音。
它们甚至越来越便宜,比如 ElevenLabs 的语音克隆技术 2022 年才问世,相关服务的费用仅为每月 5 美元。
有了语音,有了图片,完全用 AI 生成视频也是有可能的。有人用 ChatGPT 生成讲话内容,用 Midjourney 生成虚拟形象,用 ElevenLabs 生成声音,用 D-ID 生成对口型的视频,做出了完整的短视频。
发现了吗?我们仍然可以去争论某张图片和某个视频的真假,但问题的核心在于它们的发展速度。
换脸的 Deepfake(深度伪造)有一定技术门槛,但现在如果你愿意花些时间上手 AI 软件,学习他人的提示词怎么写,最多再订阅一个 plus 会员,造假成本已经比之前要低。
然后,它们又广泛传播到 Twitter、Reddit、TikTok 等社交媒体。
有人称之为“Cheapfakes”(廉价伪造),考虑到制作成本和传播成本,倒也恰如其分。
The Verge 提出了一个观点:AI 曾只是一个功能,现在它逐步成为产品。
这和当年乔布斯在 Macintosh 电脑上安装鼠标和图形界面操作系统,在智能手机上接入多点触控屏幕有些类似,普通大众的使用门槛被解决,技术不再为少数精英所有,此后相关的服务才能够起飞。
过去我们常说无图无真相,但在不远的未来,有图也不是真相,有视频可能也不是真相,它们都证明不了任何问题了。
如何在技术的未来中幸存
在技术面前,意识和法律总是稍微滞后。已经出现的漏洞,还来得及弥补吗?
提供 AI 服务的公司自然要把守前线。
今年 1 月底,因为太多用户用语音克隆胡作非为,AI 语音工具 ElevenLabs 宣布引入新的保护措施,其中较为重要的 2 条是:推出新的 AI 检测工具,验证某个音频剪辑是否使用他们的技术生成;让某些功能只能付费使用,降低用户的匿名性,从而让他们“三思而后行”;
社交媒体也在想办法减少错误信息的传播。
TikTok 在上周宣布,所有展示真实场景的 Deepfakes 都必须被标记为虚假(fake)或更改(altered),并且公众人物的 Deepfakes 不得用于政治或商业背书。
其实,虚假图片、虚假语音、虚假视频存在良久,以前有过无数次的讨论与争锋,然而到今天,它们才成为了一个真正的问题。
2020 年,Adobe 曾经发布过“内容真实性计划”(CAI),希望打造一个系统,将来源和详细信息永久附加到图像上,并带有加密签名,现在仍在开发中。
只要有人下载、截屏、编辑图像,CAI 元数据标签都将表明它是经过处理的。
这听起来非常有用,也可以沿用在 AI 作品上。
但 Adobe 也指出,需要大量硬件和软件支持,才能使系统有效运行,包括支持添加标签的相机、记录处理细节的照片编辑工具、显示标签的社交媒体等等。
这几乎涉及到从制造到传播的每一个环节,可想而知它的困难程度。
现在,AI 造假的困境也是类似的,就像从前无数次讨论 Deepfake 一样,技术公司、媒体机构乃至每个个体,都应该承担一份责任,但这恰恰是难以达到的理想情况。
在“时尚教皇”出圈后,Twitter 粉丝近 1300 万的模特 Chrissy Teigen 感叹:“我以为教皇的羽绒服是真的,没有多想。我不可能在技术的未来中幸存下来。”
AI 的发展速度,让公众意识和法律法规都难以望其项背。只能说,当我们看到某张图片时,最好不要默认它是真实的。
本文来自微信公众号:爱范儿 (ID:ifanr),作者:张成晨