让赵本山开口飙英文,“人工智能嘴替”没那么好玩

对人类思维活动和精神产品的生产替代，不可避免带来了诸多法律、伦理甚至是公共利益难题。

▲利用语音合成技术，赵本山用英语演小品。图/网络视频截图

当郭德纲开始用英文说地道的中国相声，赵本山用标准的伦敦腔讲述东北故事，人们开始更直观地感受到人工智能技术的成熟。

据媒体报道，近期，网络流传较广的明星“说外语”视频，其语音合成技术源自于国内某人工智能创业企业的工具应用。一些网络博主截取一部分有话题的明星的公开片段，利用这类人工智能视频工具的语音合成技术，将其内容转化为英语、日语等，继而转为“以假乱真”的明星语音。

近年来，语音模拟合成技术已在不少场景得到广泛应用。例如，地图导航软件中的明星语音，也是利用了语音识别与合成技术，对明星语音进行简单采集后即可生成。

过去人工智能生成的语音素材相对简短，且在语气、断句、节奏等细节上明显生硬，因此，会让用户明显感觉到“机器合成腔”。

而此次爆火的系列视频，则集中展示了相关技术的新进展。例如，模拟更为逼真，除了情绪之外，几乎逼近了真人说话的腔调与语气；生成效率更高，用简单素材即可生成极为复杂的多种内容；多语种切换翻译，翻译水准与口语水平几近专业层次等。

━━━━━

技术不断迭代进步的结果

从内容工具的生产力角度看，这无疑是技术不断迭代进步的结果。近一年来，类似语音、图像、视频相关的AIGC（利用人工智能生产内容）技术不断出现各类现象级传播案例。

目前，从各类热点事件可以发现，人工智能在文本、音频、图像、视频、代码甚至于复合多媒体等内容生成上都已经证明了成熟稳定的技术能力。

例如，前段时间可以为用户生成各类写真照片的相机应用，早前实时视频换脸引发的“电信诈骗”质疑等等，都是人工智能的内容生成能力进入社会各领域以后所产生的涟漪效应。

频繁出现“破圈”的传播事件，说明我们已经进入人工智能技术在内容生产上的大规模普及前夜。

首先，AIGC技术的使用门槛大幅降低，用户不再需要具备专业知识和技能，即可在成熟的产品入口中直接使用。例如，上传个人照片就可以生成不同风格的写真照片、录入多段语音素材就可以模拟出一个“AI嘴替”等。

而在这次刷屏的“说外语”视频中，相关自媒体博主也不是专业技术人员出身，仅仅是支付了相关工具软件百余元的订阅使用费，就可以使用工具生成爆款视频。从使用费用、使用者的角度看，技术门槛早已大幅降低。

其次，最终产品的形态接近成熟。这些破圈的工具应用中，让公众惊叹的主要原因是“仿真度”，不管是模仿知名作家的文字风格、模仿嗓音语气，还是更直截了当的“换脸”，海量数据训练带来的摹真度都在大幅提升，最终使得输出的产品几乎很难被普通用户发现瑕疵。

从技术发展的角度看，这意味着过去被认为难以取代的“内容生产”部分，也逐渐可以被工具替代，自机械化取代了人类的“身体工具”生产模式以来，思维意识层面的生产也第一次出现了规模化流水线替代的可能，这将不可避免带来各个产业的重塑。

想象一下，如果某个明星本人需要在短时间内生产大量的视频素材用于传播，那么，如明星“说外语”视频所展示的技术，完全可以成为明星本人拓展个人内容生产的辅助，甚至是主要工具。

也就是，原本已经相当成熟的偶像工业体系也将因此而进一步压缩为营销工业，只需要在前期制造一个“IP”，就可以迅速利用AI技术实现内容生产，真实的“人”的价值在这个工业体系中的地位将进一步弱化。

偶像甚至不需要真的去学习英文、提升公开表达的素质和能力，也可以借助工具进行可控传播。

━━━━━

面临法律、伦理难题

对人类思维活动和精神产品的生产替代，不可避免带来了诸多法律、伦理甚至是公共利益难题。

最近流行的热点事件，也都在让人惊叹的同时，让公众隐隐觉得不安。

例如，如果诈骗团伙率先使用了人工智能技术来不断提升骗局的“仿真度”，传统人类辨别信息真假的“看图、看视频、听声音”都将失效，那么，普通人要如何走出虚假信息的困境？

如果一些人使用这类技术时，没有忠实翻译原文，而是在翻译中加入了部分虚假信息，被仿冒者应该如何维权？

而且，用AI技术为视频中的人物更换声音、做“翻译”，还存在多种侵权行为。从著作权角度看，相声、小品等都属于我国《著作权法》保护的“作品”。

著作权有一项是“翻译权”，即未经他人授权，不得翻译他人作品。翻译权之外，此类视频在未经著作权人授权的情况下，经修改后发布在网络上，造成大面积传播甚至牟利，该行为也涉嫌侵犯作品的信息网络传播权。

因此，当下这些关于AIGC的相关热点越来越多，既是技术成熟即将被大规模应用的信号，同时，也意味侵权的门槛越来越低，对此，应有更妥善的权利保护措施。