如果不说,你可能会以为这是真人唱的,而不是来自一位虚拟数字人。
但可以明显感受到,她声音里自信张扬的感觉,透露出强烈的新生代偶像气质。她是中国第一位超写实虚拟偶像——哈酱。现在,她又多了一个新身份,华纳首位虚拟音乐艺术家,还被称为「元宇宙虚拟艺术家」。
开头就是她发布的首支个人出道单曲《MISS WHO》,其音乐创作来自世界级头部唱片公司华纳音乐,科技支持来自微软的智能合成声音定制技术。爱范儿特此专访了微软以及华纳相关负责人,从哈酱的音乐谈到了虚拟偶像的潮流起伏。哈酱的背后,折射出了当代虚拟偶像的流行路径,也能一窥我们未来数字生活的图景。
如何炼成一位虚拟偶像耀眼的蓝色短发,精致无瑕的五官,高挑出众的身材,新潮前卫的穿搭,大胆尝试的个性。哈酱身上有着我们对虚拟偶像的各类想象。自诞生以来,她也经历了数度「变身」。2019 年,百威投资集团生成了哈酱,之后她就成了哈尔滨啤酒的虚拟代言人,接着又和李宁、PONY、乌鸦等不同品牌都有联名合作。哈酱现在不仅是一位国潮 KOL、一位滑板少女,还做过电竞主播、公益大使、交通安全宣传大使……
当大家对她的多重身份感到困惑时,现在,她被华纳签下了。此时,元宇宙的火正燃,华纳正在寻找行业里哪些虚拟数字人适合培养,适合音乐路线的哈酱被选中,正式加入了旗下舞曲厂牌 Whet Records,成为了一名虚拟音乐艺人。华纳旗下电音厂牌 Whet 负责人 Zoe 告诉我们,现在哈酱的商业所有权,主要在华纳和她的独立运营公司漫服社两家头上。接下来,华纳也会重点强化哈酱「嘻哈、国潮」的人设。
作为一名音乐艺人,自然最核心的能力,就是唱歌了。微软选择哈酱的原因,也是因为在 AI 技术不断演进的当代,机器说话能力已经从最初的冰冷吐词,开始能够说学逗唱。将此技术赋能到哈酱身上,不仅能推进语音合成技术发展,也能让虚拟偶像创造更多新的可能性。对于微软、华纳、哈酱而言,这都是一次互补和三赢。但炼成一位「拟真」的虚拟音乐艺人并不容易。微软云计算与人工智能事业部语音组首席产品经理廖勤樱告诉我们,之前大家听到的 AI 歌曲,可能都是简单的句子直接组合、曲风音色都很单一。但哈酱的声音是有现代感、音色会变化、曲风符合年轻人审美的。从尝试唱歌、试验唱歌,哈酱现在已经能发一首真正的单曲了。
微软亚太研发集团云计算与人工智能事业部产品总监丁秉公进一步展开,讲述了他们如何做出好声音的故事。第一步,得先确定虚拟偶像的人设定位,提取其中的调性元素。第二步,就是根据人设去训练数据。微软背后有一个强大的神经网络语音模型 base model,融合了人们说话声音的各类元素,譬如音色、年龄、口音、韵律等等,它将根据哈酱的人设释放对应的能力,训练出专属于哈酱声音的模型。第三步,就是调教模型,就像做一个雕塑那样,先打一个胚子,再精雕细刻,他们有一套完整的工具和流程去打磨,最后就出来了一个完美的人声。用于打造哈酱音色的神经网络中文语音模型,支持包括叙述、新闻、客服、助理、抒情、聊天、平静、开心、悲伤、愤怒、 恐惧、 不满、 严厉、撒娇、温柔等 15 种风格。整个过程需要解决很多工程化的问题,时刻保证质量和稳定性——就像一个工业的流水线那样。
唱歌稳了,就是怎么唱的问题了。接下来,就到了华纳的施武之地。华纳唱片音乐总监曾宇说道,他们当时创作音乐也探讨了很多角度,出了很多个版本筛选,包括一个一个字地纠正。另外,还要考虑它曲风如何多变、节奏如何抓耳、如何融入东方审美的旋律,如何用电子乐编写方式重新架构国风元素,如何表达出属于哈酱的态度……和真人录音不一样的是,虚拟录音得做大量的细节工作。它不是单纯录了某个人的声音,然后剪切在一起,而是需要不断去尝试、调整、跨越新的难度。
惊喜的一面也在于,他们打好一个基础后,就能以这个基础让哈酱唱各种各样的歌,创作第一首单曲后,未来哈酱再回来唱流行歌就完全没问题了。「我们看大家在网易云音乐对 MISSWHO 的评价,几乎没有说她是不是唱得像机器人,而是都在评价歌曲本身的质量,我觉得还是蛮惊奇的,也很开心」,丁秉公说道。首单之后,11 月 19 日,哈酱又和俄罗斯艺人 MARUV 合作,合作了一首 remix。
Zoe 表示,春节期间,哈酱还会翻唱一些经典的春节歌曲,但用电音的形式演绎,之后还会和海内外的知名艺人合作,包括和徐梦圆打造国风向单曲等等。曾宇对虚拟偶像的音乐创作,有着更大的想象空间。第一步要做的,是她怎么能够像真人。当大家对于虚拟艺人唱歌已不陌生,我们就不会拿它去和真人比较了,也许可以挑战一些真人做不到的东西。
虚拟偶像 VS 真人偶像
虚拟偶像越来越多了。乐华娱乐去年也推出了首个虚拟偶像团体 A-Soul,腾讯系、网易、快手、B站、阿里系都已涉足虚拟偶像,近几个月,越来越多新消费品牌都开始请虚拟偶像代言人了。
可以看出,科技公司、艺人经纪公司、虚拟偶像公司三方结合,将越来越成为常态模式。但当下,有些虚拟偶像很火,很多虚拟偶像批量倒下。原因可能有技术不足,内容不好,运营不够,或者投入成本实在是太高了。Zoe 也坦诚说道:「目前阶段盈利虚拟偶像还比较难,但潜力很大,不断会有商业机会,只是前提得保证有好内容」。虚拟偶像仍在发展的初级阶段。
A-Soul当他们像人一样唱歌、跳舞、主持、做模特……大众总是期待着和真人难以区分,或者说,更胜真人。但往往造成其落后的原因,首先就是技术水平。拿音乐方面来说,说话的质量、语音的质量、唱法的质量,差一丝就如隔山河。有时候出现一些瑕疵,听感反倒更舒服,其实就是因为,我们希望听到的,是更自然的声音,或者说,更有情感的声音。情感演绎,一直是 AI 界的难题。「我觉得到现在为止,我们其实也没有一个很好的答案」,丁秉公说道,「不过从 AI 学习的角度来看,我们可以通过新的算法,在庞大的数据库里去学习、提炼、模拟人的情感」。他说的,是微软最新研究的名为 Neural singing 的算法。曾宇也谈到,他认为现在,哈酱可以说是虚拟偶像行业标杆的声音质量,因为她的歌能够给人带来一种具有灵魂的感受。
微软 Azure 人工智能平台和框架图在他们眼中,「灵魂」在虚拟偶像身上是一个可以制造的过程。
曾宇认为,AI 学习得更多,呈现的东西就越细腻,它就能捕捉到更多细节,在每个字每个高音上都表现得更完美,所谓的灵魂表达就会更好;
丁秉公则认为,灵魂是一个很难定义、非常虚的概念,虚拟偶像给人带来的观感,应该是视觉、听觉等多模态的呈现;
Zoe 还补充道,哈酱在音乐之外的技能加持,如滑板、插画等,则会让虚拟艺人的「灵魂」更加有趣。简单来说,要让虚拟偶像和真人偶像实力相当,至少需要「技术+内容」两者的高质结合。当虚拟偶像被疯狂制造、同质化严重时,千篇一律的好看皮囊下,我们更需要一些个性化、人性化的东西,来寄托我们对他们的喜欢和崇拜——就像对真人偶像一样。
虚拟偶像柳夜熙曾宇感叹道,现在国内大多虚拟艺人,无论是平台还是大公司做的,都把精力侧重在营销侧面,真正做好产品的虚拟艺人并不多。这个行业刚刚开始,没必要大家上来就竞争成什么样,而是应该把自己的产品打磨到最好。元宇宙这些概念再厉害,受众感受到的还是一个娱乐化的内容,它还是要有对质量的要求,至少每首歌、每个形象出去,都能震撼到一部分人,时间积累下来,虚拟艺人的力量才会存在。
放远来看,他认为,虚拟偶像行业要足以和真人偶像匹敌,或者火爆程度超过真人,还需要很长一段时间。虚拟偶像要像真人一样,能够适应多个环境和场景,能够进行声画同步、带来逼真的视觉效果、真正在你面前活动、表演、接触等等,还需要多方面技术支持。「至少娱乐行业和科技行业就要交流和磨合很久」,曾宇说。
超写实数字人 AYAYI但也基于虚拟偶像更多创造的可能性,他们现在已经在计划接下来让哈酱唱一些真人唱不了的,比如比真人的音调高很多、低很多,或者快很多的音乐,以及演绎完全不同的风格、做一些更新鲜的玩法。虚拟偶像的形象也可以脱离人本身,无论是二次元、三次元、写实、超写实,或是奇奇怪怪的生物,可以尽情放飞想象。丁秉公说道,「就像声音一样,对于我们来说,没有什么是最好的,只有什么是最适合的」。
迪士尼-玲娜贝儿
虚拟偶像,会带我们去怎样的未来?虚拟偶像有着变幻莫测的可能,现在还看不到边界。微软以「科技向善」(AI for Good)来从本源上防止技术越界,曾宇说道,「至少在虚拟偶像学会打扮自己以前,我觉得还不会失控」。
在他看来,类似于哈酱这类虚拟偶像的与众不同,就在于她的先进性和引领性。现在,他们让哈酱的声音、唱歌方式、唱歌态度、音乐风格变得与众不同,当现有的声音的特点做得特别好之后,他们又会在那个基准上找更特别的东西。廖勤樱也向我们说道,现在我们唱的歌都是预设的歌曲,未来通过微软的 Viseme 技术做到音画同步,虚拟偶像或许能与用户互动,进行动态创作和生成,满足各类需求。引领趋势往前走,就是一种与众不同。
Fox 电视台的歌唱选秀节目《Alter Ego》,AR 虚拟形象投射台上,表演者穿着动作捕捉服装藏在幕后歌唱这些趋势,将进入人们的日常生活。就像虚拟偶像,也正从音乐、游戏、影视延伸到更多行业,未来在我们生活中还会有更多应用场景,虚拟偶像背后的技术,也正连接到更智能的未来。当技术的门槛越来越低,制造虚拟偶像声音的成本和自动化程度也将逐渐降低。不过丁秉公表示,未来或许人人都能制造以及成为虚拟偶像,但依然需要突破很多技术的边界。回到虚拟艺人哈酱身上,未来微软需要在深度上挖掘她的音乐,让演绎的质量更好,风格做得更多,在广度上,也会跟华纳一起去探索更多的「哈酱」,生成更多不同人设的虚拟偶像。
这些都可以推动技术的边界。我们需要降低虚拟偶像的生产成本、生产壁垒、可接触性,以及技术教育和市场培育的过程,当人们认识到这个技术能给他们带来意义和价值,就是这项技术能够普惠的时候了。
而对于虚拟偶像和元宇宙的联系,微软和华纳都表示在学习阶段。在下一个未来数字世界还未成型之前,很多事情都很难说得准。音乐从实体过渡到互联网行业其实就没那么顺利。曾宇表示,元宇宙让人看到了技术、分配、去中心化层面的颠覆性技术支持,但也要看从哪个切入点进入,才能为音乐产业带来改变。微软已经对元宇宙有了一些布局。他们最新推出的「元宇宙打工」平台 Mesh for Microskft Teams,能让所有人变成数字人,在 Teams 里沉浸式开会、协作和交流。
这场数字探索之路还在继续。当未来的浪潮袭来,正如科技与内容相辅相成,相互成就,我们眼睛聚焦在「虚拟」二字时,也别忘了「偶像」的意义。因为这两者的结合,虚拟偶像的名字才得以成立。