名侦探柯南是众多人心中崇拜的偶像,没有案子能难倒柯南。

不过,柯南办案离不开高科技“武器”,其中最让人梦寐以求的一种“武器”就是蝴蝶结变声器,因为它随心所欲地克隆任何人的声音。

其实,在现实世界中,这样的变声器并不少见。网上搜索“变声器”,便跳出各种软件,“帅哥变萝莉,大妈变御姐”,任君选择。



百度变声器搜索页面

在某些领域,变声技术也成了企业业务中的重要支撑。比如高德地图里林志玲、周星驰的导航声音,就得到了很多人的支持。

那“变声”是怎么实现的呢?

“变声”变的是什么?

首先,我们先得了解声音具有哪些性质。判断两个声音是否相同,我们一般从音调,响度,音色三个方面进行比较。

音调强调声音的高低,响度反应声音能传播的距离,音色是一声音特有波形的外在表现,结合这3个因素,就能分辨出不同的声音。



图片来源:《名侦探柯南》


要想实现“变声”,就要从这三个因素下手。通常来讲,变声器借助对音色和音调的双重复合改变,实现对声音的改变。

变声器之所以能变声是因为建立了一套独特的算法,能识别声音的音色和音调并对其进行调整,让声音产生变化。



变声器app截图,可选择不同的声音进行变声图片来源于网络

变声器类型

目前市场上的变声器主要有两大类,一类是硬件变声器,一类是软件变声器。虽然表现形式不一,但是变声原理相似。

硬件变声器是通过各种声卡(也就是硬件声卡)变声,声卡里预置了各种设置好算法的声音,借此实现“变声”。但这种方式缺点很明显,那就是电流声明显且种类相对较少。

相比之下,软件变声器使用更方便,能满足各种变声需求(比如唱歌,播音主持等),使声音更加立体,音效也更为丰富。

怎么实现变声

那这些不同的变声器到底是怎么改变声音特质的呢?

01、声波采样和时域分析

人发声的本质是通过声带震动,带动空气产生气压差,从而让声波在空气中传播。变声器要在一定范围内采集量化这些声音,通常采样在44100Hz,量化的范围在16bit,)也就是说,在一秒内可采样44100个样本点来描绘波形。

这些波形里面有各种不同的小波形,学术上叫做“基波”,每个人的基波不一样,都有自己的基音周期,也就是“基音频率”,即个体所拥有的独特的音频/音质/音色/音调,从而建立起各种各样声音的“数据库”。



图片来源:科学探索中心

02、傅里叶转换


对声音进行了采样和量化,接下来就是傅里叶转换,只有转换成频谱图,然后通过各种算法去捕捉规律,对声音信号以及不同声音频率的识别和分析,从而达到变声。

傅里叶转换小科普:傅里叶转换是由傅里叶数学家所发明,要想完整的从数学角度了解傅里叶转换必须具有高等数学的基础,不过从通俗易懂的角度去理解,傅里叶转换就是指将一件事情从两个维度去分析,比如一首歌,不同的时间段有不同的音调,但是从另一方面分析,可以把每个时间段的音调转换成数字,从而精准定位不同时间段的不同“调调”。



03、赋予音色风格

变声器不仅要能识别音频和语言内容,还要能赋予音色不同风格(比如语速快慢、强弱),只有这样,变声才称得上是随心所欲。