现有的语音识别技术可以让用户和Siri直接对话,问问明天的天气,或者让Alexa放首歌什么的。
但是这些技术还是需要人们说出声音。但假如有一个人不会说话呢?或者在某些场合不适合说出声音呢?
康奈尔大学鲍尔斯计算机与信息科学学院信息科学助理教授Cheng Zhang,和博士生Ruidong Zhang给出了答案:Speechin。
这是一款通过识别脖子和脸部的皮肤变形来识别无声指令的设备。它利用颈装红外摄像头来捕捉这些图片。
2021年12月31日发表在「Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies」上的「SpeeChin: A Smart Necklace for Silent Speech Recognition」一文详细介绍了这种技术。
10月份,Ruidong Zhang把论文发到了UbiComp 2022会议上。
「这项技术涉及两个问题。一个是,为什么一定要用项链?另一个是,为什么要识别口型?」
对于第一个问题,我们认为项链是一种人们会习惯佩戴的东西。相比于戴在耳朵上可能会更舒服一点。
对于第二个问题,很多人可能会认为自己的手机上已经有语音识别的功能了,不会再需要戴个项链。但是有的时候你可能不太能讲话讲出声音,或者有的人可能就是发不出任何声音。」
「而我们推出的这项技术可以学习一个人说话的时候身体各个部分的模式,这样就算不出声也能知道他在说什么。」
「我们引入了全新的形状因子、硬件。」Ruidong Zhang说。他在2020年在中国的家里搭建出了这款新设备的原型机。那时他正在中国远程完成他第一年的博士项目。
这个设备在外观上和Cheng Zhang去年展示的Neckface技术很像。
Neckface是由Cheng Zhang和他的Scifi实验室团队成员一同完成的。Neckface用红外摄像机不断地捕捉整个脸部的变化轨迹,收集下巴和脖子上的皮肤图像。
像Neckface一样,Speechin也是用一台红外摄像机来捕捉佩戴者皮肤的变化,它装在用3D打印出来的项链上。为了提高佩戴的稳定性,开发者在两侧各装了一个小翅膀,还在底部放了一枚硬币。
相比于在人脸前面架一台摄像机,在脖子上挂一个红外摄像机会更方便,更保护隐私。因为面前如果有摄像机的话无法避免地会拍到身后的场景,这可能会侵犯隐私。
首次实验他们招募了20个参与实验的人。一半说英语,一半说中文普通话。小组成员主要通过测试确定下巴的基线位置。然后用不同的图片来训练设备,学习识别一些简单的指令。
Ruidong Zhang让参与实验的人用英语说出54个指令,包括数字指令、互动指令、语音助理指令、标点指令和导航指令。然后用汉语说出44个简单的词或者短语,内容基本相同。
Speechin识别英语和汉语的平均准确率是90.5%和91.6%。为了更大限度地测试极限,实验人员又找了10位参与者开展了另一项实验。
实验人员让这10个人无声地说出精心设计的72个由音素构成的一个音节的、不是单词的内容,这些音素包括18个辅音和4个元音。
最后,小组成员又找来6个人,边走边说出10个中文词组和英文词组。这次的成功率稍有下降,其原因是在走路的时候会产生一些变量,比方说,走路的时候比不动的时候头部运动要更多。
Ruidong Zhang在家里用焊接台建起实验室,在家乡招募人员参与实验。
我住的地方是个小城,会英语的人不好找。所以我们最后去杭州了,在浙大找会说英语的人参与实验。这对我来说是个难忘的经历。