人工耳蜗是一种电子设备,可以经外科手术放置到听障人士内耳中,通过外部声音处理器,发送电流来刺激神经,虽然人工耳蜗能够将这些电流刺激,翻译成为可以聆听的语音,但是聆听体验会因为用户身处环境,尤其是嘈杂的环境,而有非常大的差异。现代人工耳蜗通过外部声音处理器,来计算脉冲信号以驱动电极,而该领域一直以来的重要挑战,便是要想办法良好处理声音,把声音转换成为适当电极脉冲的方法。
针对这个问题,产业与学术界的科学家,举办了人工耳蜗黑客马拉松来集思广益,而Google则提出在人工耳蜗中使用Conv-TasNet语音强化模型的方式,来抑制非语音声音,使得用户能够更清楚地听到人声语音。研究人员将音频分解成16个重叠的波段,来对应人工耳蜗中的16个电极,但因为声音的动态范围容易跨越多个数量级,比预期电击能表示的更多,因此研究人员需要使用范式方法,压缩动态范围。
人工耳蜗用户的喜好各有不同,整体的体验来自于用户对于聆听各种类别音频的评估,这些类别包括音乐,研究人员表示,虽然音乐对于用户是一个重要声音类型,但也是特别难以处理的类别。由于Google的语音强化网络被训练能够抑制非语音声音,而这包含了噪音和音乐,因此他们特别采取额外的措施,来防止语音强化网络抑制音乐声音,为了达到这个目的,研究人员使用开源的YAMNet分类器,来判断语音与非语音,以即时调整混合音频的比例,以确保有够多的音乐不会被滤掉,能够被用户听到。
研究人员使用Conv-TasNet模型,来实现非语音音频的强化模块,该模块可以分离不同的声音。一开始原始音频波形,会被转换为神经网络可以使用的形式,并且根据特征分析来分离声音,该模型会截取特征并生成两种遮罩,一种遮罩用于语音,一种遮罩用于噪音,这些遮罩表示特征为语音和噪音的程度,通过将遮罩和分析特征相乘,以及一些转换计算,得到分离语音和噪音的音频。研究人员提到,Conv-TasNet模型有低延迟的特性,能够即时产生分离语音和噪音的估算。
经过盲听测试,这项研究成果可以在环境没有包含太大背景噪音的时候,让聆听者可以理解语音内容,但是在提高语音的清晰度上,仍有很大的空间。另外,由于这个研究还处于探索阶段,因此研究人员使用了290万个变量的模型,但这个模型太大还无法实际应用到现今的人工耳蜗中,仅是展示这项技术的未来潜力。