人工耳蜗应用AI技术，助听障者听得更清楚

Google进行了一项探索性研究，以证明语音强化技术，特别是噪音抑制器，也可以用于人工耳蜗，来强化用户在嘈杂的环境对声音的理解。

人工耳蜗是一种电子设备，可以经外科手术放置到听障人士内耳中，通过外部声音处理器，发送电流来刺激神经，虽然人工耳蜗能够将这些电流刺激，翻译成为可以聆听的语音，但是聆听体验会因为用户身处环境，尤其是嘈杂的环境，而有非常大的差异。现代人工耳蜗通过外部声音处理器，来计算脉冲信号以驱动电极，而该领域一直以来的重要挑战，便是要想办法良好处理声音，把声音转换成为适当电极脉冲的方法。

针对这个问题，产业与学术界的科学家，举办了人工耳蜗黑客马拉松来集思广益，而Google则提出在人工耳蜗中使用Conv-TasNet语音强化模型的方式，来抑制非语音声音，使得用户能够更清楚地听到人声语音。研究人员将音频分解成16个重叠的波段，来对应人工耳蜗中的16个电极，但因为声音的动态范围容易跨越多个数量级，比预期电击能表示的更多，因此研究人员需要使用范式方法，压缩动态范围。

人工耳蜗用户的喜好各有不同，整体的体验来自于用户对于聆听各种类别音频的评估，这些类别包括音乐，研究人员表示，虽然音乐对于用户是一个重要声音类型，但也是特别难以处理的类别。由于Google的语音强化网络被训练能够抑制非语音声音，而这包含了噪音和音乐，因此他们特别采取额外的措施，来防止语音强化网络抑制音乐声音，为了达到这个目的，研究人员使用开源的YAMNet分类器，来判断语音与非语音，以即时调整混合音频的比例，以确保有够多的音乐不会被滤掉，能够被用户听到。

研究人员使用Conv-TasNet模型，来实现非语音音频的强化模块，该模块可以分离不同的声音。一开始原始音频波形，会被转换为神经网络可以使用的形式，并且根据特征分析来分离声音，该模型会截取特征并生成两种遮罩，一种遮罩用于语音，一种遮罩用于噪音，这些遮罩表示特征为语音和噪音的程度，通过将遮罩和分析特征相乘，以及一些转换计算，得到分离语音和噪音的音频。研究人员提到，Conv-TasNet模型有低延迟的特性，能够即时产生分离语音和噪音的估算。

经过盲听测试，这项研究成果可以在环境没有包含太大背景噪音的时候，让聆听者可以理解语音内容，但是在提高语音的清晰度上，仍有很大的空间。另外，由于这个研究还处于探索阶段，因此研究人员使用了290万个变量的模型，但这个模型太大还无法实际应用到现今的人工耳蜗中，仅是展示这项技术的未来潜力。