现实生活中有一部分听力障碍者因为先天或后天原因导致听力下降,他们需要佩戴助听器来提高声强达到改善听力的目的。不过很遗憾的是,传统的助听器会无差别地放大收集到的所有声音,包括了环境噪音,而真实情况下人耳收集到的声音会经过大脑处理,自动去除环境噪音,因此我们可以清晰听到有效信息。美国俄亥俄州立大学计算机科学与工程的王德良教授利用NVIDIA
TITAN X显卡GPU加速功能和深度学习神经网络训练出高效去除噪音的软件,适用于全数字助听器。
王德良教授团队选择了目前深度学习中流行的CUDA并行计算平台,负责并行运算的是NVIDIA TITAN X
GPU,配合上目前被称为最好用的TensorFlow深度学习框架和cuDNN深度神经网络GPU加速库。
第一步是利用声音的音量、频率和其它声音自然属性来训练一个神经网络,以此达到分辨有效语音与噪音的目的,这是目前助听器最大缺陷之一。
第二步是训练神经网络辨认更加复杂的人类语音声音以及各种复杂多变背景噪音。人语识别训练采用IEEE标准口述语音句子,而背景噪音训练样本来自开放式的自助餐厅录音以及来源于电影制作中常用特效声音。
经过长时间的不断训练,神经网络已经对人语和背景噪音有了很高的识别度。王德良团队根据训练成果开发了一款数字滤波器算法,该滤波器可以良好地分离语音和背景噪音,而且可以自主调整不同声音的音量,使得语音更为清晰。
最后研究团队分别在听力障碍者和听力正常者身上测试了他们深度学习后的助听器软件,看看不同人使用效果。听力障碍者在背景噪音环境下,听取人语的能力大幅度提升,部分测试者甚至分辨能力由原本的10%提升至90%。甚至在听力正常人群测试中,均反映能更好地分辨出人语。
而这项经过神经网络训练后的人语与环境噪声识别技术成果,不仅仅适用于为听力障碍者制造更好的数字助听器,还可以运用到手机的语音识别上,帮助人工智能助手更好获取人类语音信息;甚至可以考虑应用到战地士兵中,帮助他们在枪林弹雨中获取队友作战指令。