我们很少想到噪音,因为我们正在倾听它们,在拥挤的城市广场和繁忙的百货商店等地方隔离音频存在着巨大的复杂性。在我们的听觉途径的较低层次中,我们将个体来源与背景隔离,将它们在空间中定位,并检测它们的运动模式 - 所有这些都在我们计算出它们的背景之前。
受到这种神经生理学的启发,一组研究人员在Arxiv.的预印纸上分享了这一文章(“ 使用仿生双耳声源定位的增强型语音识别 ”),该设计旨在测试地貌(即面部特征)对人脸的影响。声音识别的组成部分,如声源定位(SSL)和自动语音识别(ASR)。
正如研究人员指出的那样,躯干,头部和耳廓(耳朵的外部部分)吸收并反射声波,因为它们接近身体,根据声源的位置修改频率。它们前往耳蜗(内耳的螺旋腔)和内部的Corti器官,产生神经冲动以响应声音振动。这些冲动通过听觉神经系统传递到耳蜗核,这是一种将信息转发到两个结构的中继站内侧上橄榄(MSO)和侧上橄榄(LSO)。(MSO被认为有助于定位左侧或右侧的角度以精确定位声音源,而LSO使用强度来定位声源。),它们被整合到大脑的下丘(IC)中。
为了在算法上复制结构,研究人员设计了一个机器学习框架,处理嵌入人形机器人头部的麦克风记录的声音--iCub和Soundman。该框架包括四个部分一个SSL组件,将音频分解为多组频率,并使用频率波产生模仿Corti神经冲动的尖峰; 对某些角度产生的声音敏感的MSO模型; 对其他角度敏感的LSO模型; 以及一个IC组合的层,它结合了MSO和LSO的信号。额外的神经网络可以最大限度地减少混响和自我噪声(机器人关节和电机产生的噪音)。
为了测试系统的性能,研究人员使用Soundman建立SSL和ASR基线以及iCub头(配备允许其旋转的马达),以确定头部和内部组件的共振效应。一组13个均匀分布的扬声器采用半圆柱配置,朝向磁头喷射噪声,探测并处理它。
该团队发现,来自SSL的数据可以“显着改善” - 在某些情况下,在句子级别上提高了两倍 - 语音识别的准确性通过指示如何定位机器人头并选择适当的通道作为ASR的输入系统。当从头部移除耳廓时,性能甚至更好。
“这种方法与相关的方法形成对比,在这些方法中来自两个通道的信号在用于ASR之前是平均的,”该论文的作者写道。“动态SSL实验的结果表明该架构能够处理不同类型的混响。这些结果是我们之前在静态SSL中工作的重要扩展,并支持系统对真实环境中声音动态的稳健性。,我们的系统可以轻松地与最近的方法集成,以增强混响环境中的ASR [55] - [57],而不会增加计算成本。“