【CNMO新闻】在语音识别方面,两个麦克风比一个更好,声波到达多个麦克风会出现程度不同的时间延迟,这可以用于增强来自特定方向的信号的强度,同时减少来自其他方向的信号。然而,将语音与噪声分离的问题已经独立于语音识别并得到了解决,而文献表明这种方法产生了不合标准的结果。
Alexa
但亚马逊Alexa部门的研究人员开发出一种新颖的声学建模框架,通过统一语音增强和语音识别来提升性能,他们在试验中使用了一个双麦克风系统,相比于以前使用七个麦克风的系统,他们表示这种新系统将语音识别的错误率降低了9.5%。
他们在两篇论文中描述了他们的工作,第一篇论文描述了一种多麦克风方法,它取代了独立的手工编码算法并用单个神经网络识别语音信号,亚马逊目前的Echo音箱可以动态调整波束形成器,以适应新的声学环境,但是通过在不同环境的大型语料库中训练单一模型,研究人员能够取消适应步骤。
这两篇论文的作者表示,如果模型的每个组件(例如,特征提取器和波束形成优化器)分别进行初始化,性能会提高。他们补充表示,多样化的训练数据使该模型能够跨设备类型处理各种麦克风配置。