[发明专利]基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法在审
申请号: | 201911419999.2 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111341339A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 石伟;王鹏 | 申请(专利权)人: | 深圳海岸语音技术有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0208;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518055 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声学 矢量 传感器 自适应 波束 形成 深度 神经 网络技术 目标 语音 增强 方法 | ||
本发明涉及一种基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法,该方法通过自适应波束形成器声学矢量传感器各通道原始数据进行波束形成,得到初步增强的单通道目标语音时频谱;再通过高阶空间匹配波束滤波器对所得的单通道数据进行滤波,再次增强目标语音;最后通过训练好的专用深度神经网络,对所得的数据进行处理,得到最终增强目标语音时频谱。通过该方法可以有效抑制空间干扰声源和背景噪声,实现目标语音的增强;就算是在阵列或目标声源角度估计失配的情况下,性能也一样优秀;同时对于背景噪声等非相干噪声的抑制作用也很好,能满足实际应用。
技术领域
本发明涉及语音信号处理技术领域,具体地,涉及一种基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法。
背景技术
在实际环境中,麦克风在拾取语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声、房间混响以及其它说话人的话音干扰,因此拾取语音的质量受到影响。语音增强技术是语音处理领域的核心技术之一,能够实现从带噪语音中提取干净的目标语音,以改善接收端语音质量,提高语音的清晰度、可懂度和舒适度,使人易于接受或提高语音处理系统的性能。
基于单个麦克风的语音增强技术的研究已经有四十多年的历史。但是实际情况中,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风增强感兴趣的声音并有效抑制背景噪声和方向性强干扰是相当困难的。引入麦克风阵列技术后,语音增强技术取得了很大突破。相比传统的单一麦克风语音增强技术,麦克风阵列语音增强技术可以利用语音信号的空间信息来形成波束,实现对干扰噪声的消除,能够保证在语音信息损失最小的条件下实现噪声抑制(J.Benesty,S.Makino,and J.E.Chen,Speech Enhancement.Berlin,.Germany:Springer,2005.)。因此近十多年来,麦克风阵列语音增强技术已成为了语音增强技术的研究热点和关键技术。然而,目前大多数的麦克风阵列语音增强技术的性能都是正比于阵列所用麦克风数目的,因此该种技术的研究往往采用较多麦克风的阵列,有的麦克风阵列甚至使用数百个麦克风,而较多的麦克风数目造成麦克风阵列的体积也较大,最典型的案例是MIT搭建的用于噪声消除和语音增强的麦克风阵列使用了1020个麦克风,其阵列孔径有几米长。因此麦克风阵列技术噪声抑制性能虽好,但由于其设备体积大,算法运算复杂度高,故在实际应用时受到了许多限制。
声学矢量传感器(Acoustic Vector Sensor,AVS)作为音频信号采集器。与常用的声压麦克风相比,AVS在结构上具有其特殊性:一颗AVS由2到3个正交放置的压力梯度传感器和1个全向压力传感器构成(A.Nehorai and E.Paldi,Vector-sensor arrayprocessing for electromagneticsource localization,Signal Processing,IEEETransactions on,vol.42,pp.376-398,1994.),它的空间结构紧凑,传感器近似同位放置,各个传感器接收到的音频信号无时延差别。对于理想的AVS,各通道接收信号存在三角函数关系,因此,仅单颗AVS就能够实现单个或者多个的空间声源到达方向的估计。随着移动互联网和智能机器人等应用需求的不断增长,具有更小体积的AVS,必将使之在众多场景中替代常规麦克风阵列技术,成为未来音频传感和噪声抑制的最佳解决方案之一。
为便于描述,以二维场景为例进行说明,即只利用AVS中2个正交同位放置的压力梯度传感器采集音频信号的场景。实际应用中,可同理推广至三维场景或利用更多传感器的情形。在二维场景下,其梯度传感器输出的信号模型可表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳海岸语音技术有限公司,未经深圳海岸语音技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911419999.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示面板
- 下一篇:一种显示控制方法、显示装置和存储介质