[发明专利]语音增强方法、语音识别方法、说话人识别方法和系统有效
申请号: | 202310238080.3 | 申请日: | 2023-03-14 |
公开(公告)号: | CN116092501B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 柯登峰;聂帅;刘文举;梁山;罗琪;胡睿欣;姚文翰;舒文涛;王运峰 | 申请(专利权)人: | 深圳市玮欧科技有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L21/0232;G10L21/0264 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 姜有保 |
地址: | 518081 广东省深圳市盐田区海山街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 增强 方法 识别 说话 系统 | ||
本发明涉及语音识别技术领域,具体公开了一种语音增强方法、语音识别方法、说话人识别方法和系统,包括基于纯净语音、纯净噪声和散射噪声生成双麦远场带噪语音;基于纯净语音生成多个目标语音,并记录多个目标语音方位;将空间方位均匀地划分为若干个目标区域;基于若干个目标区域对多个目标语音方位进行标签化,获得标签化目标语音方位;从标签化目标语音方位提取双麦远场带噪语音的特征,以获得每个目标区域的特征;构建掩蔽神经语音增强模型;基于每个目标区域的特征、目标语音以及标签化目标语音方位训练掩蔽神经语音增强模型,基于训练好的掩蔽神经语音增强模型增强语音信号;该方法对目标语音方向进行选择性关注,实现语音增强。
技术领域
本发明涉及麦克风阵列的多通道语音识别技术领域,具体涉及一种语音增强方法、语音识别方法、说话人识别方法和系统。
背景技术
在远场条件下,语音信号容易受到噪声和混响的干扰,极大地影响了语音通话和语音识别等应用的性能;相对于单声道语音增强,多声道语音增强被证明能够显著提升语音的可懂度、感知质量和远场语音识别的性能;然而在目标语音的声源方位未知或者移动的场景,目标语音增强依然是一个极具挑战的任务。尽管有许多语音增强方法不需要事先知道目标声源的方位,比如MVDR和PMWF等,但它们的性能严重依赖于每个频带的协方差矩阵的估计以及其逆矩阵的计算,这个过程通常是非常困难而且费时的。
目标语音的方位是提升语音增强性能的重要线索;一方面,指向性波束形成技术有能力增强目标方向的信号而压制来自其他方向的信号,其被证明压制噪声的同时能有效避免语音畸变并显著提升语音识别的性能;另一方面,当目标声源方位已知时,许多方向信息能够被挖掘来提升语音增强的性能;因此,在许多语音增强系统中,声源方位估计通常被视为不可或缺的重要组成模块。这些系统通常在语音增强之前利用一段信号进行声源定位,比如唤醒词音频片段;然而,实时的声源定位非常困难,特别是在混响或声源移动的场景,声源定位更加困难;当声源方位估计不准确的时候,语音增强的性能会急剧下降。
对声源方位未知或者声源移动的场景,空间注意力机制能够实现对目标声源方位的选择性关注,是解决声源方位未知场景下目标语音增强的一个有潜力的方案。然而现有的空间注意力机制缺乏有效的目标引导,导致声源方位的选择性关注不准确、不稳定;因此,有必要研究目标方向引导的空间注意力机来提高空间注意力的性能,实现目标方向未知场景下的多通道语音增强。
发明内容
针对上述问题,本发明的一个目的是提供一种语音增强方法,该方法利用目标语音引导空间注意力对目标语音方向进行选择性关注,并对多个采样空间所提取的方向信息和频谱信息进行加权融合,最终实现目标语音方向的语音信号增强。
本发明的第二个目的是提供一种语音增强系统。
本发明的第三个目的是提供一种语音识别方法,该方法中采用了语音增强系统和语音识别模型(即语音识别模块);语音增强系统利用目标语音引导空间注意力对目标语音方向进行选择性关注,并对多个采样空间所提取的方向信息和频谱信息进行加权融合,最终实现目标语音方向的语音信号增强。
本发明的第四个目的是提供一种语音识别系统。
本发明第五个目的是提供一种说话人识别方法,该方法中采用了语音增强系统和说话人识别模型(即说话人识别模块);语音增强系统利用目标语音引导空间注意力对目标语音方向进行选择性关注,并对多个采样空间所提取的方向信息和频谱信息进行加权融合,最终实现目标语音方向的语音信号增强。
本发明的第六个目的是提供一种说话人识别系统。
本发明所采用的第一个技术方案是:一种语音增强方法,包括以下步骤:
S100:基于纯净语音、纯净噪声和散射噪声生成双麦远场带噪语音;以及基于纯净语音生成多个目标语音,并记录多个目标语音方位;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市玮欧科技有限公司,未经深圳市玮欧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310238080.3/2.html,转载请声明来源钻瓜专利网。