[发明专利]一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法有效

申请号：	201711397819.6	申请日：	2017-12-21
公开（公告）号：	CN107845389B	公开（公告）日：	2020-07-17
发明（设计）人：	李如玮;刘亚楠;李涛;孙晓月	申请（专利权）人：	北京工业大学
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L15/16;G10L25/24
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分辨率听觉谱系深度卷积神经网络语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法，首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR‑GFCC)；其次，跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值；然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出，对构建的7层神经网络进行训练；最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。本发明充分利用了人耳的工作机理，提出了模拟人耳听觉生理模型的语音特征参数，不仅可以保留更多的语音信息，而且提取过程简单可行。

技术领域

本发明属于语音信号处理技术领域，涉及到一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法。

背景技术

语音增强技术是指当语音信号被各种各样的噪声(包括语音)干扰，甚至淹没后，从噪声背景中提取出尽可能纯净的语音信号，增强有用的语音信号，抑制、降低噪声干扰的技术。由于干扰的随机性，因而从带噪语音提取完全纯净语音信号几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪声，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音的可懂度，这是一种客观度量。这两个目的往往不能兼得。

当前，语音增强已发展成为语音信号数字处理的一个重要分支。它在语音通信、语音编码、语音识别和数字助听器等诸多领域中得到了广泛应用。传统的语音增强方法有谱减法、维纳滤波法、最小均方误差法(MMSE)、基于统计模型和基于小波变换等方法，其在平稳噪声环境下有较好的性能，但对非平稳噪声处理效果不理想。随着计算听觉场景分析(CASA)出现，基于人耳听觉模型的方法被应用到语音增强当中。该方法根据估计的理想二值掩蔽值，利用人耳的听觉掩蔽效应实现语音增强。相对于其他语音增强算法,计算听觉场景分析对噪音没有任何假设,具有更好的泛化性能。但由于缺乏谐波结构很难处理语音中的清音成分。

随着深度神经网络技术的发展，由于其具有良好的复杂特征提取表达能力，擅长对数据中的结构化信息进行建模，许多研究者把它引入到语音增强当中，该方法是利用深度神经网络学习一个从带噪特征到分离目标的特征函数。目前常用的基于深度学习的语音增强算法主要是基于目标语音的幅度谱和理想时频掩蔽这两方面展开的。

基于深度神经网络的目标语音幅度谱的语音增强算法是直接估计目标语音的幅度谱，而幅度谱的变化范围较大，学习难度较大，对目标语音幅度谱的准确估计非常困难。

基于深度神经网络的时频掩蔽的语音增强算法是估计目标语音的二值掩蔽或软掩蔽，二者的计算比较简单，但是前者对语音质量损害较大，后者残留的背景噪声较多。

本发明提出了一种基于多分辨率听觉倒谱系数和卷积神经网络相结合的语音增强技术。该技术首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR-GFCC)；其次，跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值；然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出，对构建的7层神经网络进行训练；最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。

发明内容

本发明的目的是针对目前的语音增强算法在非平稳噪声下算法性能不理想的问题以及语音特征参数提取过程中存在的问题，提出了一种基于多分辨率倒谱系数和深度卷积神经网络相结合的语音增强技术。首先，使用gammatone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型，得到一种新的语音特征参数。然后，跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值；接着利用深度学习中的深度卷积神经网络(DCNN)模型具有提取复杂特征的能力，擅长对数据中的结构化信息进行建模对自适应的掩蔽阈值进行估计，可以解决传统的语音增强算法在非平稳噪声环境下性能不理想的问题。最后，利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。

基于多分辨率和深度卷积神经网络的语音增强方法的实现步骤如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711397819.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法有效

专利文献下载