[发明专利]一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法有效
申请号: | 201711397819.6 | 申请日: | 2017-12-21 |
公开(公告)号: | CN107845389B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 李如玮;刘亚楠;李涛;孙晓月 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L15/16;G10L25/24 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法,首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR‑GFCC);其次,跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值;然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出,对构建的7层神经网络进行训练;最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。本发明充分利用了人耳的工作机理,提出了模拟人耳听觉生理模型的语音特征参数,不仅可以保留更多的语音信息,而且提取过程简单可行。 | ||
搜索关键词: | 一种 基于 分辨率 听觉 谱系 深度 卷积 神经网络 语音 增强 方法 | ||
【主权项】:
一种基于多分辨率和深度卷积神经网络的语音增强方法,其特征在于,包括以下步骤:步骤一,将含噪语音通过64通道的gammatone滤波器进行滤波,对每一个频率通道的输出做加窗分帧处理,得到其时频域表示形式;步骤二,提取每个时频单元的特征参数。(1)帧长为20ms,帧移为10ms,求每个时频单元的能量,记作CG1;然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度‑响度感知特性;最后经过DCT到倒谱域,同时取前36维系数,得到CG1的倒谱系数,记作CG1‑GFCC;(2)将帧长改为200ms,重复步(1)特征提取过程,得到CG2‑GFCC;(3)使用一个长为11帧,宽为11子带的方形窗对CG1进行平滑,记作CG3,重复(1)中特征提取过程,得到CG3‑GFCC;(4)使用一个长为23帧,宽为23子带的方形窗对CG1进行平滑,记作CG4,重复(1)中特征提取过程,得到CG4‑GFCC;(5)将CG1‑GFCC、CG2‑GFCC、CG3‑GFCC和CG4‑GFCC合并得到36*4维的特征向量,得到多分辨率倒谱系数(MR‑GFCC);(6)MR‑GFCC参数做一阶和二阶差分参数得到△MR‑GFCC和△△MR‑GFCC,MR‑GFCC、△MR‑GFCC和△△MR‑GFCC相结合作为最后的语音特征参数;步骤三,计算DCNN训练的目标首先分别计算出IBM和IRM,然后通过跟踪噪声变化自适应的估计出IBM和IRM前面的系数,最后将二者结合起来计算出自适应的掩蔽阈值;步骤四,构建深度卷积神经网络模型(DCNN),构建了一个7层的深度卷积神经网络学习输入和输出之间的非线性关系;步骤五,将提取的特征参数和计算的自适应混合掩蔽阈值分别作为DCNN的输入和输出,对构建的7层深度卷积神经网络进行训练,得到网络的权值和偏置;步骤六,按步骤二的方法提取测试的含噪语音的特征参数,输入到步骤五已经训练好的深度卷积神经网络中,输出一个自适应的掩蔽阈值;步骤七,利用含噪语音和估计出的自适应的掩蔽阈值去合成增强后的语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711397819.6/,转载请声明来源钻瓜专利网。