[发明专利]基于卷积循环网络和WPE算法的语音增强混合处理方法在审
| 申请号: | 202110607848.0 | 申请日: | 2021-06-01 |
| 公开(公告)号: | CN115424627A | 公开(公告)日: | 2022-12-02 |
| 发明(设计)人: | 侯仲舒;卢晶 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0216;G10L25/27;G10L25/30 |
| 代理公司: | 江苏法德东恒律师事务所 32305 | 代理人: | 李媛媛 |
| 地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 卷积 循环 网络 wpe 算法 语音 增强 混合 处理 方法 | ||
1.基于卷积循环网络和WPE算法的语音增强混合处理方法,其特征在于,该方法包括以下步骤:
步骤1,使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;
步骤2,对模拟含噪混响语音数据和对应的清晰语音数据分别做短时傅里叶变换得到两者的短时傅里叶谱;
步骤3,构建DPCARN-WPE模型,该模型结构由深度神经网络结构和WPE去混响算法结构组成;使用步骤2得到的短时傅里叶谱训练所述DPCARN-WPE模型权重;
步骤4,对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;
步骤5,将步骤4获得的短时傅里叶谱输入步骤3完成训练的DPCARN-WPE模型,输出增强语音的短时傅里叶谱;
步骤6,对增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。
2.根据权利要求1所述的基于卷积循环网络和WPE算法的语音增强混合处理方法,其特征在于,所述步骤3中,深度神经网络结构的输入数据首先经过由二维卷积层组成的编码器,随后经过双通道长短期记忆网络块,接着在经过由二维逆卷积层组成的解码器,得到噪声抑制后的语音短时傅里叶谱作为输出,且在编码器和解码器之间还有注意机制结构进行数据的整合。
3.根据权利要求2所述的基于卷积循环网络和WPE算法的语音增强混合处理方法,其特征在于,所述步骤3中,WPE去混响算法结构的输入为所述深度神经网络结构的输出,即仅含混响的语音短时傅里叶谱;其输出为增强后语音的短时傅里叶谱。
4.根据权利要求3所述的基于卷积循环网络和WPE算法的语音增强混合处理方法,其特征在于,WPE去混响算法用迭代的方式估计期望清晰语音的功率谱密度,设计逆滤波器消除语音中的晚期混响成分,具体如下:
1)在短时傅里叶变换域中,考虑N点混响信号y(n,k),n=0,1,2,...,N-1,n为时域帧索引,k为频点索引,且混响信号满足以下自回归模型:
y(n,k)=d(n,k)+gH(k)y(n-D,k)
g(k)=[g(0,k),g(1,k),...,g(Lg-1,k)]T
y(n,k)=[y(n,k),y(n-1,k),...,y(n-Lg+1,k)]T
其中d(n,k)为期望清晰信号的时频点,g(k)为每个频点k对应的逆滤波器系数,Lg为逆滤波器阶数,D为划分早期混响和晚期混响的时刻点,()H表示矩阵的共轭转置,()T表示矩阵的转置,()*表示复数共轭;
2)初始化期望清晰语音的功率谱密度估计在每个频点k进行如下迭代计算逆滤波器系数估计和期望清晰信号的时频点估计
当收敛至稳定值或迭代达到最大迭代次数时结束迭代,WPE去混响算法结构便输出增强后语音的短时傅里叶谱
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110607848.0/1.html,转载请声明来源钻瓜专利网。





