[发明专利]基于动态卷积和窄带Conformer的语音增强方法在审
申请号: | 202211425722.2 | 申请日: | 2022-11-15 |
公开(公告)号: | CN115762544A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 李燕萍;陆元昕 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0208;G10L25/30 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 姜梦翔 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 卷积 窄带 conformer 语音 增强 方法 | ||
本发明涉及语音处理技术领域,具体涉及到一种基于动态卷积和窄带Conformer的语音增强方法,本方法包括训练阶段和测试阶段,能够实现高质量的语音增强。本发明中提出的语音增强模型由生成器和鉴别器组成,首先在生成器中采用窄带Conformer网络提升模型对语音频谱信息的提取能力,进一步利用动态卷积代替传统卷积,极大地减少模型的参数量和计算量,不仅改善降噪效果,而且有效提升算法的运行效率以及模型的稳定性和可靠性。
技术领域
本发明涉及语音处理技术领域,具体涉及到一种基于动态卷积和窄带Conformer的语音增强方法。
背景技术
在真实环境中,语音信号不可避免地受到各种噪声的干扰,如其他人的谈话、电视节目、餐馆、地铁等声音。除了环境噪声,声波在封闭空间(如客厅、会议室等)中的衰减和延时反射所引起的混响,也会影响语音的感知质量。研究者将真实场景下影响语音质量的因素总结为三大方面:环境噪声、房间混响和其他说话人干扰。语音增强的研究目标就是消除这三方面的影响。语音增强技术,是指通过语音信号处理算法从被噪声干扰的语音中恢复目标语音,进而提高目标语音的感知质量和可懂度。
常见的语音增强算法可以划分成两大类:传统的语音增强算法和基于机器学习的语音增强算法。经过几十年的发展,传统的语音增强算法领域已经诞生了几类非常经典的语音增强算法。1979年,Boll等人提出了经典的谱减法,随后Lim等人针对谱减法的一系列问题提出了维纳滤波法。1985年,Ephraim等人提出了基于对数谱的最小方差误差估计方法。1991年,Dendrinos等人提出了将奇异值分解运用于信号子空间中,但是这种方法也会出现一定的语音失真以及音乐噪声问题。为了解决此问题,2000年,Mittal等人提出了一种基于噪声霍特林变换矩阵的语音增强算法。
随着计算机硬件能力的提升以及训练数据集的不断扩大,基于机器学习的语音增强算法受到了研究人员的重视。1992年,Ephraim等人提出了利用语音识别领域中隐马尔可夫模型的基本思想,对含噪语音及纯净语音进行最大后验信号估计和最小均方误差来实现语音增强,获得了比谱减法更佳的语音增强效果。2008年,Wilson等人提出了基于非负矩阵分解的算法。2013年,Lu等人基于深度置信网络以及降噪自动编码器的思想,成功将深层神经网络运用到语音增强领域中。随着卷积神经网络的兴起,其网络中的计算可以并行执行,同时特有的权重共享及局部感知的特性可以有效地捕获语音信号中的一些局部细节。2017年,Pascualet等人提出SEGAN模型,验证了基于生成对抗网络的时域语音增强的可行性。2018年,Kim等人提出MDPhD模型,该模型一定程度上缓解了时域语音增强方法建模困难的问题。
得益于语音增强领域的蓬勃发展,上述提到的方法在一定程度上提升了语音增强的感知质量和可懂度,但上述提到的方法尚存在以下问题:由于长输入导致的计算量过大,从而降低了模型效率,另一方面,模型对语音特征信息的提取能力有待提高,因此如何减少计算参数量以及进一步提高模型效率,同时提高模型对语音特征信息的提取能力成为当前该领域的研究热点和难点。
发明内容
为了克服现有技术计算的参数量过大,模型效率低下,耗时过长的不足,本发明披露了一种基于动态卷积和窄带Conformer的语音增强方法,该方法可以增强网络的表征能力,有效提取局部和全局的上下文特征信息,提高模型对深层特征的学习能力,从而获得更高的语音感知质量和可懂度。
本发明采用的技术方案如下:
一种基于动态卷积和窄带Conformer语音增强方法,包括训练阶段和测试阶段,所述训练阶段包括以下步骤:
步骤1、获取大量的训练语料,训练语料由多名说话人的语料组成,包括含噪语音和纯净语音;
步骤2、对训练语料中的原始含噪语音、原始纯净语音进行预处理,得到固定长度的含噪语音x和纯净语音s;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211425722.2/2.html,转载请声明来源钻瓜专利网。