[发明专利]语音降噪的模型训练方法、语音降噪方法、装置及介质在审
申请号: | 202210669556.4 | 申请日: | 2022-06-14 |
公开(公告)号: | CN115083429A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 李强;王尧;叶东翔;朱勇 | 申请(专利权)人: | 北京百瑞互联技术有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/24;G10L25/30;H04W4/80;H04W76/14;G06N3/04;G06N3/08;H04L65/60;H04L65/80;H04M9/08 |
代理公司: | 北京国科程知识产权代理事务所(普通合伙) 11862 | 代理人: | 曹晓斐 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 模型 训练 方法 装置 介质 | ||
本申请公开了一种语音降噪的模型训练方法、语音降噪方法、装置及介质,属于语音编解码技术领域。该方法包括对预先获取的纯净语音与噪声进行声音混合,获取混合语音;对纯净语音与混合语音进行特征提取,获取理想子带增益与混合语音对应的倒谱系数;以及利用理想子带增益与倒谱系数对预设的神经网络进行训练,获取语音降噪模型。本申请提供一种语音降噪模型,通过将该语音降噪模型插入蓝牙编码器中,在编码过程中实现语音降噪的目的;在语音降噪的过程中,利用蓝牙编码器自身的时频转换模块获取谱系数,再进行后续的降噪步骤,使得本方案的降噪过程达到节省码率、减少系统的运算量、加快编码效率的效果。
技术领域
本申请涉及语音编解码技术领域,特别涉及一种语音降噪的模型训练方法、语音降噪方法、装置及介质。
背景技术
由于在蓝牙语音通信的过程中需要对语音信息进行降噪,以提高语音通信的音质与用户体验效果;在相关技术中,存在三种降噪方式,方法一:使用谱减法对语音信息进行降噪处理,其具体的实施方案为通过傅里叶变换对语音信息进行时频变换,将时域的语音信息转换为频域数据;在频域对数据进行噪声估计与消除,即在静音或纯噪声状态下,基于频谱系数估计噪声谱,并将噪声谱减去,得到更新的谱系数;再通过傅里叶逆变换转回时域;最后通过重叠相加的方式获得平滑的降噪语音信息,并将其输出。
方法二:在文献‘A Regression Approach to Speech Enhancement Based onDeep Neural Networks,Yong Xu,Jun Du,Li-Rong Dai,and Chin-Hui Lee’中,其基于深度神经网络DNN实现了降噪效果,此算法使用信号的幅度谱作为特征,以此学习带噪语音与纯净语音间的非线性映射关系,其降噪效果要明显优于传统的谱减法。
方法三:在文献‘A Hybrid DSP Deep Learning Approach to Real-Time Full-Band Speech Enhancement,Jean-Marc Valin’中,提出了一种更高效的基于循环神经网络RNN的降噪方法,基于循环神经网络可以有效地利用音频相邻帧之间的相关性,而且使用基于Bark子带的特征提取,将一帧信号的谱系数划分为22个子带,极大的降低了特征的数量,相应的降低了神经网络的复杂度。
然而,方法一的谱减法虽然对存在平稳噪声的语音数据具有很好的降噪效果,但却对存在非平稳噪声的语音数据无能为力。方法二的基于深度神经网络DNN的方法的不足之处在于,特征提取以频点为单位进行计算,使用了三层深度神经网络。语音信号的每一帧进行DFT(离散傅里叶变换)后被分为1024个频点,各频点对应的幅值被用作神经网络的输入特征。网络中的每个隐含层包含2048个节点,需要超过一千万个权重值。不仅需要占用很大的存储空间,而且运算量很大,较难部署在低功耗蓝牙设备。方法三的不足之处在于其时频变换的方式依旧是利用快速傅里叶变换与快速傅里叶逆变换,该方式的运算量与存储量都比较大不利于在低功耗嵌入式设备部署,并且该方式中对基因频率的分析与滤波、循环神经网络过程中均使得系统的复杂度提升。
基于上述的降噪方式,将其应用在蓝牙语音通信中时,典型的用法如图1所示,即是在音频编码前加入噪声消除的模块,先执行噪声消除,再进行音频编码,并通过蓝牙发射器发射出去,蓝牙接收器接收音频数据,并执行解码播放。
但是,上述几种方法共有的缺点是会增加系统端到端的延时,为了使得降噪后的语音帧与帧之间的数据比较平滑,上述噪声消除方法都采用了重叠相加法,以帧长10ms为例,其造成的算法延时也在10ms左右;然而,无论是经典蓝牙还是低功耗蓝牙,对于延迟的要求都比较高,上述增加的延时使得此方法在很多场景降低了用户体验,如直播、游戏等。
发明内容
本申请主要提供一种语音降噪的模型训练方法、语音降噪方法、装置及介质,用以解决现有技术存在的运算量大、存储量大以及增加系统端到端的延迟,使得用户体验降低的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百瑞互联技术有限公司,未经北京百瑞互联技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210669556.4/2.html,转载请声明来源钻瓜专利网。