[发明专利]基于神经网络的语音增强方法、装置及电子设备在审
申请号: | 202110245564.1 | 申请日: | 2021-03-05 |
公开(公告)号: | CN113808607A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 陈泽华;吴俊仪;蔡玉玉;雪巍;杨帆;丁国宏;何晓冬 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G10L21/0224 | 分类号: | G10L21/0224;G10L21/0232;G10L25/30 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 语音 增强 方法 装置 电子设备 | ||
本公开提供一种基于神经网络的语音增强方法、装置、存储介质及电子设备;涉及语音信号处理领域。所述方法包括:将原始语音信号进行时频变换得到原始语音信号的原始幅度谱;利用时间维卷积核对原始幅度谱进行特征提取,得到时域平滑特征图;利用频率维卷积核对原始幅度谱进行特征提取,得到频域平滑特征图;对原始幅度谱、时域平滑特征图和频域平滑特征图进行组合特征提取,得到原始语音信号的增强幅度谱;对增强幅度谱进行时频逆变换得到增强语音信号。本公开通过对原始语音信号提取时频平滑特征,可以在时间轴和频率轴上实现双轴降噪,并结合深度神经网络可以实现降噪参数的自学习,进一步提升语音信号的质量。
技术领域
本公开涉及语音信号处理领域,具体而言,涉及一种基于神经网络的语音增强方法、语音增强装置、计算机可读存储介质以及电子设备。
背景技术
近几年,随着深度学习技术的高速发展,语音识别技术的识别效果也得到很大提升,该技术在无噪音场景下语音的识别准确率,已达到可以替代人工的语音识别标准。
目前,语音识别技术主要可以应用于智能客服、会议录音转写、智能硬件等场景。但是,当背景环境有噪音时,如在智能客服通话时用户周围环境杂音或会议记录音频中的背景杂音等,受此类杂音影响,语音识别技术可能无法准确地识别说话人的语义,进而影响语音识别的整体准确率。
因此,如何提高有噪音情况下的语音识别准确率成为语音识别技术下一个需要攻克的难关。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种基于神经网络的语音增强方法、语音增强装置、计算机可读存储介质以及电子设备,以解决现有技术中有噪音情况下的语音识别准确率较低的问题。
根据本公开的第一方面,提供一种基于神经网络的语音增强方法,包括:
将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱;
利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图;
利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图;
对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱;
对所述增强幅度谱进行时频逆变换得到增强语音信号。
在本公开的一种示例性实施例中,所述利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图,包括:
根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵;
对所述时域平滑参数矩阵作乘积运算得到所述时间维卷积核的权重矩阵;
对所述时间维卷积核的权重矩阵和所述原始幅度谱作卷积运算,得到所述时域平滑特征图。
在本公开的一种示例性实施例中,所述利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图,包括:
根据卷积滑窗和频域平滑因子确定频域平滑参数矩阵;
对所述频域平滑参数矩阵作乘积运算得到所述频率维卷积核的权重矩阵;
对所述频率维卷积核的权重矩阵和所述原始幅度谱的转置矩阵作卷积运算,得到所述频域平滑特征图。
在本公开的一种示例性实施例中,所述对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110245564.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:冷藏包和能够折叠的冷藏包
- 下一篇:存证方法、装置及其设备