[发明专利]基于生成对抗网络的语音增强方法及系统在审
申请号: | 202210301250.3 | 申请日: | 2022-03-25 |
公开(公告)号: | CN114664318A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 汪付强;袁从刚;夏源;张鹏;吴晓明;张建强;刘祥志;郝秋赟;马晓凤 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 语音 增强 方法 系统 | ||
本发明公开了基于生成对抗网络的语音增强方法及系统,包括:获取带噪声语音信号;将带噪声语音信号,输入到训练后的生成对抗网络中,输出增强后的语音信号;其中,所述生成对抗网络,包括两个生成器和两个判别器;所述生成对抗网络,训练过程中通过对两个生成器与两个判别器的相互博弈,提升生成器逼近目标信号的能力。本发明充分考虑了语音信号的时序关系,改进了先前的生成器与判别器的全卷积的设计,生成器中添加使用多头注意力机制,并将多生成器多阶段增强与注意力机制相结合,充分利用了多头注意力机制与生成对抗网络博弈思想。本方法能够是增强后的语音具有更高的质量与可懂度。
技术领域
本发明涉及语音信号处理技术领域,特别是涉及基于生成对抗网络的语音增强方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
语音是信息传递最直接的方式,但在我们的各种生活场景中会有很多噪声的干扰,影响语音的质量。噪声会在人与人的通信中产生干扰,以及人机交互,含噪声的语音质量会极大影响语音系统的运行效率。在语音信号中,混杂的各种干扰噪声,语音增强的目的就是尽可能地去掉信号中含有的不需要的噪声,改善含噪语音的质量,同时增加语音的可懂性。
基于数字信号处理的语音增强方法主要有谱减法、维纳滤波法、基于子空间的算法。但这些算法存在一定局限性,引入了一些理想化的假设,如噪声平稳可加等,只有当噪声平稳时才能取得较好的效果。
目前,基于生成对抗网络的语音增强方法,其中生成器设计大多为单个生成器,并且生成器、判别器大多为全卷积的神经网络。生成器与判别器的全卷积的神经网络没有很好的考虑语音的时序特征。
发明内容
为了解决现有技术的不足,本发明提供了基于生成对抗网络的语音增强方法及系统;以生成对抗网络语音增强(SEGAN)网络进行改进,尽可能去除含噪声的语音中的噪声,提高含噪语音的可懂度和语音质量。改进添加多头注意力层,可以更好的利用语音的时序特征。
第一方面,本发明提供了基于生成对抗网络的语音增强方法;
基于生成对抗网络的语音增强方法,包括:
获取带噪声语音信号;将带噪声语音信号,输入到训练后的生成对抗网络中,输出增强后的语音信号;
其中,所述生成对抗网络,包括两个生成器和两个判别器;
所述生成对抗网络,训练过程中通过对两个生成器与两个判别器的相互博弈,提升生成器逼近目标信号的能力。
第二方面,本发明提供了基于生成对抗网络的语音增强系统;
基于生成对抗网络的语音增强系统,包括:
获取模块,其被配置为:获取带噪声语音信号;
语音增强模块,其被配置为:将带噪声语音信号,输入到训练后的生成对抗网络中,输出增强后的语音信号;
其中,所述生成对抗网络,包括两个生成器和两个判别器;
所述生成对抗网络,训练过程中通过对两个生成器与两个判别器的相互博弈,提升生成器逼近干净语音目标信号的能力。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210301250.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高羊剪绒服装产品板面黑度的方法
- 下一篇:一种叠片电池X射线检测装置