[发明专利]基于生成对抗网络的语音增强方法及系统在审

申请号：	202210301250.3	申请日：	2022-03-25
公开（公告）号：	CN114664318A	公开（公告）日：	2022-06-24
发明（设计）人：	汪付强;袁从刚;夏源;张鹏;吴晓明;张建强;刘祥志;郝秋赟;马晓凤	申请（专利权）人：	山东省计算中心（国家超级计算济南中心）
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L25/30;G06N3/04;G06N3/08
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于生成对抗网络语音增强方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于生成对抗网络的语音增强方法及系统，包括：获取带噪声语音信号；将带噪声语音信号，输入到训练后的生成对抗网络中，输出增强后的语音信号；其中，所述生成对抗网络，包括两个生成器和两个判别器；所述生成对抗网络，训练过程中通过对两个生成器与两个判别器的相互博弈，提升生成器逼近目标信号的能力。本发明充分考虑了语音信号的时序关系，改进了先前的生成器与判别器的全卷积的设计，生成器中添加使用多头注意力机制，并将多生成器多阶段增强与注意力机制相结合，充分利用了多头注意力机制与生成对抗网络博弈思想。本方法能够是增强后的语音具有更高的质量与可懂度。

技术领域

本发明涉及语音信号处理技术领域，特别是涉及基于生成对抗网络的语音增强方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

语音是信息传递最直接的方式，但在我们的各种生活场景中会有很多噪声的干扰，影响语音的质量。噪声会在人与人的通信中产生干扰，以及人机交互，含噪声的语音质量会极大影响语音系统的运行效率。在语音信号中，混杂的各种干扰噪声，语音增强的目的就是尽可能地去掉信号中含有的不需要的噪声，改善含噪语音的质量，同时增加语音的可懂性。

基于数字信号处理的语音增强方法主要有谱减法、维纳滤波法、基于子空间的算法。但这些算法存在一定局限性，引入了一些理想化的假设，如噪声平稳可加等，只有当噪声平稳时才能取得较好的效果。

目前，基于生成对抗网络的语音增强方法，其中生成器设计大多为单个生成器，并且生成器、判别器大多为全卷积的神经网络。生成器与判别器的全卷积的神经网络没有很好的考虑语音的时序特征。

发明内容

为了解决现有技术的不足，本发明提供了基于生成对抗网络的语音增强方法及系统；以生成对抗网络语音增强(SEGAN)网络进行改进，尽可能去除含噪声的语音中的噪声，提高含噪语音的可懂度和语音质量。改进添加多头注意力层，可以更好的利用语音的时序特征。

第一方面，本发明提供了基于生成对抗网络的语音增强方法；

基于生成对抗网络的语音增强方法，包括：

获取带噪声语音信号；将带噪声语音信号，输入到训练后的生成对抗网络中，输出增强后的语音信号；

其中，所述生成对抗网络，包括两个生成器和两个判别器；

所述生成对抗网络，训练过程中通过对两个生成器与两个判别器的相互博弈，提升生成器逼近目标信号的能力。

第二方面，本发明提供了基于生成对抗网络的语音增强系统；

基于生成对抗网络的语音增强系统，包括：

获取模块，其被配置为：获取带噪声语音信号；