[发明专利]一种基于表征学习的深度学习语音增强方法在审

申请号：	202110993246.3	申请日：	2021-08-27
公开（公告）号：	CN113971960A	公开（公告）日：	2022-01-25
发明（设计）人：	张涛;郭浩阳;刘赣俊	申请（专利权）人：	天津大学
主分类号：	G10L21/0224	分类号：	G10L21/0224;G10L25/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于表征学习深度语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

随着模型训练方法的进一步发展，越来越多的深度学习方法被用于语音增强。基于深度学习的方法在语音增强方面取得了较好的效果，但在将噪声语音映射为纯语音的过程中，DNN的输入通常是噪声语音的时域PCM或频域幅度谱。这样，输入层的单元数就太大了。它不仅增加了DNN训练阶段的复杂度，而且降低了纯语音与噪声的区别。为了提高增强语音的质量和可理解性，减少DNN输入层的单元数，本技术使用了AE与DNN相结合的降噪算法。在时域提取语音特征，利用黄金分割法确定声发射每一隐藏层的单元数。然后将声发射提取的语音特征应用到基于DNN的语音增强系统中。

一、技术领域

本技术提出了一种新的深度神经网络结构来实现语音增强，将表征学习其作为一种无监督学习方法来提取和减少数据的特征，并将其应用到DNN语音增强系统中。所提出的语音增强技术的优于PCM-DNN和DDAE等常用的深度神经网络方法，特别是在低信噪比时。

二、背景技术

深度神经网络(Deep Neural Network，DNN)，它将复杂的非线性映射函数从有噪声的语音学习到无噪声的语音。显然，这种强大的建模能力在低信噪比的条件下，特别是在未知和不匹配噪声的条件下，可以获得很好的分离性能。在许多语音通信应用中，使用DNN的非线性模型映射来降低噪声水平已成为研究人员的常规。然而，输入数据的维数对语音增强性能有着至关重要的影响，因为DNN输入层的单元数较多，高维数据会增加训练的复杂度，降低语音与噪声的区别。在大多数情况下，深度学习模型不能从完全任意的数据中学习。提供给模型的数据应该便于模型学习。为了提高DNN的有效性，最好在数据输入模型之前对其进行特征学习，即对数据进行编码和转换。特征输入的质量将直接影响模型，同时对模型的时空复杂度和收敛速度也有很大的影响。这些技术可以减小问题的规模，避免过拟合，提高模型的预测精度和泛化能力。通过提供较小的特征集作为模型的输入，它们还可以用更短的训练时间构建更简单的模型。特征学习技术不仅降低了数据的维数和计算复杂度，还提高了数据的质量，从而影响语音增强的性能因此，如何设计一种更有说服力的FL机制，从海量原始数据中对更抽象的特征进行降维和提取高级特征是至关重要的。

在上述考虑的基础上，我们提出了一种自编码器(AE)结构。在该机制中，我们将其作为一种无监督学习方法来提取和减少数据的特征。。通过定义重构误差函数来衡量自编码学习算法的学习效率。在自编码器的基础上增加正则化约束，得到相应的变形自编码器。自动编码器是深度学习中常用的模型或框架之一。采用无监督学习方法对数据的特征进行提取和降维。在自编码器的输入层和隐含层之间，存在一个编码过程，通过对输入数据进行编码操作，获得输入数据的编码表示；在隐含层和输出层之间，有一个解码过程，通过对具有编码表示的隐含层进行解码操作，得到输入数据的重构。通过定义重构误差函数来衡量自编码学习算法的学习效率。在自编码器的基础上增加正则化约束，得到相应的变形自编码器。

一般来说，基于深度学习的方法在语音增强方面取得了较好的效果，但在将噪声语音映射为纯语音的过程中，DNN的输入通常是噪声语音的时域PCM(Pulse CodeModulation)或频域幅度谱。这样，输入层的单元数就太大了。它不仅增加了DNN训练阶段的复杂度，而且降低了纯语音与噪声的区别。此外，增强语音的质量和可理解性也会下降。为了提高增强语音的质量和可理解性，减少DNN输入层的单元数，本技术使用了AE(auto-encoder)与DNN相结合的降噪算法。利用声发射在时域提取语音特征，利用黄金分割法确定声发射每一隐藏层的单元数。然后将声发射提取的语音特征应用到基于DNN的语音增强系统中。与谱减法、维纳滤波、基于对数最小均方误差的统计模型方法(Log-MMSE)、基于PCM的DNN方法(PCM-DNN)、主成分分析后PCM的DNN方法(PCA-DNN)相比，本文提出的算法大大提高了语音增强的性能。

三、发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110993246.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种精准度高的激光打标器
下一篇：一种基于混洗蛙跳算法的卷积神经网络框架自动设计方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于表征学习的深度学习语音增强方法在审

专利文献下载