[发明专利]基于进阶式的语音深度神经网络训练方法、装置有效
申请号: | 202210116109.6 | 申请日: | 2022-02-07 |
公开(公告)号: | CN114155883B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 史慧宇;欧阳鹏 | 申请(专利权)人: | 北京清微智能信息技术有限公司 |
主分类号: | G10L25/84 | 分类号: | G10L25/84;G10L25/30 |
代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 朱玲 |
地址: | 100176 北京市大兴区北京经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 进阶 语音 深度 神经网络 训练 方法 装置 | ||
本发明公开了一种基于进阶式的语音深度神经网络训练方法、装置、存储介质及电子装置。其中,该基于进阶式的语音深度神经网络训练方法包括:获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括进阶式提取器、编码器和重构器,确定预设语音深度神经网络模型为目标语音深度神经网络模型,基于本方案中训练的包括进阶式提取器、编码器和重构器的语音深度神经网络,解决了现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
技术领域
本发明涉及语音信号处理相关领域,具体而言,涉及一种基于进阶式的语音深度神经网络训练方法、装置、存储介质及电子装置。
背景技术
智能设备如智能音响、助听器、智能耳机等已成为人们日常生活中不可或缺的一部分。这些设备的快速发展得益于近些年语音交互技术的不断提高。语音交互时,说话者常常会在场景复杂的情况说出口令,因此,说话人的语音通常会收到噪声、混响或者其他说话人的干扰。若是不能及时的将这些背景噪声或者重叠的说话声去除,将严重影响后端的语音识别、语义识别或唤醒等应用。因此确有必要将语音的提取和分离技术作为语音信号处理的研究重点。单通道语音分离技术是语音分离算法中研究和应用最广泛的技术,相比于多通道语音分离任务,他的优点是硬件要求和成本较低,运算量较小,但是缺点是算法设计难度更高,因为单通道语音分离主要利用单个麦克风采集的信号,借助目标语音和干扰信号之间的时频域声学和统计特性的差异进行建模。
近些年,神经网络和深度学习技术的快速发展使得语音分离技术在这一领域得到广泛的研究。基于深度学习的语音分离方法的基本思想是:建立语音分离模型,从混合语音中提取特征参数,然后通过网络训练寻找特征参数与目标语音信号的特征参数之间的映射关系,之后任意输入的混合信号都可以通过训练后的模型输出目标语音的信号,从而达到语音分离的目的。端到端的时域和频域的算法都开展了大量的研究工作,频域中的算法有Deep Clustering,DANet,uPIT,Deep CASA等算法,时域中的算法有Conv-TasNet,BLSTM-TasNet,FurcaNeXt,wavesplit等。这些算法大多以纯语音分离为平台设计的算法,虽然分离效果不错,但是当这些算法应用在复杂场景下时,分离准确度大大衰减。然而真实的生活场景往往伴随着背景噪声、混响和其他说话人声音等因素,若是研究语音的分离问题不可避免的要研究混合语音中包含较多干扰因素时,采取何种方法能使得算法更准确、更高效。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于进阶式的语音深度神经网络训练方法、装置、存储介质及电子装置,以至少解决现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
根据本发明实施例的一个方面,提供了一种基于进阶式的语音深度神经网络训练方法,包括:获取混合语音样本以及目标样本语音,其中,所述混合语音样本包括目标语音和噪音语音;将所述混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,所述预设语音深度神经网络模型包括进阶式提取器、重构器和编码器,所述编码器用于对所述混合语音进行特征提取,得到第一特征,所述进阶式提取器用于根据所述第一特征,计算得到高维映射关系特征,所述重构器用于根据所述高维映射关系特征,得到所述混合语音样本中的预测目标语音;根据所述目标样本语音和所述预测目标语音所确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
可选的,所述编码器用于对所述混合语音进行特征提取,得到第一特征,包括:将所述混合语音样本输入到所述预设语音深度神经网络模型中,通过所述编码器包括的两层卷积网络、ReLU激活函数和批归一化处理,得到所述第一特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清微智能信息技术有限公司,未经北京清微智能信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210116109.6/2.html,转载请声明来源钻瓜专利网。