[发明专利]语音分离网络生成方法、装置、电子设备以及存储介质在审
申请号: | 202210975124.6 | 申请日: | 2022-08-15 |
公开(公告)号: | CN115331694A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 姚鹏;王洋;李晨星;谈建超;邓峰;王晓瑞;宋成儒 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/30;G10L19/16;G10L19/02 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李加欣 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 分离 网络 生成 方法 装置 电子设备 以及 存储 介质 | ||
1.一种语音分离网络生成方法,其特征在于,所述方法包括:
获取语音分离超网络,所述语音分离超网络包括编码器和解码器,所述编码器和所述解码器均包括多个网络层和搜索空间,所述搜索空间配置有所述多个网络层的结构参数,所述结构参数包括下述至少一项:网络层的个数、网络层的多头自注意力机制模块中自注意力头的个数、网络层的前向感知模块中隐藏层的神经元个数;
基于多个样本音频信号,迭代训练所述语音分离超网络,其中,在第i次迭代过程中,基于所述编码器和所述解码器对应的搜索空间,确定所述语音分离超网络在本次迭代过程中的多个语音分离子网络,所述多个语音分离子网络的结构参数是基于多种不同的结构参数组合方式从所述编码器和所述解码器对应的搜索空间中确定的,基于所述多个语音分离子网络和本次迭代过程中输入的样本音频信号,获取本次迭代过程中输入的样本音频信号的语音分离结果,基于所述语音分离结果和标注音频信号,确定所述语音分离超网络的损失值,基于所述损失值,更新所述语音分离超网络的网络参数,i为正整数;
基于训练后的所述语音分离超网络,生成符合目标条件的目标语音分离子网络。
2.根据权利要求1所述的语音分离网络生成方法,其特征在于,所述方法还包括:
从所述多个样本音频信号中确定多组样本音频信号,每组样本音频信号包括至少一个样本音频信号;
所述基于所述多个语音分离子网络和本次迭代过程中输入的样本音频信号,获取本次迭代过程中输入的样本音频信号的语音分离结果,包括:
将各组样本音频信号按照各个语音分离子网络对应的传播路径在所述语音分离超网络中进行前向传播,得到各组样本音频信号的语音分离结果,其中,一组样本音频信号对应一个语音分离子网络。
3.根据权利要求2所述的语音分离网络生成方法,其特征在于,所述基于所述语音分离结果和标注音频信号,确定所述语音分离超网络的损失值,基于所述损失值,更新所述语音分离超网络的网络参数,包括:
基于各组样本音频信号的语音分离结果和标注音频信号,确定所述语音分离超网络的损失值;
若所述损失值或本次迭代满足迭代截止条件,输出训练后的所述语音分离超网络;
若不满足,更新所述语音分离超网络的网络参数,基于更新后的所述语音分离超网络,进行第i+1次迭代。
4.根据权利要求2所述的语音分离网络生成方法,其特征在于,所述将各组样本音频信号按照各个语音分离子网络对应的传播路径在所述语音分离超网络中进行前向传播,得到各组样本音频信号的语音分离结果,包括:
将第N组样本音频信号输入所述语音分离超网络,基于第N个语音分离子网络对应的掩膜在所述语音分离超网络中进行前向传播,得到所述第N组样本音频信号的语音分离结果,所述第N个语音分离子网络对应的掩膜指示所述第N个语音分离子网络的传播路径上参与训练的神经元个数,N为正整数。
5.根据权利要求1所述的语音分离网络生成方法,其特征在于,所述基于训练后的所述语音分离超网络,生成符合目标条件的目标语音分离子网络,包括:
基于训练后的所述语音分离超网络的网络参数和所述语音分离超网络中所述编码器和所述解码器对应的搜索空间,生成多个候选语音分离子网络;
基于验证集对所述多个候选语音分离子网络的网络性能进行评估,得到所述多个候选语音分离子网络的网络评估结果;
基于所述多个候选语音分离子网络的网络评估结果,从所述多个候选语音分离子网络中确定所述目标语音分离子网络。
6.根据权利要求5所述的语音分离网络生成方法,其特征在于,所述基于训练后的所述语音分离超网络的网络参数和所述语音分离超网络中所述编码器和所述解码器对应的搜索空间,生成多个候选语音分离子网络,包括:
对于任一个候选语音分离子网络,基于所述编码器和所述解码器对应的搜索空间,确定所述候选语音分离子网络中编码器和解码器的结构参数;
基于训练后的所述语音分离超网络的网络参数和所述候选语音分离子网络中编码器和解码器的结构参数,生成所述候选语音分离子网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210975124.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示装置及交通工具
- 下一篇:与结直肠癌化疗药物耐药相关的靶点及应用