[发明专利]声源分离方法及装置、神经网络的模型训练方法及装置有效
申请号: | 202010136342.1 | 申请日: | 2020-03-02 |
公开(公告)号: | CN111370019B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 孔秋强;王雨轩 | 申请(专利权)人: | 字节跳动有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/30;G06F18/2415;G06N3/0464;G06N3/08;G06F18/214;G06F17/14 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 彭久云 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声源 分离 方法 装置 神经网络 模型 训练 | ||
1.一种声源分离方法,包括:
获取混合音频;
确定与所述混合音频对应的声源标签组,所述声源标签组包括至少一个声源标签;
根据所述声源标签组,确定条件向量组,所述条件向量组包括至少一个条件向量,所述至少一个条件向量中的每个条件向量包括N个类型概率值,用于分离N个声源类型,N个声源类型分别一一对应N个声源标签,N个类型概率值分别表示N个声源标签对应的声源类型的概率;
将所述条件向量组和所述混合音频输入至第一神经网络进行声源分离处理以得到目标声源组,其中,所述目标声源组中的目标声源与所述条件向量组的条件向量一一对应,
其中,所述条件向量组包括多个条件向量,
将所述条件向量组和所述混合音频输入至第一神经网络进行声源分离处理以得到所述目标声源组包括:
根据所述混合音频和所述多个条件向量,确定多个输入数据组,其中,所述多个输入数据组与所述多个条件向量一一对应,所述多个输入数据组中的每个包括所述混合音频和所述多个条件向量中的一个条件向量;
利用所述第一神经网络分别对所述多个输入数据组进行声源分离处理,以得到所述目标声源组,其中,所述目标声源组包括与所述多个条件向量一一对应的多个目标声源,所述多个输入数据组与所述多个目标声源一一对应,所述多个目标声源中的每个目标声源和与所述每个目标声源对应的输入数据组中的条件向量对应。
2.根据权利要求1所述的声源分离方法,其中,所述多个条件向量各不相同。
3.根据权利要求1所述的声源分离方法,其中,获取所述混合音频包括:
获取原始混合音频;
对所述原始混合音频进行频谱变换处理,以得到所述混合音频。
4.根据权利要求3所述的声源分离方法,其中,对所述原始混合音频进行频谱变换处理,以得到所述混合音频包括:
对所述原始混合音频进行短时傅里叶变换处理,以得到所述混合音频。
5.根据权利要求3所述的声源分离方法,其中,对所述原始混合音频进行频谱变换处理,以得到所述混合音频包括:
对所述原始混合音频进行短时傅里叶变换处理,以得到中间混合音频;
对所述中间混合音频进行对数梅尔频谱处理,以得到所述混合音频。
6.根据权利要求1所述的声源分离方法,其中,确定与所述混合音频对应的所述声源标签组包括:
利用第二神经网络对所述混合音频进行声音事件检测,以确定所述混合音频包括的声音事件组;
根据所述声音事件组,确定所述声源标签组。
7.根据权利要求1所述的声源分离方法,其中,所述至少一个条件向量与所述至少一个声源标签一一对应,
所述N个类型概率值中与所述每个条件向量对应的声源标签对应的声源类型对应的类型概率值为目标类型概率值,所述目标类型概率值为1,所述N个类型概率值中除了所述目标类型概率值之外的其余类型概率值均为0,其中,N为正整数。
8.根据权利要求1-7任一项所述的声源分离方法,其中,所述第一神经网络为U型神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于字节跳动有限公司,未经字节跳动有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010136342.1/1.html,转载请声明来源钻瓜专利网。