[发明专利]声源分离方法及装置、神经网络的模型训练方法及装置有效

申请号：	202010136342.1	申请日：	2020-03-02
公开（公告）号：	CN111370019B	公开（公告）日：	2023-08-29
发明（设计）人：	孔秋强;王雨轩	申请（专利权）人：	字节跳动有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L25/30;G06F18/2415;G06N3/0464;G06N3/08;G06F18/214;G06F17/14
代理公司：	北京市柳沈律师事务所 11105	代理人：	彭久云
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声源分离方法装置神经网络模型训练
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种声源分离方法、神经网络的模型训练方法、声源分离装置、神经网络的模型训练装置和存储介质。声源分离方法包括：获取混合音频；确定与混合音频对应的声源标签组；根据声源标签组，确定条件向量组；将条件向量组和混合音频输入至第一神经网络进行声源分离处理以得到目标声源组，其中，目标声源组中的目标声源与条件向量组的条件向量一一对应。

技术领域

本公开的实施例涉及一种声源分离方法、神经网络的模型训练方法、声源分离装置、神经网络的模型训练装置和存储介质。

背景技术

声源分离是一种用于分离录音中的声源的技术。声源分离是计算听觉场景分析(computational auditory scene analysis，CASA)系统的基础。本质上，CASA系统旨在以与人类收听者相同的方式分离混合音频中的声源。CASA系统可以检测并将混合音频进行分离以得到不同的声源。因为世界上存在大量的声音事件，多个不同的声音事件可能同时发生，从而导致众所周知的鸡尾酒会问题。可以使用平均谐波结构建模的无监督方法和基于神经网络的方法等来进行声源分离。神经网络的方法包括全连接神经网络、卷积神经网络(CNN)和递归神经网络(RNN)等。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开至少一实施例提供一种声源分离方法，包括：获取混合音频；确定与所述混合音频对应的声源标签组；根据所述声源标签组，确定条件向量组；将所述条件向量组和所述混合音频输入至第一神经网络进行声源分离处理以得到目标声源组，其中，所述目标声源组中的目标声源与所述条件向量组的条件向量一一对应。

本公开至少一实施例还提供一种神经网络的模型训练方法，包括：获取训练样本集，其中，所述训练样本集包括多个训练数据组，每个训练数据组包括训练混合音频、多个训练音频片段和多个第一训练条件向量，所述训练混合音频包括所述多个训练音频片段，所述多个第一训练条件向量与所述多个训练音频片段一一对应；利用所述训练样本集，对待训练的第一神经网络进行训练，以得到第一神经网络，其中，所述待训练的第一神经网络包括损失函数，其中，利用所述训练样本集，对所述待训练的第一神经网络进行训练，以得到所述第一神经网络包括：从所述训练样本集中获取当前训练数据组，其中，所述当前训练数据组包括当前训练混合音频和多个当前训练音频片段，所述当前训练混合音频包括所述多个当前训练音频片段；确定与所述多个当前训练音频片段一一对应的多个第一当前训练条件向量，其中，所述当前训练数据组还包括所述多个第一当前训练条件向量，将所述当前训练混合音频和所述多个第一当前训练条件向量输入至所述待训练的第一神经网络进行声源分离处理，以得到多个第一当前训练目标声源；根据所述多个第一当前训练目标声源和所述多个当前训练音频片段，计算所述待训练第一神经网络的损失函数的第一损失值；根据所述第一损失值对所述待训练的第一神经网络的参数进行修正，在所述损失函数满足预定条件时，得到训练完成的所述第一神经网络，在所述损失函数不满足所述预定条件时，继续输入所述当前训练数据组以重复执行上述训练过程。

本公开至少一实施例还提供一种声源分离装置，包括：存储器，用于非暂时性存储计算机可读指令；以及处理器，用于运行所述计算机可读指令，所述计算机可读指令被所述处理器运行时执行根据上述任一实施例所述的声源分离方法。

本公开至少一实施例还提供一种模型训练装置，包括：存储器，用于非暂时性存储计算机可读指令；以及处理器，用于运行所述计算机可读指令，所述计算机可读指令被所述处理器运行时执行根据上述任一实施例所述的模型训练方法。

本公开至少一实施例还提供一种存储介质，非暂时性地存储计算机可读指令，当所述计算机可读指令由计算机执行时可以执行根据上述任一实施例所述的声源分离方法。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于字节跳动有限公司，未经字节跳动有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010136342.1/2.html，转载请声明来源钻瓜专利网。

上一篇：基于生成对抗卷积神经网络的光场显著性目标检测方法
下一篇：显微图像中细胞堆叠的检测方法、系统、设备及介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]声源分离方法及装置、神经网络的模型训练方法及装置有效

专利文献下载