[发明专利]一种从视频中分离音源的方法有效
申请号: | 201911124411.0 | 申请日: | 2019-11-18 |
公开(公告)号: | CN110970056B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 刘华平;刘馨竹;刘晓宇;郭迪;孙富春 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L25/57 | 分类号: | G10L25/57;G10L25/30;G10L21/028;H04N21/44;H04N21/439;G06V20/40 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 分离 音源 方法 | ||
1.一种从视频中分离音源的方法,其特征在于,包括以下步骤:
(1)训练阶段
(1-1)获取训练数据
获取来自C类不同事件类别的T段视频作为训练数据,每段视频作为一个训练样本,每段视频的时长均相等,且每段视频中必须包含声音信号;
(1-2)生成训练样本对
对每一个训练样本,从其他C-1类视频中随机选取一段视频与其进行配对,生成T个训练样本对;
(1-3)提取训练样本对的关键帧
对于每一个训练样本对,分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧;
(1-4)混合训练样本对的声音信号并提取音频频谱图
对于各训练样本对,分别提取两段视频对应的声音信号并进行混合,对混合后的音频信号经重采样和短时傅里叶变换后,得到各训练样本对的音频频谱图;
(1-5)构建音源分离模型,该模型由视觉目标检测网络、声音特征提取网络和声音分离网络组成,整个模型以视频关键帧和音频频谱图为输入,以音源分离结果为输出,具体包括以下步骤:
(1-5-1)构建一个视觉目标检测网络,所述视觉目标检测网络以步骤(1-3)得到的各视频关键帧为输入,以视频关键帧中检测到的视觉目标对应的检测框和由每个视觉目标对应的视觉特征组成的视觉特征集合为输出,输出的各视觉特征的维度均为S;
(1-5-2)构建一个声音特征提取网络,所述声音特征提取网络以步骤(1-4)得到的各音频频谱图为输入,以提取的相应声音特征集合作为输出;所述声音特征集合内的各声音特征分别反映输入的音频频谱图对应的声音信号的不同属性,设各声音特征集合均分别包括K个声音特征;
(1-5-3)构建一个声音分离网络,所述声音分离网络包括一个由两个全连接层组成的视觉特征映射网络和一个由线性层组成的分离网络;所述声音分离网络以所述视觉目标检测网络提取得到的视觉特征集合和所述声音特征提取网络提取得到的声音特征集合为输入,以音源分离结果为输出;
(1-6)对构建的音源分离模型进行迭代训练,具体步骤如下:
(1-6-1)将步骤(1-2)生成的各训练样本对中的第一视频关键帧输入步骤(1-5-1) 构建的视觉目标检测网络,得到各第一视频关键帧中检测到的所有视觉目标的检测框,同时提取得到视觉特征集合,记第j个第一视频关键帧的视觉特征集合为其中为第j个第一视频关键帧中检测到的第u个视觉目标的视觉特征,为该视频关键帧中检测到的视觉目标数量;
(1-6-2)为各视频关键帧设置视觉目标数量阈值为L,并设置对应的二进制向量用于记录输入的各视频关键帧中实际检测到的视觉目标数量;通过以下判定将步骤(1-6-1)得到的视觉特征集合转化为修正视觉特征集合
若检测到的第j个第一视频关键帧中的视觉目标数量小于L,则令修正视觉特征集合中前个视觉特征与视觉特征集合中前个对应的视觉特征相同,修正视觉特征集合中第到第L个视觉特征均为0向量,令二进制向量的前个元素均为1,其余各位均为0;若检测到的第j个第一视频关键帧中视觉目标数量大于或等于L,则保留目标检测过程中置信度最大的L个视觉目标和其对应的视觉特征,删除其余视觉目标对应的视觉特征,由保留的L个视觉特征构成第j个第一视频关键帧的修正视觉特征集合其对应的二进制向量中各元素均为1;
(1-6-3)将步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入步骤(1-5-2)构建的声音特征提取网络,提取得到声音特征集合,记第j个训练样本对提取得到的声音特征集合为
(1-6-4)对步骤(1-6-2)得到的各第一视频关键帧修正视觉特征集合中的所有视觉特征进行平均操作,得到对应的视觉平均特征,记第j个第一视频关键帧的视觉平均特征为计算公式如下:
其中,
(1-6-5)通过步骤(1-5-3)构建的视觉特征映射网络,将步骤(1-6-4)得到的各第一视频关键帧的视觉平均特征从S维映射至K维,得到对应的视觉映射特征,记第j个第一视频关键帧的视觉映射特征为
(1-6-6)将步骤(1-6-5)得到的各视觉映射特征和步骤(1-6-3)得到的对应声音特征同时输入步骤(1-5-3)构建的分离网络,预测输入的各第一视频关键帧对应音频的频谱掩码,所述频谱掩码是指视频对应音频的频谱图与混合音频的频谱图的按位比值结果;记第j个第一视频关键帧对应音频的频谱掩码为分离网络按照如下公式预测该频谱掩码:
其中,λp和β分别为分离网络线性层的参数,为第j个第一视频关键帧的视觉映射特征中的第p维数据,为步骤(1-6-3)得到的第j个训练样本对的声音特征集合中的第p个声音特征;
(1-6-7)将各训练样本对中第二视频关键帧和步骤(1-4)最后得到的各训练样本对混合声音信号的音频频谱图输入音源分离模型,依次按照步骤(1-6-1)~步骤(1-6-6)的操作,得到输入的各第二视频对应音频的频谱掩码,记第j个第二视频关键帧对应音频的频谱掩码为
(1-6-8)设置损失函数来约束音源分离模型的训练过程,公式如下:
其中,分别为第j个训练样本对中第一视频关键帧和第二视频关键帧对应音频的频谱掩码真实值,计算公式如下:
其中,和分别代表第j个训练样本对中两个视频的原始音频频谱图,代表由步骤(1-4)得到的第j个训练样本对混合声音信号的音频频谱图,公式中的除法是在各对应元素之间的除法计算;损失函数中,Dis运算指对参与运算的两个矩阵内的相应元素逐位计算差值,并对所有差值的绝对值求和;
(1-6-9)将视觉目标检测网络的参数固定,使用批量梯度下降算法更新声音特征提取网络和声音分离网络的参数,将音源分离模型迭代训练若干次直至达到设定上限次数后停止,得到训练完毕的音源分离模型;
(2)测试阶段
(2-1)获取与训练数据中每段视频时长相等的待测试视频,并提取其对应的音频信号;
(2-2)提取待测试视频中点处的单帧图像作为该视频的关键帧;
(2-3)对步骤(2-1)提取的音频信号经重采样和短时傅里叶变换后,得到该音频信号对应的音频频谱图;
(2-4)将待测试视频的关键帧和其对应的音频频谱图输入训练完毕的音源分离模型中,依次按照步骤(1-6-1)和(1-6-2)的操作获取视觉目检测框、视觉特征集合F={f1,f2,…,fL}和用于记录实际检测到的视觉目标数量的二进制向量W,其中记待检测视频关键帧中实际检测到的视觉目标数量为N,即二进制向量W中数值为1的元素数量为N;按照步骤(1-6-3)的操作获取待测试视频的声音特征集合A={a1,a2,…,aK};
(2-5)将步骤(2-4)得到的视觉特征集合和声音特征集合通过训练完毕的声音分离网络,得到该待测试视频中每一个视觉目标对应声音的频谱掩码;具体步骤如下:
(2-5-1)通过音源分离模型中的视觉特征映射网络将待测试视频的视觉特征集合F={f1,f2,…,fv,…,fL}中的各视频特征从S维均映射至K维,得到待测试视频的视觉映射特征集合G={g1,g2,…,gv,…,gL},其中gv由fv映射得到,并且gv∈RK;
(2-5-2)将步骤(2-5-1)得到的每个视觉目标的视觉映射特征和步骤(2-4)得到的声音特征同时输入音源分离模型中的分离网络,为每一个视觉目标物体预测对应音频的频谱掩码Mv,即预测每个视觉目标发出声音的音频频谱图与视频原声音的音频频谱图的按位比值结果;分离网络按照如下公式预测各视觉目标发出声音的频谱掩码:
其中,gv[p]代表待测试视频中第v个视觉目标对应的视觉映射特征中的第p维数据;
(2-6)经过步骤(2-5)得到每个视觉目标产生声音的频谱掩码结果{M1,M2,…,ML},对于其中N个有效的频谱掩码,按下式计算对应的N个视觉目标产生声音的音频频谱图:
其中,P代表待测试视频的原始音频频谱图,代表哈达玛积运算,Pi代表第i个视觉目标产生声音信号的音频频谱图;然后使用逆快速傅里叶变换算法将N个视觉目标的频谱图转换为N个音频信号;
(2-7)对于检测到的N个视觉目标,绘制步骤(2-4)中得到的视觉目标检测框,并将其与步骤(2-6)中得到的音频信号进行匹配,音源分离结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911124411.0/1.html,转载请声明来源钻瓜专利网。