[发明专利]一种从视频中分离音源的方法有效
申请号: | 201911124411.0 | 申请日: | 2019-11-18 |
公开(公告)号: | CN110970056B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 刘华平;刘馨竹;刘晓宇;郭迪;孙富春 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L25/57 | 分类号: | G10L25/57;G10L25/30;G10L21/028;H04N21/44;H04N21/439;G06V20/40 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 分离 音源 方法 | ||
本发明提出一种从视频中分离音源的方法。该方法由训练阶段和测试阶段两个阶段构成。该方法在训练阶段构建一个由视觉目标检测网络、声音特征提取网络和声音分离网络组成的音源分离模型,从训练数据中选取两个不同类别的视频将其音频混合,训练音源分离模型使之能够从混合音频中精确的分离出两个视频对应的原音频。在测试阶段,获取测试视频后将其输入训练完毕的音源分离模型,模型检测视频中的所有视觉目标,并从原始音频中分离出各个视觉目标对应的声音。本发明可以从目标物体级别上对音源进行分离,能够检测出视频中出现的所有目标物体并将其与分离出的对应声音进行自动匹配,建立了各视觉目标物体和分离后的声音之间的联系,应用前景广阔。
技术领域
本发明涉及一种从视频中分离音源的方法,属于跨模态学习领域。
背景技术
近年来,智能可穿戴设备、智能家居以及智能服务机器人等技术迅速发展,其需要对现实场景中的视频、音频等数据进行实时处理并将处理结果进一步用于后续行为中。其中,从包含有多个音源的混合音频中分离出各个音源的声音是一项非常重要的任务。例如,当人向智能服务机器人下达语音指令时,环境中可能同时包含电话铃声、闹钟、电视等家用电器的声音,而智能机器人此时需要从获取的混合音频中分离出人的声音,来正确识别人向其下达的指令。音源分离任务是极具挑战性的任务。
目前,已有研究者提出稀疏编码、独立成分分析、非负矩阵分解、深度神经网络等方法从单一的听觉模态来解决音源分离任务,但是这些方法在现实场景中的音源分离任务上效果并不理想。
实际上,视频数据同时包含着图像画面和声音信号,并且二者在时间上是自然对齐的,可以充分挖掘二者的内在联系,利用视频中包含的视觉信息来指导音源分离任务。已有研究者提出跨模态的声音分离方法,建立视觉图像特征和听觉信号特征之间的关联,从而将混合音频进行分离。目前在声音分离任务上的已有工作大多都是在像素级别或者图像分割区域级别上进行声音分离,即把混合音频分离成图像各像素对应的声音,或者分离成图像分割后各个区域对应的声音。这些方法的声音分离结果并不适用于现实场景下的智能机器人等应用,在像素级别上进行声音分离时,尽管可以得到每个像素产生的声音,但是无法建立相邻像素之间的联系,单个孤立的像素在现实场景下不具备实际意义,例如机器人只能知道当前画面中某个像素发出的声音信号却不知道这个像素是闹钟这个物体的组成部分。类似的,在图像分割区域级别上进行声音分离时,机器人只能知道某一区域产生的声音信号而无法知道该区域在当前画面中实际包含了哪些物体,这使机器人无法理解分离出的声音所代表的实际含义。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种从视频中分离音源的方法。本发明可从视频中检测到所有目标物体,并将原声音分离为各个目标物体产生的声音,即在目标物体级别上进行音源分离,有很高的应用价值。
为了实现上述目的,本发明采用如下技术方案:
本发明提出的一种从视频中分离音源的方法,其特征在于,包括以下步骤:
(1)训练阶段
(1-1)获取训练数据
获取来自C类不同事件类别的T段视频作为训练数据,每段视频作为一个训练样本,每段视频的时长均相等,且每段视频中必须包含声音信号;
(1-2)生成训练样本对
对每一个训练样本,从其他C-1类视频中随机选取一段视频与其进行配对,生成T个训练样本对;
(1-3)提取训练样本对的关键帧
对于每一个训练样本对,分别提取两段视频中位于视频中点处的单帧图像作为该视频的关键帧;
(1-4)混合训练样本对的声音信号并提取音频频谱图
对于各训练样本对,分别提取两段视频对应的声音信号并进行混合,对混合后的音频信号经重采样和短时傅里叶变换后,得到各训练样本对的音频频谱图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911124411.0/2.html,转载请声明来源钻瓜专利网。