[发明专利]用于自监督视频表示学习的时域对比图学习系统及方法在审

专利信息
申请号: 202111556673.1 申请日: 2021-12-17
公开(公告)号: CN114219974A 公开(公告)日: 2022-03-22
发明(设计)人: 王青;兰浩源;刘阳;林倞 申请(专利权)人: 中山大学
主分类号: G06V10/774 分类号: G06V10/774;G06V10/426;G06V10/62;G06V20/40;G06N3/08;G06N3/04;G06K9/62
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 禹小明
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 监督 视频 表示 学习 时域 对比 系统 方法
【说明书】:

发明提供一种用于自监督视频表示学习的时域对比图学习系统及方法,该系统引入时空知识发现模块(STKD),它是基于离散余弦变换的频域分析从视频中提取运动增强的时空表示;为了显式地构建未标记视频的多尺度时域相关性模型,将关于帧和片段顺序的先验知识集成到图结构中,即片段内/片段间时域对比图(TCG)。然后,设计特定的时域对比图学习模块,以最大化不同图视图中节点之间的一致性;为了生成未标记视频的监控信号,引入了自适应顺序预测模块,该模块利用视频片段之间的相关知识来学习全局上下文表示,并自适应地重新校准通道特征。

技术领域

本发明涉及视频表示学习技术领域,更具体地,涉及一种用于自监督视频表示学习的时域对比图学习系统及方法。

背景技术

对于视频表示学习,大量的监督学习方法受到越来越多的关注。这些方法包括传统方法和深度学习方法,尽管这些监督方法在构建时域相关性模型的方面取得了不错的性能,但它们需要大量带标记视频来训练复杂的模型,这无疑是既费时又费力的。

而自监督学习通过使用大量未标记数据对各种代理任务进行建模,提供了一种生成监督信号的可行方法。从代理任务中学习的模型可以直接应用于下游任务以进行特征提取或微调。它需要模型具有强大的表达能力,以利用丰富的时空知识并从大量未标记的视频中生成有效的监督信号。然而,现有方法未能增加未标记视频的时域多样性,并且忽略了以显式方式精细地构建多尺度时域相关性模型。

与可以通过定义用于自监督学习的代理任务来处理的图像数据不同,视频数据另外包含可以用来学习监督信号的时域信息。最近,已经提出了多种方法,ShuffleLearn随机打乱视频帧并训练网络以区分这些视频帧的顺序是否正确。Odd-one-out网络提议识别不相关或奇数的视频剪辑。顺序预测网络(OPN)训练网络来预测打乱帧的正确顺序。VCOP使用3D卷积网络来预测混洗视频剪辑的顺序。Video-pace利用网络来识别不同视频剪辑的正确步调。SpeedNet设计了一个网络来检测视频是以正常速率播放还是加速播放。除了关注时域相关性之外,Mas还提出了一种通过沿空域和时域维度对运动和外观统计进行回归的自监督学习方法。ST-puzzle使用时空立方谜题来设计代理任务。IIC通过打破视频剪辑中的时域关系来引入负样本,并使用这些样本来构建内部对比框架。XDC提出了一种自监督方法,该方法利用音频模态中的无监督聚类作为视频模态的监督信号。

如图1所示,多尺度时域相关性的图示。握手包含向前行走、握手和拥抱的长期(片段间)时域相关性,同时也包含周期性手脚运动的短期(片段内)时域相关性。

然而,这些方法只考虑单一尺度(即短期或长期)的时域相关性,而忽略了多尺度时域相关性,即它们通过二维/三维卷积神经网络(2D/3DCNN)提取片段级或帧级特征,而忽略了整合这些特征以对复杂的多尺度时域相关性进行建模。

如图2所示,具有不同频率的视频帧的图示。第一行是原始帧;第二行是低频(专注于场景表现);最后一行是高频(专注于不同的运动边缘)。

频率分析一直是信号处理领域的强大工具。最近,在深度学习领域提出了一些频率分析方法。大多数基于频率的方法旨在通过傅立叶变换(FT)降低计算成本和参数,从而提高网络效率。一些工作介绍了卷积神经网络(CNN)中联合图像专家组(JPEG)编码的频率分析。离散余弦变换(DCT)在一论文中被引入以减少通信带宽。在一些工作中,提出了用于压缩和推理任务的专用的基于自动编码器的网络。FcaNet概括了频域中通道注意力机制的预处理。Wang等应用对输入数据集中频率分量分布之间联系的分析来进行CNN的解释。由于空间域中的卷积运算已被证明等效于频域中的乘法,在频域中进行视频知识蒸馏以进行动作识别。频率滤波嵌入(FFE)使用图傅立叶变换和频率滤波作为图傅立叶域算子来提取图特征。的方法在两个方面不同于之前的工作。首先,发现频域中用于视频自监督学习的判别性时空知识。其次,进行了严格的理论分析,以验证区分性时空表示本质上突出了高频域中的运动信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111556673.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top