[发明专利]用于自监督视频表示学习的时域对比图学习系统及方法在审

专利信息
申请号: 202111556673.1 申请日: 2021-12-17
公开(公告)号: CN114219974A 公开(公告)日: 2022-03-22
发明(设计)人: 王青;兰浩源;刘阳;林倞 申请(专利权)人: 中山大学
主分类号: G06V10/774 分类号: G06V10/774;G06V10/426;G06V10/62;G06V20/40;G06N3/08;G06N3/04;G06K9/62
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 禹小明
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 监督 视频 表示 学习 时域 对比 系统 方法
【权利要求书】:

1.一种用于自监督视频表示学习的时域对比图学习系统,其特征在于,包括:

采样和随机打乱模块,对于每个视频,多个片段被统一采样和打乱,对于每个片段,它的所有帧都被采样到几个固定长度的帧集;

时空知识发现模块,发现视频片段和帧集的区分时空表示,使用3DCNN提取所有片段和帧集的时空特征;

时域对比图学习模块,利用片段和帧集的时空特征构建两种时域对比图结构即片段内图和片段间图;

自适应顺序预测模块,从时域对比图学习模块中学习到的视频片段特征通过自适应片段顺序预测模块自适应传播,以输出可能顺序的概率分布。

2.根据权利要求1所述的用于自监督视频表示学习的时域对比图学习系统,其特征在于,所述采样和随机打乱模块的具体处理过程是:

从视频中以p帧的间隔均匀采样片段,采样后,片段被打乱以形成片段元组S=s1,s2,…,sn,对于每个片段si,其中的所有帧都被均匀地划分为m个等长的帧集,然后得到片段si的帧集Fi=f1,f2,…,fm,对于片段元组,它们包含视频的动态信息和严格的时域相关性,这本质上是视频的全局时域结构,对于片段中的帧集,帧之间的帧级时域相关性提供了视频的局部时域结构,通过同时考虑全局和局部时域结构,可探索视频的判别时域相关性。

3.根据权利要求2所述的用于自监督视频表示学习的时域对比图学习系统,其特征在于,所述时空知识发现模块的具体处理过程是:

将输入视频片段表示为其中C是通道号,L表示帧数,H和W分别是视频帧的宽度和高度,沿着时域计算它的频谱并获得输出特征其中K是频带的数量,由于离散余弦变换表示为:

令式(1)中的L=2,那么:

由式(2)可知,表示低频信息,即视频特征的总和,而表示高频信息,即相邻视频特征的差值,因此,低频表示可以保留大部分场景信息,而在高频下,场景信息会被抵消,并且会突出明显的运动边缘,为了进一步验证这种现象,将L扩展到3并得到以下表示:

为了通过不同频率捕获时域动态和场景外观,对除第一个之外的所有频率分量求和,以避免在进行时域关系建模时低频信息的影响,得到区分性时空表示L=2,3时分别为

因此,当L=n时,得到:

由于式(6)左边的是常数,可以忽略,因此,等式(6)等价于:

当L=n+1时,将等式(7)扩展为其一般形式:

从方程(8),可得出结论:视频片段的判别性时空表示本质上是原始视频片段与它的时域平均池化沿时间轴相减,时空知识发现模块无需复杂计算即可提取视频片段的判别时域表示,并且足够灵活,可以以即插即用的方式插入现有模型中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111556673.1/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top