[发明专利]弱监督时序边界定位方法、装置、电子设备及存储介质在审
| 申请号: | 202310118829.0 | 申请日: | 2023-01-31 |
| 公开(公告)号: | CN116129319A | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 王亚立;乔宇;马钰儿;刘熠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/764;G06F16/783;G06F16/78;G06N20/00 |
| 代理公司: | 深圳五邻知识产权代理事务所(普通合伙) 44590 | 代理人: | 胡明 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 监督 时序 边界 定位 方法 装置 电子设备 存储 介质 | ||
本申请实施例公开了一种弱监督时序边界定位方法及装置,所述方法包括:获取视频,并分别对视频中的各视频帧和视频对应的文本描述进行特征提取,得到各视频帧的原始特征和文本描述的文本特征;根据各视频帧的原始特征与文本描述的文本特征之间的相关性,得到各视频帧的正相关特征和负相关特征;利用掩码重建将视频的视频特征与文本描述的文本特征进行对齐,分别得到各视频帧的重建文本特征和重建视频特征;视频的视频特征包括原始特征、正相关特征和负相关特征;根据各视频帧的重建文本特征和重建视频特征,对视频中动作的时序边界进行定位,得到边界定位结果。本申请解决了相关技术无法对齐语言和视频特征,不能实现时序边界定位的问题。
技术领域
本申请属于视频分析技术领域,尤其涉及一种弱监督时序边界定位方法、装置、电子设备及存储介质。
背景技术
时序边界定位作为视频分析领域中的研究热点,对于未裁剪的视频而言至关重要,在多种场景下有很大的应用潜力,时序边界定位不仅要求标注动作发生的片段区间,还需要识别动作的类别。例如,定位一名运动员短跑动作的视频即需要确定跑步片段区间的开始区间和结束区间,同时识别该片段区间内的动作类别为跑步。由于对视频进行人工的边界标记耗时耗力,近年来的研究主要集中在弱监督的设置中,即在训练过程中,不提供明确的时序边界的监督信息,而只有文本描述或者视频级的动作标签。
然而,相关技术中,如何将语言和视频特征对齐是有难度的,即,暂时只能实现时序语言定位或者时序动作定位中的其中一种定位,而无法同时完成两种定位,进而无法对齐语言和视频特征,从而不能实现时序边界定位。
因此,急需一种能够对齐语言和视频特征,来实现时序边界定位的弱监督方案。
发明内容
本申请各实施例提供一种弱监督时序边界定位方法、装置、电子设备及存储介质,以解决相关技术中存在的无法对齐语言和视频特征,不能实现时序边界定位的问题。
为解决上述技术问题,本申请所采用的技术方案为:
根据本申请的一个方面,一种弱监督时序边界定位方法,所述方法包括:获取视频,并分别对所述视频中的各视频帧和所述视频对应的文本描述进行特征提取,得到各视频帧的原始特征和所述文本描述的文本特征;所述文本描述用于描述所述视频对应的动作标签;根据各视频帧的原始特征与所述文本描述的文本特征之间的相关性,得到各视频帧的正相关特征和负相关特征;利用掩码重建将所述视频的视频特征与所述文本描述的文本特征进行对齐,分别得到各视频帧的重建文本特征和重建视频特征;所述视频的视频特征包括各视频帧的原始特征、正相关特征和负相关特征;根据各视频帧的重建文本特征和重建视频特征,对所述视频中动作的时序边界进行定位,得到边界定位结果。
根据本申请的一个方面,一种弱监督时序边界定位装置,所述装置包括:原始特征提取模块,用于获取视频,并分别对所述视频中的各视频帧和所述视频对应的文本描述进行特征提取,得到各视频帧的原始特征和所述文本描述的文本特征;所述文本描述用于描述所述视频对应的动作标签;相关性特征提取模块,用于根据各视频帧的原始特征与所述文本描述的文本特征之间的相关性,得到各视频帧的正相关特征和负相关特征;掩码重建模块,用于利用掩码重建将所述视频的视频特征与所述文本描述的文本特征进行对齐,分别得到各视频帧的重建文本特征和重建视频特征;所述视频的视频特征包括各视频帧的原始特征、正相关特征和负相关特征;边界定位模块,用于根据各视频帧的重建文本特征和重建视频特征,对所述视频中动作的时序边界进行定位,得到边界定位结果。
在一示例性实施例中,原始特征提取模块包括:原始特征提取单元,用于对所述视频中的各视频帧进行特征提取,得到各视频帧的原始特征;文本转换单元,用于对各视频帧的原始特征进行动作类别预测,得到所述视频对应的动作标签,并将所述视频对应的动作标签转换为所述视频对应的文本描述;文本特征提取单元,用于对所述视频对应的文本描述进行特征提取,得到所述文本描述的文本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310118829.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种桨距角控制方法、装置、电子设备及风电机组
- 下一篇:背光模组及电子设备





