[发明专利]弱监督时序边界定位方法、装置、电子设备及存储介质在审
| 申请号: | 202310118829.0 | 申请日: | 2023-01-31 |
| 公开(公告)号: | CN116129319A | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 王亚立;乔宇;马钰儿;刘熠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/764;G06F16/783;G06F16/78;G06N20/00 |
| 代理公司: | 深圳五邻知识产权代理事务所(普通合伙) 44590 | 代理人: | 胡明 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 监督 时序 边界 定位 方法 装置 电子设备 存储 介质 | ||
1.一种弱监督时序边界定位方法,其特征在于,所述方法包括:
获取视频,并分别对所述视频中的各视频帧和所述视频对应的文本描述进行特征提取,得到各视频帧的原始特征和所述文本描述的文本特征;所述文本描述用于描述所述视频对应的动作标签;
根据各视频帧的原始特征与所述文本描述的文本特征之间的相关性,得到各视频帧的正相关特征和负相关特征;
利用掩码重建将所述视频的视频特征与所述文本描述的文本特征进行对齐,分别得到各视频帧的重建文本特征和重建视频特征;所述视频的视频特征包括各视频帧的原始特征、正相关特征和负相关特征;
根据各视频帧的重建文本特征和重建视频特征,对所述视频中动作的时序边界进行定位,得到边界定位结果。
2.如权利要求1所述的方法,其特征在于,所述分别对所述视频中的各视频帧和所述视频对应的文本描述进行特征提取,得到各视频帧的原始特征和所述文本描述的文本特征,包括:
对所述视频中的各视频帧进行特征提取,得到各视频帧的原始特征;
对各视频帧的原始特征进行动作类别预测,得到所述视频对应的动作标签,并将所述视频对应的动作标签转换为所述视频对应的文本描述;
对所述视频对应的文本描述进行特征提取,得到所述文本描述的文本特征。
3.如权利要求1所述的方法,其特征在于,所述根据各视频帧的原始特征与所述文本描述的文本特征之间的相关性,得到各视频帧的正相关特征和负相关特征,包括:
根据各视频帧的原始特征与所述文本描述的文本特征之间的相关性,分别计算各视频帧与所述文本描述的正相关分数和负相关分数;
根据计算得到的正相关分数和各视频帧的原始特征,计算各视频帧的正相关特征;
根据计算得到的负相关分数和各视频帧的原始特征,计算各视频帧的负相关特征。
4.如权利要求1所述的方法,其特征在于,所述利用掩码重建将所述视频的视频特征与所述文本描述的文本特征进行对齐,分别得到各视频帧的重建文本特征和重建视频特征,包括:
基于掩码重建,引导所述视频的视频特征重建掩码后的文本特征,得到各视频帧的重建文本特征;
基于掩码重建,引导所述文本描述的文本特征重建掩码后的视频特征,得到各视频帧的重建视频特征。
5.如权利要求4所述的方法,其特征在于,所述基于掩码重建,引导所述视频的视频特征重建掩码后的文本特征,得到各视频帧的重建文本特征,以及基于掩码重建,引导所述文本描述的文本特征重建掩码后的视频特征,得到各视频帧的重建视频特征,包括:
针对每一个视频帧,根据所述视频帧的原始特征、正相关特征和负相关特征分别对掩码后的文本特征进行掩码重建,得到所述视频帧的多个重建文本特征;
根据所述文本描述的文本特征对掩码后的所述视频帧的原始特征、正相关特征和负相关特征分别进行掩码重建,得到所述视频帧的多个重建视频特征。
6.如权利要求1至5任一项所述的方法,其特征在于,所述时序边界定位是调用时序边界定位网络实现的,所述时序边界定位网络是经过训练、且具有对所述视频中动作的时序边界进行定位的能力的机器学习模型;其中,
所述时序边界定位网络包括用于特征提取的提案生成模块、用于文本特征重建的文本掩码重建模块、用于视频特征重建的视频掩码重建模块。
7.如权利要求6所述的方法,其特征在于,所述时序边界定位网络的训练过程,包括:
在所述文本掩码重建模块中,根据所述视频帧的重建文本特征计算文本排序损失和文本重建损失,并利用文本排序损失约束所述视频帧关于重建文本特征的文本重建损失;
在所述视频掩码重建模块中,根据所述视频帧的重建视频特征计算视频排序损失和视频重建损失,并利用视频排序损失约束所述视频帧关于重建视频特征的视频重建损失;
若所述文本重建损失指示由所述视频帧的正相关特征重建得到的重建文本特征的重建效果最佳、且所述视频重建损失指示重建得到的与正相关特征有关的重建视频特征的重建效果最佳,则训练完成,得到所述时序边界定位网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310118829.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种桨距角控制方法、装置、电子设备及风电机组
- 下一篇:背光模组及电子设备





