[发明专利]基于时空强化学习的跨模态视频时刻定位方法在审
| 申请号: | 202010562550.8 | 申请日: | 2020-06-18 |
| 公开(公告)号: | CN111782871A | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 曹达;曾雅文;荣辉桂;朱宁波;陈浩;秦拯 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06F16/732 | 分类号: | G06F16/732;G06F16/783;G06K9/00;G06N20/00 |
| 代理公司: | 深圳市中原力和专利商标事务所(普通合伙) 44289 | 代理人: | 罗小辉 |
| 地址: | 410082 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 时空 强化 学习 跨模态 视频 时刻 定位 方法 | ||
本发明提供了一种基于时空强化学习的跨模态视频时刻定位方法,包括以下步骤:S01、输入完整视频和查询语句,抽取视频特征和查询语句特征,构建强化学习环境;S02、基于强化学习环境信息进行时序强化学习并定位视频的时序边界,环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征;S03、基于时序强化学习的定位边界进行空间强化学习,在所述环境中处理空间信息并逐帧追踪相关场景,并用注意力机制过滤无关信息;S04、根据空间强化学习更新时序强化学习的局部片段特征,使得所述空间强化学习和所述时序强化学习交替训练,直至收敛,得到对应查询语句的视频时刻片段。本发明提供的方法能够返回精确的视频定位边界,提高用户的查询体验。
【技术领域】
本发明涉及视频时刻定位技术领域,尤其涉及一种基于时空强化学习的跨模态视频时刻定位方法。
【背景技术】
跨模态视频检索是在一组可能的视频集合中检索与查询语句文本所描述语义最相关的视频。然而,在一些场景中,如视频快速预览等,需要检索到一个相关的视频时刻而不是整个视频。
现有技术中已经提出一些处理视频时刻定位的方法。一种是采用在整个视频上切分滑动窗口的策略,对滑动窗口形成的候选集进行相关性排序。但是这种方法候选视频片段众多,导致耗时较长。另一种方法是引入强化学习将问题抽象成一个连续性决策问题进行直接定位,即直接定位视频的开始帧和结束帧。虽然第二种方法也取得了较好的效果,但是在一个视频中,人物和场景的变化范围较小,与查询语句相关的空间信息有限,在不考虑空间信息的情况下对视频进行定位,导致不相关的背景噪声等对相关的局部场景区域造成极大干扰,并进一步阻碍定位视频时刻的性能。
目前现有的视频时刻定位方法中,基于滑动窗口实现方法受到滑动窗口大小的限制并且十分耗时,基于强化学习直接定位的方法对视频特征的处理过于粗糙,忽视了视频帧中只有局部信息是与查询语句相关的,其他无关的信息可能对视频时刻定位性能造成极大的干扰。
这两种视频时刻定位方式都没有关注视频帧信息在时序上和空间上的影响,因此,有必要提供一种更精确的跨模态视频边界定位的方法。
【发明内容】
目前现有技术的视频时刻定位方法中没有关注视频帧信息在时序上和空间上的影响,因此,本发明提供一种基于时空强化学习的跨模态视频时刻定位方法。
一种基于时空强化学习的跨模态视频时刻定位方法,包括以下步骤:
S01、输入完整视频和查询语句,抽取视频特征和查询语句特征,构建强化学习环境;
S02、基于强化学习环境信息进行时序强化学习并定位视频的时序边界,所述环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征;
S03、基于所述时序强化学习的定位边界进行空间强化学习,在所述环境中处理空间信息并逐帧追踪相关场景,并用注意力机制过滤无关信息;
S04、根据空间强化学习更新时序强化学习的局部片段特征,使得所述空间强化学习和所述时序强化学习交替训练,直至收敛,得到对应查询语句的视频时刻片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010562550.8/2.html,转载请声明来源钻瓜专利网。





