[发明专利]基于跨模态动态卷积网络的跨模态视频时刻检索方法有效
申请号: | 202011575231.7 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112650886B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 徐行;王公勉;沈复民;邵杰;申恒涛 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06V10/774;G06V10/80;G06V10/82;G06N3/04 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 跨模态 动态 卷积 网络 视频 时刻 检索 方法 | ||
本发明公开了一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,属于计算机视觉中的跨模态检索领域。本发明使用基于注意力机制的层级视频特征提取模块提取细粒度视频特征,一定程度上减少了视频特征中的噪声,提高了动作特征的精细程度。同时,本发明使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索,更加充分的利用了文本中隐含的信息来得到检索结果,以达到提高检索结果的准确性的目的。
技术领域
本发明属于计算机视觉中的跨模态检索领域,具体涉及一种基于跨模态动态卷积网络的跨模态视频时刻检索方法。
背景技术
跨模态视频时刻检索是跨模态视频检索的子任务。其目标是根据查询文本,在一段视频中找出与文本相对应的视频片段。和跨模态视频检索不同,跨模态视频时刻检索需要在指定视频中获得与文本对应的视频片段的开始时间和结束时间,而不是文本与整段视频的对应关系。跨模态视频时刻检索在视频问答,视频定位,视频描述等领域都有广泛的应用。
研究技术尝试利用前沿的深度学习技术改善模型表现力,基于深度学习的跨模态视频时刻检索技术不断涌现。相较于手工设计数据的特征,深度学习方法可以自动学习数据的特征并由此对数据进行分类与回归,因此具有更高的鲁棒性。其中,基于深度学习的跨模态视频时刻检索方法主要有以下三种技术路线:
1)基于候选片段的跨模态视频时刻检索方法:受到基于锚点的目标检测方法的启发,基于候选片段的跨模态视频时刻检索方法首先通过滑动窗口生成多尺度的候选片段,然后融合视频特征和文本特征,利用融合后的特征预测匹配分数,来度量候选片段和查询文本之间的相似性。
2)无候选片段的跨模态视频时刻检索方法:无候选片段的跨模态视频时刻检索方法使用帧级的视频表示而不是生成候选片段的特征来预测与查询文本对应的视频片段。该类方法利用循环神经网络或者注意力机制来获得与文本相关上下文信息以得到准确的开始时间和结束时间。
3)基于强化学习的跨模态视频时刻检索方法:为了解决跨模态视频时刻检索的效率问题,基于强化学习的跨模态视频时刻检索方法主动地去选择一部分帧或几个视频片段进行观察,然后观察得到的信息进行预测,而不需要观察整段视频的视频特征。这类方法在效率上有较大的优势。
目前跨模态视频时刻检索采用的方法主要为基于候选片段的跨模态视频时刻检索方法。相较于其他方法,该类方法在检索的准确率上有较大的优势。
但现有的时刻检索方法仍有很大的不足,如:视频特征的表示不够精细、视频特征中包含较多的噪声没有去除、文本信息没有被充分融合利用等。以上问题均一定程度上导致了视频时刻检索准确率的下降。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于跨模态动态卷积网络的跨模态视频时刻检索方法;以基于注意力机制的层级视频特征提取模块提取细粒度视频特征,一定程度上减少了视频特征中的噪声,提高了动作特征表示的精细程度。同时,使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索,更加充分的利用了文本中隐含的信息来得到检索结果,以达到提高检索结果的准确性的目的。
本发明通过下述技术方案实现:一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,首先使用层级视频特征提取模块和文本特征提取模块分别提取视频和文本这两种模态的特征,然后采用跨模态融合机制对这两种模态的特征进行融合,最后使用基于跨模态卷积神经网络的时刻定位模块完成跨模态视频时刻检索。
一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,该方法采用基于跨模态动态卷积网络的跨模态视频时刻检索模型实现,所述基于跨模态动态卷积网络的跨模态视频时刻检索模型包括层级视频特征提取模块,文本特征提取模块,跨模态融合模块和基于跨模态卷积神经网络的时刻定位模块,该方法具体包括以下步骤:
步骤S1:选择训练数据集;
步骤S2:对于训练数据集中的每一段视频中的每一帧,使用预训练网络(如VGG或C3D)提取帧级视频特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011575231.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑工程造价现场测绘装置
- 下一篇:一种账务中转平台的中转方法与系统