[发明专利]基于多特征图注意网络模型的视频-文本跨模态检索方法和装置有效
申请号: | 202110256218.3 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112883229B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 吴大衍;郝孝帅;周玉灿;李波;王伟平;孟丹 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/78;G06F16/783;G06V10/774 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 注意 网络 模型 视频 文本 跨模态 检索 方法 装置 | ||
本发明涉及一种基于多特征图注意网络模型的视频‑文本跨模态检索方法和装置。该方法的步骤包括:建立多特征图注意网络模型,用于挖掘视频不同模态特征之间的结构关系,通过不同视频特征之间的高级语义信息交换获得高效的视频特征表示;采用双重约束排序损失函数训练所述多特征图注意网络模型,所述双重约束排序损失函数包含视频‑文本对之间的排序约束函数和单类数据内部的结构约束函数,不仅可以让语义相似的文本和视频在嵌入空间相近,而且能够在嵌入空间中保持原始的结构特性;利用训练完成的所述多特征图注意网络模型进行视频‑文本的跨模态检索。本发明使视频‑文本检索的检索性能得到了显著提升。
技术领域
本发明属于信息技术领域,具体涉及一种基于多特征图注意网络模型的视频-文本跨模态检索方法和装置。
背景技术
随着互联网、智能移动设备、社交媒体和即时通讯等技术的迅猛发展,多媒体数据呈现爆发式増长。近几年,如何让用户在海量多媒体数据中迅速、准确地找到他们需要的内容,受到越来越广泛的关注。视频-文本的跨模态检索是多媒体检索中针对视频和文本这两个模态的一个重要检索任务。该任务旨在给定一个文本査询对象检索出对应的视频,或是给定一个视频查询对象检索出对应的文本。现有方法一般通过在联合嵌入空间中,约束不同模态的数据之间正样本对的距离要比负样本对的距离要近,以此来学习跨模态数据间的相似性。由于视频数据本身的复杂性,该类方法的研究热点往往集中在视频的特征表示学习,以及如何在联合嵌入空间中保持原始特征空间中视频/文本的相似关系。
现有技术的缺陷主要体现在:
1.视频的特征表示学习方法:现有视频处理方法大部分只利用视频中的视觉特征,而忽略视频中包含的动作、人脸、声音以及字幕等丰富信息。近年来,视频中多模态特征的聚合方法显著地提高了视频-文本跨模态检索的性能。然而,视频中多模态特征的超高维和异构特性,在以往方法中往往被忽视,加之特征之间的内在结构关系没有被重视,导致融合效率不高,视频表示仍然面临巨大挑战。
2.跨模态检索的损失函数设计:现有视频-文本检索方法一般采用基于困难样本的双向最大间隔排序损失函数训练网络,它通过在视频和文本的特征联合嵌入空间中,挖掘检索困难的视频-文本样本对,并拉近匹配样本对,推远不匹配样本对实现网络参数的更新。然而,该排序损失只考虑了文本和视频间之间的语义关系,忽略了视频/文本内的语义关系。充分利用视频/文本内部的语义相似关系有助于增强单个视频/文本样本的表示。
发明内容
本发明的目的在于设计一个多特征图注意网络模型用于视频-文本的跨模态检索。具体而言,本发明提出了一个多特征图注意模块充分挖掘视频不同模态特征之间的结构关系,通过不同视频特征之间的高级语义信息交换,获得更高效的视频特征表示。此外,本发明还设计了一种新的双重约束排序损失函数,它同时考虑了视频-文本对之间的排序约束和单类数据(视频/文本)内部的结构约束。该函数不仅可以让语义相似的文本和视频在嵌入空间相近,而且能够在嵌入空间中保持原始的结构特性。
本发明采用的技术方案如下:
一种基于多特征图注意网络模型的视频-文本跨模态检索方法,包括以下步骤:
建立多特征图注意网络模型,用于挖掘视频不同模态特征之间的结构关系,通过不同视频特征之间的高级语义信息交换获得高效的视频特征表示;
采用双重约束排序损失函数训练所述多特征图注意网络模型,所述双重约束排序损失函数包含视频-文本对之间的排序约束函数和单类数据内部的结构约束函数;
利用训练完成的所述多特征图注意网络模型进行视频-文本的跨模态检索。
进一步地,所述多特征图注意网络模型包括:
视频编码模块,负责提取视频的多个特征,通过沿着时间维度聚合得到固定长度的视频特征向量,再通过多特征图注意模块实现多个特征之间高层次语义信息的交互,最终形成有效的视频特征表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110256218.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电梯动静板智能加工生产线
- 下一篇:一种可旋转折叠马桶