[发明专利]一种基于混合粒度匹配的图文跨模态检索方法有效
申请号: | 202110373838.5 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113094533B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 盛律;徐东;魏云飞 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F40/126;G06F40/194;G06N3/04;G06N3/08 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 粒度 匹配 图文 跨模态 检索 方法 | ||
本发明公开了一种基于混合粒度匹配的图文跨模态检索方法,该方法包括构建数据库、提取文本、提取图像、构建模型、验证模型、评估模型以及图文检索等步骤。该方法利用多跳图神经网络对不同模态特征中混合粒度的语义信息进行捕捉,从而实现混合粒度的跨模态匹配。同时,该方法采用近邻信息敏感匹配模块代替传统方法中直接采用余弦距离计算相似度的方式,匹配分数的预测过程更加灵活、准确,进而显著提高了跨模态检索方法的精确度和稳定性。
技术领域
本发明涉及图文跨模态数据检索技术领域,更具体的说是涉及一种基于混合粒度匹配的图文跨模态检索方法。
背景技术
传统的信息检索系统主要有单模态检索和跨模态检索两种方式,单模态检索的查询数据和查询结果仅包含一种模态的数据,跨模态检索则能够实现两种不同模态数据间的互相检索。由于多模态数据所呈现出的多样性、复杂性与随意性,理解和校准多模态数据的语义内容尤为重要。
目前主流的跨模态检索有粗粒度和细粒度检索两种方法。基于粗粒度的跨模态检索只考虑了图像的全局特征,无法较好捕捉图像的局部信息。而基于细粒度的跨模态检索当前主要存在以下两个问题:
第一,未考虑细粒度级别语义上的非单一对应性,即在文本和图像的匹配中存在一个单词对应图像的多个区域,或是一个视觉区域对应多个单词的情况。
第二,现在广泛应用的对不同模态特征直接使用余弦距离计算相似度的方法,不能自适应地捕捉特征表示的显著方面,预测特征相似度的方法依然有可以改进的空间。
不难发现,现有的跨模态检索方法对文本和图像的复杂语义信息不能很好地捕捉和匹配,导致检索结果的准确性和稳定性难以满足实际需求。
因此,如何提供一种更加精确、稳定的图文跨模态检索方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于混合粒度匹配的图文跨模态检索方法,该方法有效解决了现有的跨模态检索方法对文本和图像的复杂语义信息不能很好地捕捉和匹配,导致检索结果的准确性和稳定性难以满足实际需求的问题。
为了实现上述目的,本发明采用如下技术方案:
一种基于混合粒度匹配的图文跨模态检索方法,该方法包括:
构建数据库:构建样本数据库,样本数据库中的样本数据包含成对的图像和文本,并将所述样本数据库中的样本数据划分为训练集、验证集和测试集;
提取文本:将所述训练集中的文本输入预先构建的文本编码模型进行文本序列编码,得到文本特征;
提取图像:将所述训练集中的图片输入预训练的图像特征提取模型,提取得到图像区域特征;
构建模型:构建跨模态匹配模型,并分别将所述文本特征和所述图像区域特征输入所述跨模态匹配模型进行训练,输出匹配分数;
验证模型:通过所述验证集对训练好的所述跨模态匹配模型进行验证,并提取最优模型;
评估模型:通过所述测试集对所述最优模型进行测试,并对所述最优模型的检索精度进行评估;
图文检索:利用测试和评估后的最优模型进行图文跨模态检索。
本发明中图像特征提取模型具体采用预训练的Faster RCNN提取图片中的显著区域特征,文本编码模型使用门控循环神经网络对文本序列进行编码。上述构建的跨模态匹配模型可以计算图像与文本间的相似度,进而实现图文跨模态检索。
进一步地,所述验证模型步骤执行之前,还包括:
优化模型:计算跨模态匹配模型训练过程的损失,并对所述文本编码模型和所述跨模态匹配模型进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110373838.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:像素驱动电路及显示面板
- 下一篇:一种通信管线自动测高平衡装置