[发明专利]一种基于混合粒度匹配的图文跨模态检索方法有效

申请号：	202110373838.5	申请日：	2021-04-07
公开（公告）号：	CN113094533B	公开（公告）日：	2022-07-08
发明（设计）人：	盛律;徐东;魏云飞	申请（专利权）人：	北京航空航天大学
主分类号：	G06F16/532	分类号：	G06F16/532;G06F40/126;G06F40/194;G06N3/04;G06N3/08
代理公司：	北京慕达星云知识产权代理事务所(特殊普通合伙) 11465	代理人：	符继超
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混合粒度匹配图文跨模态检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于混合粒度匹配的图文跨模态检索方法，该方法包括构建数据库、提取文本、提取图像、构建模型、验证模型、评估模型以及图文检索等步骤。该方法利用多跳图神经网络对不同模态特征中混合粒度的语义信息进行捕捉，从而实现混合粒度的跨模态匹配。同时，该方法采用近邻信息敏感匹配模块代替传统方法中直接采用余弦距离计算相似度的方式，匹配分数的预测过程更加灵活、准确，进而显著提高了跨模态检索方法的精确度和稳定性。

技术领域

本发明涉及图文跨模态数据检索技术领域，更具体的说是涉及一种基于混合粒度匹配的图文跨模态检索方法。

背景技术

传统的信息检索系统主要有单模态检索和跨模态检索两种方式，单模态检索的查询数据和查询结果仅包含一种模态的数据，跨模态检索则能够实现两种不同模态数据间的互相检索。由于多模态数据所呈现出的多样性、复杂性与随意性，理解和校准多模态数据的语义内容尤为重要。

目前主流的跨模态检索有粗粒度和细粒度检索两种方法。基于粗粒度的跨模态检索只考虑了图像的全局特征，无法较好捕捉图像的局部信息。而基于细粒度的跨模态检索当前主要存在以下两个问题：

第一，未考虑细粒度级别语义上的非单一对应性，即在文本和图像的匹配中存在一个单词对应图像的多个区域，或是一个视觉区域对应多个单词的情况。

第二，现在广泛应用的对不同模态特征直接使用余弦距离计算相似度的方法，不能自适应地捕捉特征表示的显著方面，预测特征相似度的方法依然有可以改进的空间。

不难发现，现有的跨模态检索方法对文本和图像的复杂语义信息不能很好地捕捉和匹配，导致检索结果的准确性和稳定性难以满足实际需求。

因此，如何提供一种更加精确、稳定的图文跨模态检索方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于混合粒度匹配的图文跨模态检索方法，该方法有效解决了现有的跨模态检索方法对文本和图像的复杂语义信息不能很好地捕捉和匹配，导致检索结果的准确性和稳定性难以满足实际需求的问题。

为了实现上述目的，本发明采用如下技术方案：