[发明专利]一种图像文本匹配的方法在审

专利信息
申请号: 202210394752.5 申请日: 2022-04-14
公开(公告)号: CN114743029A 公开(公告)日: 2022-07-12
发明(设计)人: 乔壮;金福生;袁野;王国仁;马波 申请(专利权)人: 北京理工大学
主分类号: G06V10/74 分类号: G06V10/74;G06V30/19;G06V20/00;G06V10/40;G06V30/10;G06V30/18;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 代理人: 符继超
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图像 文本 匹配 方法
【说明书】:

发明提供了一种图像文本匹配的方法,包括:利用深度神经网络分别提取多尺度的图像特征和文本特征;利用自注意力机制方法计算多个尺度的全局相似性;进行节点级匹配和结构级匹配,利用结构级匹配结果计算多个尺度的局部相似性;根据计算出的多个尺度的全局相似性和局部相似性计算最终总相似性;进行监督学习模型训练,根据损失函数更新模型参数,得到训练后的模型;利用训练后的模型计算输入图像和文本的最终总相似性,根据最终总相似性大小得到匹配的文本或图像。本发明可以在网络训练完成的前提下更快速地找出匹配的图像或文本;利用原始数据的多尺度特征以及更全面的相似性度量方法得到更准确的结果。

技术领域

本发明涉及智能匹配技术领域,具体涉及一种在图像、文本多模态数据中根据一种模态匹配另一种模态的方法。

背景技术

在日常生活中,尤其是在访问互联网资源的过程中,图像和文本是非常重要的两个模态。图像的搜索通常离不开文本描述,而根据图像匹配到与其语义信息相近的文本对于相似图像的查找也具有指导作用,因此图像文本匹配,即计算图像、文本间相似度的方法非常重要。传统的方法不仅需要保存大量除数据本身之外的关系数据,同时也不能很好地应对处于动态变化的数据,而且每一次计算耗时很长,对于有实时性要求的场景也不适用。基于深度学习的图像文本匹配方法通过分别提取图像与文本的特征,对特征进行对齐后进行相似性的计算,在经过大量数据集的监督训练后,得到的模型可以快速准确地在待处理数据中找出与图像匹配的文本或与文本匹配的图像。目前对于图像文本匹配的深度学习方法已经有很多的技术,但是基本都存在不能全面考虑整体与局部的匹配的问题,而且对于图像中关键目标尺寸差距较大的情况也很少有人关注。

因此,如何提供一种可以对图像和文本之间进行多尺度特征以及更全面的相似性度量匹配方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此,本发明提出一种基于深度学习和多模态学习的图像特征、文本特征提取,并进行整体和局部相似度匹配的方法。

为了实现上述目的,本发明采用如下技术方案:

一种图像文本匹配的方法,包括构建模型步骤和模型匹配步骤:

所述构建模型步骤包括:

S1、利用深度神经网络分别提取多尺度的图像特征和文本特征,所述图像与文本为有匹配标注的数据;

S2、利用自注意力机制方法计算图像多尺度特征和文本多尺度特征的多个尺度的全局相似性;

S3、在图像多尺度特征和文本多尺度特征之间依次进行节点级匹配和结构级匹配,利用结构级匹配结果计算多个尺度的局部相似性;

S4、根据计算出的多个尺度的全局相似性和局部相似性计算最终总相似性;

S5、重复S2-S4进行监督学习模型训练,根据损失函数更新模型参数,得到训练后的模型;

模型匹配步骤:

S6、利用训练后的模型计算输入图像和文本的最终总相似性,根据最终总相似性大小得到匹配的文本或图像。

优选的,所述S1包括图像多尺度特征提取步骤:

将图像输入至Faster R-CNN模型,识别得到若干个图像区域的检测框;

利用ResNet模型对所述检测框对应的图像区域进行编码,得到提取的视觉特征;

将所述视觉特征分别通过输出维度为N个尺度的全连接层,输出的矩阵即为图像多尺度特征,N∈N+。

优选的,所述S1包括文本多尺度特征提取步骤:

通过赋予每个单词一个唯一的编号,从而对句子进行单词级令牌化,获得句子向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210394752.5/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top