[发明专利]一种图像文本匹配的方法在审
申请号: | 202210394752.5 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114743029A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 乔壮;金福生;袁野;王国仁;马波 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06V10/74 | 分类号: | G06V10/74;G06V30/19;G06V20/00;G06V10/40;G06V30/10;G06V30/18;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 文本 匹配 方法 | ||
本发明提供了一种图像文本匹配的方法,包括:利用深度神经网络分别提取多尺度的图像特征和文本特征;利用自注意力机制方法计算多个尺度的全局相似性;进行节点级匹配和结构级匹配,利用结构级匹配结果计算多个尺度的局部相似性;根据计算出的多个尺度的全局相似性和局部相似性计算最终总相似性;进行监督学习模型训练,根据损失函数更新模型参数,得到训练后的模型;利用训练后的模型计算输入图像和文本的最终总相似性,根据最终总相似性大小得到匹配的文本或图像。本发明可以在网络训练完成的前提下更快速地找出匹配的图像或文本;利用原始数据的多尺度特征以及更全面的相似性度量方法得到更准确的结果。
技术领域
本发明涉及智能匹配技术领域,具体涉及一种在图像、文本多模态数据中根据一种模态匹配另一种模态的方法。
背景技术
在日常生活中,尤其是在访问互联网资源的过程中,图像和文本是非常重要的两个模态。图像的搜索通常离不开文本描述,而根据图像匹配到与其语义信息相近的文本对于相似图像的查找也具有指导作用,因此图像文本匹配,即计算图像、文本间相似度的方法非常重要。传统的方法不仅需要保存大量除数据本身之外的关系数据,同时也不能很好地应对处于动态变化的数据,而且每一次计算耗时很长,对于有实时性要求的场景也不适用。基于深度学习的图像文本匹配方法通过分别提取图像与文本的特征,对特征进行对齐后进行相似性的计算,在经过大量数据集的监督训练后,得到的模型可以快速准确地在待处理数据中找出与图像匹配的文本或与文本匹配的图像。目前对于图像文本匹配的深度学习方法已经有很多的技术,但是基本都存在不能全面考虑整体与局部的匹配的问题,而且对于图像中关键目标尺寸差距较大的情况也很少有人关注。
因此,如何提供一种可以对图像和文本之间进行多尺度特征以及更全面的相似性度量匹配方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提出一种基于深度学习和多模态学习的图像特征、文本特征提取,并进行整体和局部相似度匹配的方法。
为了实现上述目的,本发明采用如下技术方案:
一种图像文本匹配的方法,包括构建模型步骤和模型匹配步骤:
所述构建模型步骤包括:
S1、利用深度神经网络分别提取多尺度的图像特征和文本特征,所述图像与文本为有匹配标注的数据;
S2、利用自注意力机制方法计算图像多尺度特征和文本多尺度特征的多个尺度的全局相似性;
S3、在图像多尺度特征和文本多尺度特征之间依次进行节点级匹配和结构级匹配,利用结构级匹配结果计算多个尺度的局部相似性;
S4、根据计算出的多个尺度的全局相似性和局部相似性计算最终总相似性;
S5、重复S2-S4进行监督学习模型训练,根据损失函数更新模型参数,得到训练后的模型;
模型匹配步骤:
S6、利用训练后的模型计算输入图像和文本的最终总相似性,根据最终总相似性大小得到匹配的文本或图像。
优选的,所述S1包括图像多尺度特征提取步骤:
将图像输入至Faster R-CNN模型,识别得到若干个图像区域的检测框;
利用ResNet模型对所述检测框对应的图像区域进行编码,得到提取的视觉特征;
将所述视觉特征分别通过输出维度为N个尺度的全连接层,输出的矩阵即为图像多尺度特征,N∈N+。
优选的,所述S1包括文本多尺度特征提取步骤:
通过赋予每个单词一个唯一的编号,从而对句子进行单词级令牌化,获得句子向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210394752.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于垂直轴微耕机的离合器
- 下一篇:一种加速煤矸石生态稳定化的方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序