[发明专利]基于双向注意力的图像文本互检索方法有效
| 申请号: | 201910626468.4 | 申请日: | 2019-07-11 |
| 公开(公告)号: | CN110516085B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 刘静;石雨佳 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06F16/483 | 分类号: | G06F16/483;G06V10/74;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
| 地址: | 710071 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 双向 注意力 图像 文本 检索 方法 | ||
本发明公开了一种基于双向注意力的图像文本互检索方法,可用于电子文本和自然图像互相检索。本发明利用深度神经网络初步提取自然图像特征和电子文本特征,通过构建双向注意力模块,重构深度神经网络初步提取的自然图像特征和电子文本特征,重构后的特征包含更丰富的语义信息。本发明利用双向注意力模块改进传统特征提取过程,得到含有更多图像与文本语义信息的高阶特征,实现图像文本互检索。
技术领域
本发明属于图像处理技术领域,更进一步涉及自然语言处理和计算机视觉交叉技术领域中的一种基于双向注意力的图像文本互检索方法。本发明可用于挖掘自然图像-电子文本两种不同模态的深层联系,提取自然图像特征和文本特征,利用提取的特征计算自然图像与电子文本的匹配概率,实现自然图像-电子文本两种不同模态之间的相互检索。
背景技术
图像文本互检索目前存在两种方法。一种构建相似度学习网络,一种构建特征提取网络。构建相似度学习网络是利用相似度学习网络学习两类数据相似度并生成得分,选取得分最高的一组自然图像与电子文本,完成相互检索。构建特征提取网络是利用特征提取网络分别提取自然图像和电子文本的高阶特征,使用简单的相似度计算公式计算特征间相似性,选取相似度最高的图像文本对,完成相互检索。神经网络拥有多层网络结构,能够提取出数据的高阶特征,常用于文本和图像处理。注意力能够在不同模态特征交互时捕获交互后联合特征,利用联合特征对其他特征进行加权重构,充分挖掘交互信息的作用。基于双向注意力的图像文本互检索方法的主要思想为:利用神经网络对自然图像和电子文本进行初步特征提取,构建双向注意力模块重构自然图像和电子文本特征,利用重构后的特征计算自然图像和电子文本匹配概率,完成相互检索。
腾讯科技有限公司在其在其申请的专利文献“图像文本匹配模型的训练方法、双向搜索方法及相关装置”(专利申请号:201710817344.5,公开号:CN 108288067 A)中提出了一种基于深度神经网络的自然图像与电子文本双向检索方法。该方法利用卷积神经网络模型进行图像特征提取和文本特征提取,再构建相似度衡量网络计算特征相似度。该方法虽然能够利用多层网络提取自然图像和电子文本的高阶特征,但是,该方法仍然存在的不足之处是:自然图片和电子文本属于不同模态的数据,数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征,进而难以衡量自然图像与电子文本高阶特征间相似性,影响检索准确率。
S.Li,T.Xiao,H.Li,B.Zhou等人在其发表的论文“Person search with naturallanguage description”(International Conference on Computer Vision and PatternRecognition,2017:1970-1979)中提出了一种基于单向注意力的图像文本检索方法。该方法利用注意力将提取到的图像特征加权到文本特征中,对文本特征进行重构,增强文本与图像之间的相似性。该方法虽然能够利用注意力重构电子文本特征,但是,该方法仍然存在的不足之处是:只是简单地在重构电子文本特征时使用自然图像对电子文本的单向注意力,由于自然图像与电子文本存在对应关系,相互对应的高阶特征间互相影响,仅仅重构电子文本特征而忽略自然图像特征,使得自然图像特征无法准确与电子文本特征对应,影响图像文本互相检索。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于双向注意力的图像文本互检索方法,解决相同语义信息的自然图像与电子文本的相互检索问题。
实现本发明目的的思路是,利用注意力能够在不同模态特征交互时捕获交互后联合特征,利用联合特征对其他特征进行加权重构,充分挖掘交互信息的作用。通过构建双向注意力模块,重构深度神经网络初步提取的自然图像特征和电子文本特征,重构后的特征包含更丰富的语义信息。
本发明具体步骤包括有如下:
(1)生成训练集和测试集:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910626468.4/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





