[发明专利]基于双向注意力的图像文本互检索方法有效
| 申请号: | 201910626468.4 | 申请日: | 2019-07-11 |
| 公开(公告)号: | CN110516085B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 刘静;石雨佳 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06F16/483 | 分类号: | G06F16/483;G06V10/74;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
| 地址: | 710071 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于双向注意力的图像文本互检索方法,可用于电子文本和自然图像互相检索。本发明利用深度神经网络初步提取自然图像特征和电子文本特征,通过构建双向注意力模块,重构深度神经网络初步提取的自然图像特征和电子文本特征,重构后的特征包含更丰富的语义信息。本发明利用双向注意力模块改进传统特征提取过程,得到含有更多图像与文本语义信息的高阶特征,实现图像文本互检索。 | ||
| 搜索关键词: | 基于 双向 注意力 图像 文本 检索 方法 | ||
【主权项】:
1.一种基于双向注意力的图像文本互检索方法,其特征在于,利用双向注意力对电子文本和自然图像的不同模态特征进行交叉处理,利用交叉处理后的联合特征重构电子文本特征和自然图像特征,该方法的具体步骤包括如下:/n(1)生成训练集和测试集:/n从数据集中任意选取图像及其对应的文本对共25000个,将其中15000个图像文本对组成训练集,10000个图像文本对组成测试集;/n(2)利用神经网络提取每个图像文本对的特征:/n(2a)搭建一个14层的神经网络、设置并训练好每层参数;/n(2b)将训练集输入到训练好的卷积神经网络中,输出15000个图像文本对,每个图像文本对中的图像含有100个图像特征,文本含有100个文本特征;/n(3)从所有输出图像文本对中依次选取一个未选取过的图像;/n(4)从所有图像文本对中随机选取一个未选过的文本;/n(5)构建一个双向注意力模块:/n(5a)按照下式,计算所选图像的每个图像特征与所选文本的每个文本特征特征相似度:/n /n其中,Ri,k表示所选图像中第k个图像特征与所选文本中第i个文本特征的相似度,tanh表示双曲正切操作,yi表示所选文本的第i个文本特征,T表示转置操作,A表示随机生成的15000×15000维的注意力矩阵,xk表示所选图像的第k个图像特征;/n(5b)构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量,对每个图像相似度向量进行均值池化操作;构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量,对每个图像相似度向量进行均值池化操作;/n(5c)按照下述的软注意力公式,计算所选图像的每个图像特征在所有图像特征中的重要程度:/n /n其中,ak表示所选图像的第k个图像特征在所有图像特征中的重要程度,exp表示以自然常数e为底的指数操作,uk表示均值池化操作后的第k个图像特征相似度,∑表示求和操作,n表示所选图像的图像特征相似度总数,ud表示均值池化操作后的第d个文本特征相似度,d的取值范围为[1,n];/n(5d)按照下述的软注意力公式,计算所选文本的每个文本特征在所有文本特征中的重要程度:/n /n其中,bi表示所选文本的第i个文本特征在所有文本特征中的重要程度,ti表示均值池化操作后的第i个文本特征相似度,l表示所选文本的文本特征相似度总数,tm表示均值池化操作后的第m个文本特征相似度,m的取值范围为[1,l];/n(6)重构所选图像特征与所选文本特征:/n(6a)将每个图像特征的重要程度与所选图像的对应图像特征相乘,得到重构后的图像特征;/n(6b)将每个文本特征重要程度与所选文本的对应文本特征相乘,得到重构后的文本特征;/n(7)判断是否选完所有图像文本对中的文本,若是,则执行步骤(8),否则,执行步骤(4);/n(8)判断是否选完所有图像文本对中的图像,若是,则执行步骤(9),否则,执行步骤(3);/n(9)计算匹配概率:/n(9a)利用soft-max公式,计算每个图像与所有图像文本对中的每个文本的匹配概率;/n(9b)利用soft-max公式,计算每个文本与所有图像文本对中的每个图像的匹配概率;/n(10)利用交叉熵训练注意力矩阵:/n(10a)利用交叉熵公式,计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵;/n(10b)采用梯度下降公式,用每次迭代获得的交叉熵更新注意力矩阵元素值,直到交叉熵小于0.000001为止,得到训练好的注意力矩阵;/n(11)完成图像文本互检索:/n(11a)将测试集中所有图像文本对输入到步骤(2)训练好的神经网络中,得到测试集中的所有图像文本对的特征;/n(11b)用训练好的注意力矩阵与步骤(5a)所有图像文本对中的每个图像特征和每个文本图像相乘,得到的每个图像特征和每个文本特征在所有图像特征和文本特征中的重要程度,利用重要程度重构所有图像与文本特征,计算重构后的每个图像和每个文本的匹配概率;/n(11c)从所有重构后的匹配概率中,选取最大的匹配概率,将其对应的图像文本对作为检索结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910626468.4/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





