[发明专利]一种基于双通道网络的图文关联检索方法在审
申请号: | 201810465884.6 | 申请日: | 2018-05-16 |
公开(公告)号: | CN108647350A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 王家宝;苗壮;李阳;李航;张洋硕 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210007 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络模型 关联检索 图像特征 文本特征 双通道 图文 索引数据库 查询数据 文本 训练数据集 查询结果 构造图像 构造文本 关联目标 匹配结果 损失函数 特征提取 图像数据 文本数据 训练图像 网络 关联地 检索库 排序 匹配 图像 保存 返回 | ||
1.一种基于双通道网络的图文关联检索方法,其特征在于:包括如下步骤:
构造训练数据集,所述训练数据集中包括多个成对的图像数据和文本数据;
构造对所述图像数据进行图像特征提取的图像深度网络模型;
构造对所述文本数据进行文本特征提取的文本深度网络模型;
构造所述图像特征和所述文本特征的关联目标损失函数;
根据所述关联目标损失函数,训练图像深度网络模型和文本深度网络模型;
通过所述图像深度网络模型和文本深度网络模型分别对检索库数据中的图像数据和文本数据进行特征提取,提取对应深度的图像特征和文本特征,并将二者相关联地保存形成索引数据库;
提取查询数据的特征,将所述查询数据提取的特征与所述索引数据库库中对应的文本特征或图像特征进行匹配,并根据匹配结果排序返回查询结果。
2.根据权利要求1所述的一种基于双通道网络的图文关联检索方法,其特征在于,构造训练数据集,所述训练数据集中包括多个成对的图像数据和文本数据具体包括如下步骤:
获取预设数量的图像数据,并尺度归一化至224×224像素大小;
对图像数据进行人工文本描述,通常描述内容为一段几十个或上百个词构成的语句;
对文本描述进行分词等预处理,得到文本词序列;
对分词后每个词进行向量量化表示,一段文本表示为一个包含N个词的向量序列,N为正整数。
3.根据权利要求1所述的一种基于双通道网络的图文关联检索方法,其特征在于,构造对所述图像数据进行图像特征提取的图像深度网络模型具体包括:
构造一个神经网络模型,且所述神经网络模型包括若干卷积单元和池化层,每个卷积单元包括一个批量归一化层、一个卷积层和一个非线性激活层,且所述神经网络模型最后由一个全局池化层输出特征。
4.根据权利要求1所述的一种基于双通道网络的图文关联检索方法,其特征在于,构造对所述文本数据进行文本特征提取的文本深度网络模型具体包括:
构造循环神经网络模型,所述循环神经网络模型包括一个门控单元,且所述门控单元循环接受当前输入向量和前一时刻输出量,且经所述门控单元信息处理后,输出一个向量作为文本特征。
5.根据权利要求1所述的一种基于双通道网络的图文关联检索方法,其特征在于,构造图像特征和文本特征的关联目标损失函数具体包括:
设定训练数据集中每个数据样本经网络输出后的特征向量为f,则给定一幅图像和一段文本,经网络输出后特征向量分别为fi和ft,定义两特征间的目标损失为L(fi,ft);
增加正则化项防止过拟合,其定义为:L(W),其中W为参数;
如此得到关联目标损失函数L=L(fi,ft)+λL(W),其中λ为正则化参数。
6.根据权利要求1所述的一种基于双通道网络的图文关联检索方法,其特征在于,根据所述关联目标损失函数,训练图像深度网络模型和文本深度网络模型具体包括:
给定一个批量的训练数据,通过前向传播计算关联目标损失;
通过关联目标损失函数计算目标关于输入数据的梯度;
通过反向传播算法逐层计算梯度,并更新梯度;
重复上述步骤进行迭代训练,使得迭代次数达到预定次数后,则停止训练;
对于训练的网络参数,保存到计算机磁盘上用于检索。
7.根据权利要求1所述的基于双通道网络的图文关联检索方法,其特征在于,通过所述图像深度网络模型和文本深度网络模型分别对检索库数据中的图像数据和文本数据进行特征提取,提取对应深度的图像特征和文本特征,并将二者相关联地保存形成索引数据库的步骤中具体包括如下步骤:
给定一个检索库数据,对于图像数据采用所述图像深度网络模型提取图像特征,对于文本数据采用所述文本深度网络模型提取文本特征;
对于提取的图像特征和文本特征,采用哈希索引保存至索引库中,形成索引数据库。
8.根据权利要求1所述的基于双通道网络的图文关联检索方法,其特征在于,提取查询数据的特征,将所述查询数据提取的特征与所述索引数据库库中对应的文本特征或图像特征进行匹配,并根据匹配结果排序返回查询结果的步骤中具体包括如下:
给定一幅查询图像,采用采用所述图像深度网络模型提取图像特征;
给定一条查询语句,采用所述文本深度网络模型提取文本特征;
对所提取的图像特征或文本特征到索引数据库中查找相似度高于预设值的图像数据或文本数据;
对返回结果进行排序,并最终返回给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810465884.6/1.html,转载请声明来源钻瓜专利网。