[发明专利]一种基于层次化相似性学习的文本到商品图像的检索方法有效
申请号: | 202110185623.0 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112860930B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 纪守领;马哲;刘丰豪;张旭鸿;董建锋;何源 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F16/583;G06V10/40;G06V10/74;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 相似性 学习 文本 商品 图像 检索 方法 | ||
1.一种基于层次化相似性学习的文本到商品图像的检索方法,其特征在于,该方法为:将输入的文本查询和候选图像通过检索网络进行编码,并计算各个层次不同粒度下的相似度,以一定的权重聚合上述各种相似度,根据相似度对候选图像进行排序,并返回检索结果;其中,检索网络包括特征提取模块、两个层次化编码网络;所述检索网络通过如下方法构建并训练:
(1)利用特征提取模块对图像和文本进行特征提取,得到图像和文本两种模态数据的初始特征;其中,所述图像的初始特征为图像中提取的物体特征的集合,所述文本特征为文本中单词特征的集合;
(2)以并行的方式,利用层次化编码网络对在步骤(1)中得到的图像和文本的初始特征分别进行层次化编码,获得具有更强表示能力的多层次图像特征和多层次文本特征;
(3)将步骤(2)中得到的多层次图像特征和多层次文本特征映射到物体粒度的公共空间中,得到各种层次的物体粒度的相似度,所述物体粒度的相似度为图像中所有物体特征与文本特征均值相关度的平均值;包括如下步骤:
(3-1)将文本特征通过平均池化融合为语句级别的特征,并通过一个全连接层映射到物体粒度公共空间中;
(3-2)将图像特征中的每个物体特征通过一个全连接层单独映射到上述物体粒度公共空间中;
(3-3)计算每个物体特征到语句特征的投影长,作为物体-查询间相似度,取所有物体相似度的均值作为物体粒度的相似度;
其中,对每一个层次的文本特征和图像特征按步骤(3-1)-(3-3)操作,得到各种层次的物体粒度的相似度;
(4)将步骤(2)中得到的多层次图像特征和多层次文本特征映射到图像粒度的公共空间中,得到各种层次的图像粒度的相似度,所述图像粒度的相似度为图像中所有物体聚合后的全局图像特征与文本特征均值的相关度;包括如下步骤:
(4-1)将文本特征通过平均池化融合为语句级别的特征,并通过一个全连接层映射到图像粒度公共空间中;
(4-2)通过自注意力的方式聚合图像特征中各个物体特征为图像级别的特征,并通过一个全连接层映射到图像粒度公共空间中;
(4-3)计算融合后的图像特征到语句特征的投影长,作为图像粒度的相似度;
其中,对每一个层次的文本特征和图像特征按按步骤(4-1)-(4-3)操作,得到各种层次的图像粒度的相似度;
(5)利用公共空间学习算法对检索网络模型进行端到端训练,包括如下步骤:
(5-1)通过跨模态投影匹配损失函数,计算各个公共空间中的损失;其中,对于物体粒度的公共空间,其损失函数可以定义为
为第i个图像和第i个文本在l层次上的物体粒度的相似度;为第i个图像和第j个文本在l层次上的物体粒度的相似度;
对于图像粒度的公共空间,其损失函数可以定义为:
为第i个图像和第i个文本在l层次的图像粒度的相似度;为第i个图像和第j个文本在l层次的图像粒度的相似度;
(5-2)将各个损失函数进行加权求和,以端到端的方式训练检索网络模型。
2.根据权利要求1所述的一种基于层次化相似性学习的文本到商品图像的检索方法,其特征在于,所述特征提取模块包括目标检测模型、独热编码模块和Word2Vec模型;其中:
利用预训练的目标检测模型对输入的商品图像进行目标检测和特征提取,获得图像的初始特征;
利用独热编码对文本中的每个单词进行编码,获得文本的离散编码;利用在大规模无标注语料上预训练的Word2Vec模型,将文本的离散编码转换为连续的向量表示获得文本的初始特征。
3.根据权利要求1所述的一种基于层次化相似性学习的文本到商品图像的检索方法,其特征在于,所述层次化编码网络由多个堆叠的编码器组成,两个层次化编码网络的编码器个数相等;编码器可以为Transformer编码器、GRU编码器或其它编码器。
4.根据权利要求1所述的一种基于层次化相似性学习的文本到商品图像的检索方法,其特征在于,所述步骤(2)中,利用层次化编码网络对在步骤(1)中得到的图像初始特征进行层次化编码具体为:
将图像初始特征映射到特定维度,然后利用多个堆叠的编码器进行编码,提取层次化编码网络中每个编码器的输出作为某种层次的输出得到多层次图像特征;
利用层次化编码网络对在步骤(1)中得到的文本初始特征进行层次化编码具体为:
将文本初始特征映射到特定维度,然后利用多个堆叠的编码器进行编码;提取层次化编码网络中每个编码器的输出作为某种层次的输出得到多层次文本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110185623.0/1.html,转载请声明来源钻瓜专利网。