[发明专利]一种基于层次化相似性学习的文本到商品图像的检索方法有效
申请号: | 202110185623.0 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112860930B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 纪守领;马哲;刘丰豪;张旭鸿;董建锋;何源 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F16/583;G06V10/40;G06V10/74;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 相似性 学习 文本 商品 图像 检索 方法 | ||
本发明公开了一种基于层次化相似性学习的文本到商品图像的检索方法,该方法通过预训练的目标检测模型和利用独热编码以及预训练的Word2Vec获取图像和文本的初步特征,再通过两个层次化编码网络分别对两种模态进行层次化编码。通过全连接层将特征映射到一个统一公共空间中,进行两种不同粒度的相似性度量,分别是物体粒度的相似性和图像粒度的相似性,最后利用公共空间算法学习两个模态之间的关系,通过端到端的方式训练模型,自动学习文本和图像的匹配关系,从而实现文本到图像的跨模态检索。本发明针对复杂的商品图像,应用多层次的特征以及多粒度的相似性来进行跨模态检索,具有优越的性能优势,并且利用深度学习技术,极大提高了检索的性能和效率。
技术领域
本发明涉及图像跨模态检索技术领域,尤其涉及一种基于层次化相似性学习的文本到商品图像的检索方法。
背景技术
近年来,随着互联网和移动智能设备的迅速普及以及通信和多媒体技术的迅速发展,电子商务平台应运而生,市场规模和用户需求在持续快速地增长。其中各种模态的商品数据,如文字、图像等也在迅速增长,如何从中快速且准确地找出用户需要的商品是一个艰巨的挑战。传统基于关键词的商品检索方式,已经不能完全满足用户的需求,且在持续增长的数据规模下难以扩展。在这样的背景下,基于内容的文本到商品图像的跨模态检索就是缓解这个挑战的关键技术之一。
现有的文本到图像的跨模态检索一般包含两类。一类是传统的跨模态检索方法,这一类方法通过计算文本和图像的跨模态相关度返回与查询相关度较高的图像,核心是计算文本和图像的跨模态相关度;另一类方法是针对商品图像检索的模型,它们的模型结构更加先进。这两类方法都建立在单层次的特征表示和单粒度的相关度度量上,难以有效地解决商品图像检索的问题。这是因为商品图像相比于传统的图像领域更加的复杂多样,比如它包含众多的商品品类,往往具有复杂的背景,图像内的目标易变形等。在这种情况下,单层次的特征表示,单粒度的跨模态相关性度量难以应对商品图像检索的复杂性。
本发明基于深度神经网络对文本和商品图像进行向量化编码,在此基础上进行公共度量空间的学习。在公共度量空间中,语义匹配的文本和图像在定义的相似度度量函数下会获得更高的打分。相关性分数可以用来对候选样本进行排序,以实现检索的效果。
发明内容
针对现有方法技术的不足,本发明提出了一种基于层次化相似性学习的文本到商品图像的检索方法,提出了层次化相似性学习网络,首次使用具有相似架构的多层编码网络同时对句子和图像进行量化编码和表示学习,使用多粒度的相似性度量方式计算文本和图像间的相似度,实现文本到图像的跨模态检索。
一种基于层次化相似性学习的文本到商品图像的检索方法,包括以下步骤:
该方法为:将输入的文本查询和候选图像通过检索网络进行编码,并计算各个层次不同粒度下的相似度,以一定的权重聚合上述各种相似度,根据相似度对候选图像进行排序,并返回检索结果。其中,检索网络包括特征提取模块、两个层次化编码网络;所述检索网络通过如下方法构建并训练:
(1)利用特征提取模块对图像和文本进行特征提取,得到图像和文本两种模态数据的初始特征;其中,所述图像的初始特征为图像中提取的物体特征的集合,所述文本特征为文本中单词特征的集合。
(2)以并行的方式,利用层次化编码网络对在步骤(1)中得到的图像和文本的初始特征分别进行层次化编码,获得具有更强表示能力的多层次图像特征和多层次文本特征。
(3)将步骤(2)中得到的多层次图像特征和多层次文本特征映射到物体粒度的公共空间中,得到各种层次的物体粒度的相似度,所述物体粒度的相似度为图像中所有物体特征与文本特征均值相关度的平均值。
(4)将步骤(2)中得到的多层次图像特征和多层次文本特征映映射到图像粒度的公共空间中,得到各种层次的图像粒度的相似度,所述图像粒度的相似度为图像中所有物体聚合后的全局图像特征与文本特征均值的相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110185623.0/2.html,转载请声明来源钻瓜专利网。