[发明专利]基于图文语义嵌入的图文检索方法及系统在审
申请号: | 202210231146.1 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114741487A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 邹腊梅;乔森;连志祥;李广磊;严青;王皓;谢佳 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/532;G06F16/583;G06N3/04 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 彭军芬 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图文 语义 嵌入 检索 方法 系统 | ||
本发明公开了一种基于图文语义嵌入的图文检索方法及系统,属于多模态深度学习领域,方法包括:利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取;特征提取包括:图像侧特征嵌入网络以分组卷积的方式对图像进行特征提取,通过动态最大最小池化对提取到的图像特征进行编码,对编码结果进行标准化处理得到图像特征嵌入向量;文本侧特征嵌入网络对文本进行特征提取,得到文本特征嵌入向量;对图像特征嵌入向量和文本特征嵌入向量进行向量拼接与交叉后输入联合嵌入网络,以得到相应图像文本对的相似度;将相似度最高的预设数量个待匹配对象作为检索结果,并输出检索结果及相应的相似度。
技术领域
本发明属于多模态深度学习领域,更具体地,涉及一种基于图文语义嵌入的图文检索方法及系统。
背景技术
近年来,基于深度神经网络的图像文本语义理解迅速发展,其通过监督或非监督的训练方式,对海量的数据分布进行联合建模。通过网络编码的数据能够嵌入到高维空间中并表征几何级数的语义关系,为下游任务提供充分特征表达。
现有的语义嵌入范式通常采用双塔结构,以分别处理图像和文本信息。在图像侧,基于神经网络从图像中提取多语义的特征向量,其网络训练依赖于传统的图像识别或图像处理任务。在文本侧,基于神经网络将词汇和语句编码为可以在嵌入空间中度量的向量表示。之后通过联合嵌入层网络结合匹配损失进行度量学习。然而,现有方法依赖离线训练的特征嵌入向量,不能实现端到端训练。同时,由于图像和文本语义之间存在歧义,直接使用匹配损失函数进行度量学习会破坏图像和文本的部分信息。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于图文语义嵌入的图文检索方法及系统,其目的在于利用动态最大最小池化解决图文语义歧义、稀疏的问题,基于特征交叉和联合嵌入进行相似度表征,解决度量学习损失函数造成的语义信息破坏问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于图文语义嵌入的图文检索方法,包括:S1,利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取,所述待检索目标为图像和文本中的一种,所述待匹配对象为图像和文本中的另一种,所述图文语义嵌入模型包括图像侧特征嵌入网络、文本侧特征嵌入网络和联合嵌入网络;所述特征提取包括:所述图像侧特征嵌入网络以分组卷积的方式对图像进行特征提取,通过动态最大最小池化对提取到的图像特征进行编码,对编码结果进行标准化处理得到图像特征嵌入向量;所述文本侧特征嵌入网络对文本进行特征提取,得到文本特征嵌入向量;S2,对所述图像特征嵌入向量和所述文本特征嵌入向量进行向量拼接与交叉后输入所述联合嵌入网络,以得到相应图像文本对的相似度;S3,将相似度最高的预设数量个待匹配对象作为检索结果,并输出所述检索结果及相应的相似度。
更进一步地,所述动态最大最小池化包括:将提取到的图像特征展开为一维向量,将所述一维向量中最大的M个值作为前景特征,并将最小的N个值作为背景特征,M和N均为预先设定的参数;利用残差网络计算前景特征权重和背景特征权重,所述残差网络的分支部分由两个瓶颈层和全局平均池化层组成;根据所述前景特征权重和背景特征权重对所述前景特征和背景特征进行加权求和,得到动态最大最小池化后的编码结果。
更进一步地,所述S2中向量拼接与交叉操作包括:对所述图像特征嵌入向量和所述文本特征嵌入向量进行维度对齐,并对相应维度的元素分别进行相加、相减、相乘和相除,得到相应的特征交叉结果;将各所述特征交叉结果、所述图像特征嵌入向量和所述文本特征嵌入向量进行联合拼接,得到交叉特征向量。
更进一步地,所述文本侧特征嵌入网络包含简单递归单元,所述简单递归单元的记忆门中添加有隐含状态单元,用于分离输出以及输出的部分计算,以并行计算多个时间步的输出。
更进一步地,所述S1之前还包括:采用配对方式构建训练样本,并以最小化三元组先验损失函数为目标,利用所述训练样本训练所述图文语义嵌入模型,所述三元组先验损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210231146.1/2.html,转载请声明来源钻瓜专利网。