[发明专利]一种基于关键对象特征的深度监督跨模态检索方法有效
申请号: | 202110208356.4 | 申请日: | 2021-02-24 |
公开(公告)号: | CN113010720B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 曾焕强;阮海涛;陈婧;张联昌;刘青松;张帆 | 申请(专利权)人: | 华侨大学;厦门亿联网络技术股份有限公司;厦门云知芯智能科技有限公司;厦门华联电子股份有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 张松亭;王婷婷 |
地址: | 362000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键 对象 特征 深度 监督 跨模态 检索 方法 | ||
本发明提供一种基于关键对象特征的深度监督跨模态检索方法,具体包括:首先构建特征学习模块抽取每个模态的深度特征,建立每个模态的注意力网络模型将各个模态抽取的特征分为关键特征和辅助特征,然后将每个模态抽取的关键特征和辅助特征进行融合作为最终的语义表征,最后建立三重损失函数:公共空间损失,标签空间损失和模态间不变性损失对模型进行训练学习。本发明提供的方法不仅能提高检索速度而且能够有效解决跨模态检索中精确度不高的问题。
技术领域
本发明涉及计算机视觉和模式识别领域,特别是指一种基于关键对象特征的深度监督跨模态检索方法。
背景技术
跨模态检索旨在于在不同模态的数据间(图像、文本、语音、视频等)进行检索,如图像检索文本、文本检索音频、音频检索视频等等,具有非常重要的应用价值。跨模态检索的应用场景非常广泛,例如视频网站的精彩片段检索、个性化语义短视频检索等。随着多模态、多媒体数据的爆炸式增长,跨模态检索已经成为学术界和工业界的研究热点之一。
然而不同模态的数据间往往呈现底层特征异构而高层语义相关的特性。例如老虎这一语义,在图像特征的表示上有SIFT、LBP等,但是文本特征的表示是字典向量等。由此可见,从特征的描述上同一语义在不同模态数据的表达类型完全不同。因此,跨模态检索的研究十分具有挑战性。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出基于关键对象特征的深度监督跨模态检索方法,首先构建特征学习模块抽取每个模态的深度特征,建立每个模态的注意力网络模型将各个模态抽取的特征分为关键特征和辅助特征,然后将每个模态抽取的关键特征和辅助特征进行融合作为最终的语义表征,最后建立三重损失函数:公共空间损失,标签空间损失和模态间不变性损失对模型进行训练学习。本发明提供的方法不仅能提高检索速度而且能够有效解决跨模态检索中精确度不高的问题。
本发明采用如下技术方案:
一种基于关键对象特征的深度监督跨模态检索方法,包括如下步骤:
建立图像特征提取网络和文本特征提取网络,接收图像文本对其中是输入图像数据,是输入的文本数据,n表示图像文本对的数量,每个图像文本对对应一个标签向量c是数据集中的类别数,且定义若第i个实例属于第j类,则yji=1,否则yji=0;
分别用图像特征提取网络提取图像的深度特征表征向量FI=[fi1,fi2,...,fin],文本特征提取网络提取文本的深度特征表征向量FT=[ft1,ft2,...,ftn];
再分别将FI=[fi1,fi2,...,fin]和FT=[ft1,ft2,...,ftn]送入注意力网络中,提取图像的关键特征U=[u1,u2,...,un],图像的辅助特征以及文本的关键特征V=[v1,v2,...,vn]和文本的辅助特征融合后的图像表征为融合后的文本表征为其中α=τ=0.8,β=γ=0.2为超参数;
将FIfinal和FTfinal在公共空间损失、标签空间损失和模态间不变性损失监督下进行训练学习,得到最后的网络模型算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学;厦门亿联网络技术股份有限公司;厦门云知芯智能科技有限公司;厦门华联电子股份有限公司,未经华侨大学;厦门亿联网络技术股份有限公司;厦门云知芯智能科技有限公司;厦门华联电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110208356.4/2.html,转载请声明来源钻瓜专利网。