[发明专利]一种基于多层次特征表示对齐的跨模态检索方法在审
申请号: | 202111149240.4 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113792207A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 张卫锋;周俊峰;王小江 | 申请(专利权)人: | 嘉兴学院 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/2458;G06F40/30;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙) 11390 | 代理人: | 张菊萍 |
地址: | 314000 浙江省嘉兴市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层次 特征 表示 对齐 跨模态 检索 方法 | ||
本发明公开了一种基于多层次特征表示对齐的跨模态检索方法,涉及跨模态检索技术领域。本发明通过在跨模态细粒度精确对齐阶段,分别计算图像和文本两种不同模态数据之间的全局相似度、局部相似度和关系相似度,并融合得到图像‑文本综合相似度,在神经网络训练阶段,设计相应损失函数,挖掘跨模态结构约束信息,从多个角度约束和监督检索模型的参数学习,最后根据图像‑文本综合相似度获取测试查询样例的检索结果,从而通过引入图像和文本两种不同模态数据之间的细粒度关联关系,有效提高跨模态检索的准确率,在图文检索、模式识别等领域具有广泛的市场需求和应用前景。
技术领域
本发明涉及跨模态检索技术领域,特别涉及一种基于多层次特征表示对齐的跨模态检索方法。
背景技术
随着移动互联网、社交网络等新一代互联网技术的快速发展,文本、图像、视频等多模态数据呈现爆炸式增长。跨模态检索技术旨在通过挖掘和利用不同模态数据之间的关联信息,实现不同模态数据之间的跨越检索,其核心是实现跨模态数据之间的相似度度量。近年来,跨模态检索技术已成为国内外研究热点,受到学术界和工业界的广泛关注,是跨模态智能的重要研究领域之一,也是信息检索领域未来发展的重要方向。
跨模态检索同时涉及多种模态的数据,这些数据之间存在“异构鸿沟”,即它们在高层语义上相互关联,但在底层特征上呈现异构性,因此需要检索算法能够深入挖掘不同模态数据之间的关联信息,实现一种模态数据到另一种模态数据的对齐。
目前,子空间学习方法是跨模态检索的主流方法,该类方法又可细分为基于传统统计相关性分析的检索模型和基于深度学习的检索模型。其中,基于传统统计相关性分析的跨模态检索方法通过线性映射矩阵将不同模态数据映射到子空间,最大化不同模态数据之间的相关性。基于深度学习的跨模态检索方法利用深度神经网络的特征抽取能力抽取不同模态数据的有效表示,同时利用神经网络的复杂非线性映射能力挖掘跨模态数据之间复杂关联特性。
在实现本发明的过程中,申请人发现现有技术存在以下技术问题:
现有技术提供的跨模态检索方法注重图像和文本的全局特征和局部特征的表示学习、关联分析和对齐,但缺乏视觉目标之间关系的推理和关系信息的对齐,且无法全面有效利用训练数据蕴含的结构约束信息监督模型进行训练,导致跨模态检索方法对图像和文本的跨模态检索精确度较低。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种基于多层次特征表示对齐的跨模态检索方法,通过跨模态多层次表示关联,准确衡量图像和文本之间的相似度,有效提供检索准确率,从而解决现有跨模态检索方法表示不够精细、跨模态关联不够充分的技术问题,同时,利用跨模态结构约束信息监督检索模型的训练。本发明的技术方案如下:
根据本发明实施例的一个方面,提供一种基于多层次特征表示对齐的跨模态检索方法,其特征在于,所述方法包括:
获取训练数据集,对于所述训练数据集中的每组数据对,所述数据对包括图像数据、文本数据,以及所述图像数据与所述文本数据共同对应的语义标签;
对于所述训练数据集中的每组数据对,分别提取所述数据对中图像数据对应的图像全局特征、图像局部特征和图像关系特征,以及所述数据对中文本数据对应的文本全局特征、文本局部特征和文本关系特征;
对于所述训练数据集中任一图像数据与任一文本数据组成的目标数据对,根据所述目标数据对对应的图像全局特征和文本全局特征、所述目标数据对对应的图像局部特征和文本局部特征、所述目标数据对对应的图像关系特征和文本关系特征计算得到所述目标数据对对应的图像-文本综合相似度;
基于各组目标数据对对应的图像-文本综合相似度,设计模态间结构约束损失函数和模态内结构约束损失函数,并采用所述模态间结构约束损失函数和所述模态内结构约束损失函数对模型进行训练。
在一个优选的实施例中,所述对于所述训练数据集中的每组数据对,分别提取所述数据对中图像数据对应的图像全局特征、图像局部特征和图像关系特征,以及所述数据对中文本数据对应的文本全局特征、文本局部特征和文本关系特征的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于嘉兴学院,未经嘉兴学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111149240.4/2.html,转载请声明来源钻瓜专利网。