[发明专利]一种跨模态检索方法和系统在审
申请号: | 202211435114.X | 申请日: | 2022-11-16 |
公开(公告)号: | CN115718815A | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 黄润辉;龙衍鑫;梁小丹 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/583;G06F40/30;G06F18/22 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 高棋 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态 检索 方法 系统 | ||
本发明公开了一种跨模态检索方法和系统,涉及深度学习的技术领域,包括:获取图文对数据集,构建初始视觉‑语言检索模型;利用视觉编码器获得掩码块图像编码和图像数据编码,设置图像重建损失函数;在视觉概念词汇库中搜索视觉概念词,利用文本编码器获得视觉概念增强的文本编码,设置图像描述损失函数;利用跨模态解码器生成纯文本数据编码和重建文本数据,计算图文对噪声概率,设置噪声自适应对比损失函数;并利用噪声概率和重建文本数据获得重建图文对数据;构建总损失函数并进行优化,获得优化后的视觉‑语言检索模型,进行跨模态检索,获得检索结果;本发明提高了检索结果的准确性,还可以对文本数据不完整的图文对数据集进行补全。
技术领域
本发明涉及深度学习的技术领域,更具体地,涉及一种跨模态检索方法和系统。
背景技术
近年,深度学习领域蓬勃发展,计算机视觉和自然语言处理发展最为迅速。视觉语言预训练技术将计算机视觉和自然语言处理两个领域连通起来共同训练,使得视觉模态和文本模态投影到一个统一的表示空间中,并进行视觉模态和文本模态的对齐。视觉语言模型大大降低了对人工标注数据的要求,它可以从网络爬取的大量图像文本对中学习到视觉模态和文本模态的弱相关联系,最终其零样本分类性能超越了有监督模型的性能。视觉语言预训练模型会受到噪声干扰而影响性能,用于模型训练的训练数据集需要精细化的筛选流程以保证数据集质量。对于大量网络爬取的图文数据集,人工设计的过滤策略无法保证模型不受到噪声干扰;图文数据集中存在的噪声主要来自于文本对图片的不准确描述和不完整描述,利用存在噪声的图文数据集训练出的视觉语言模型,会因陷入噪声而大大降低了模型性能,检索结果不准确;当文本信息或图像信息不完整时,甚至无法获得检索结果。
现有技术公开了一种基于语义增强的跨模态检索方法及装置、存储介质和终端,其中方法包括构建跨模态检索模型,并基于图文检索数据训练集对跨模态检索模型进行训练以获取训练后的跨模态检索模型;确定目标查询数据和目标模态数据集,基于训练后的跨模态检索模型获取目标查询数据与每个目标模态数据之间的整体语义相似度;在目标模态数据集中依据整体语义相似度从大到小的顺序选取预设个数的整体语义相似度对应的目标模态数据,并确定检索结果。该申请对人工标注数据的要求高,需要大量完整图文数据进行训练,容易受到噪声干扰;并且对于不完整的文本数据,无法准确检索到图像数据。
发明内容
本发明为克服上述现有技术跨模态检索时,检索结果不准确的缺陷,提供一种跨模态检索方法和系统,能够获得准确的跨模态检索结果,并且实现对不完整文本对数据的补全与填充。
为解决上述技术问题,本发明的技术方案如下:
本发明提供了一种跨模态检索方法,包括:
S1:获取图文对数据集,包含相互对应的图像数据和文本数据;
S2:构建初始视觉-语言检索模型,包括视觉编码器、文本编码器和跨模态解码器;
S3:对图像数据上的像素块进行随机覆盖,获得掩码块图像;对文本数据进行随机掩码,获得掩码文本数据;
S4:将掩码块图像与图像数据输入视觉编码器,获得掩码块图像编码和图像数据编码,并根据掩码块图像编码和图像数据设置图像重建损失函数;
S5:将图像数据输入预设视觉概念词汇库,获得视觉概念词;并将视觉概念词和掩码文本数据输入文本编码器,获得视觉概念增强的文本编码;
S6:根据文本数据、视觉概念增强的文本编码和图像数据编码设置图像描述损失函数;
S7:将图像数据、文本数据和视觉概念增强的文本编码输入跨模态解码器,根据文本数据和视觉概念增强的文本编码生成纯文本数据编码,根据图像数据和视觉概念增强的文本编码生成重建文本数据;
S8:根据图像数据编码和纯文本数据编码计算图文对噪声概率,设置噪声自适应对比损失函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211435114.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种包样收缩装置
- 下一篇:货运信息查询方法、系统、设备及存储介质