[发明专利]一种跨模态检索方法和系统在审
申请号: | 202211435114.X | 申请日: | 2022-11-16 |
公开(公告)号: | CN115718815A | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 黄润辉;龙衍鑫;梁小丹 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/583;G06F40/30;G06F18/22 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 高棋 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态 检索 方法 系统 | ||
1.一种跨模态检索方法,其特征在于,包括:
S1:获取图文对数据集,包含相互对应的图像数据和文本数据;
S2:构建初始视觉-语言检索模型,包括视觉编码器、文本编码器和跨模态解码器;
S3:对图像数据上的像素块进行随机覆盖,获得掩码块图像;对文本数据进行随机掩码,获得掩码文本数据;
S4:将掩码块图像与图像数据输入视觉编码器,获得掩码块图像编码和图像数据编码,并根据掩码块图像编码和图像数据设置图像重建损失函数;
S5:将图像数据输入预设视觉概念词汇库,获得视觉概念词;并将视觉概念词和掩码文本数据输入文本编码器,获得视觉概念增强的文本编码;
S6:根据文本数据、视觉概念增强的文本编码和图像数据编码设置图像描述损失函数;
S7:将图像数据、文本数据和视觉概念增强的文本编码输入跨模态解码器,根据文本数据和视觉概念增强的文本编码生成纯文本数据编码,根据图像数据和视觉概念增强的文本编码生成重建文本数据;
S8:根据图像数据编码和纯文本数据编码计算图文对噪声概率,设置噪声自适应对比损失函数;
S9:将噪声概率作为替换概率,根据替换概率利用重建文本数据替换对应的文本数据,获得重建图文对数据;
S10:根据图像重建损失函数、噪声自适应对比损失函数和图像描述损失函数构建总损失函数,利用重建图文对数据对总损失函数进行优化,获得优化后的视觉-语言检索模型;
S11:将待检索的图像数据或文本数据输入训练好的跨模态检索模型中,进行跨模态检索,获得检索结果。
2.根据权利要求1所述的跨模态检索方法,其特征在于,所述步骤S4中,图像重建损失函数为:
式中,LIR为图像重建损失值,N表示图文对数据的数量,xi表示第i个图像数据,x′i表示第i个掩码块图像,Ve(x′i)表示第i个掩码块图像编码,‖*‖表示求二范数。
3.根据权利要求1所述的跨模态检索方法,其特征在于,所述步骤S8中,根据图像数据编码和纯文本数据编码计算图文对噪声概率的具体方法为:
S8.1:对于每组图文对,计算图像数据相对文本数据的相似度和文本数据相对图像数据的相似度;
S8.2:利用所有图文对的图像数据相对文本数据的相似度和文本数据相对图像数据的相似度,计算总图文对比学习损失;
S8.3:利用双分量高斯混合模型,根据图文对比损失计算图文对噪声概率。
4.根据权利要求3所述的跨模态检索方法,其特征在于,所述步骤S8.1中,计算图像数据相对文本数据的相似度和文本数据相对图像数据的相似度的具体方法为:
式中,表示第i个图像数据相对第j个文本数据的相似度,表示第j个文本数据相对第i个图像数据的相似度。
5.根据权利要求4所述的跨模态检索方法,其特征在于,所述步骤S8.2中,计算总图文对比学习损失的具体方法为:
式中,B表示该批次输入的图像对数量,表示第i个文本数据相对第i个图像数据的相似度,表示第i个图像数据相对第i个文本数据的相似度;LITC(xi,yi)表示第i个图文对比损失,LITC表示总图文对比学习损失;表示图像对文本对比学习损失,表示文本对图像对比学习损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211435114.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种包样收缩装置
- 下一篇:货运信息查询方法、系统、设备及存储介质