[发明专利]多模态预训练模型的训练方法、应用方法及装置在审
申请号: | 202110262221.6 | 申请日: | 2021-03-10 |
公开(公告)号: | CN112990297A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 霍宇琦;张曼黎;刘光镇;卢志武;窦志成;金琴;赵鑫;宋睿华;文继荣 | 申请(专利权)人: | 北京智源人工智能研究院;中国人民大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F16/583;G06F16/33 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 尹倩倩 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态预 训练 模型 方法 应用 装置 | ||
1.一种多模态预训练模型的训练方法,其特征在于,包括:
构建双塔结构的多模态预训练模型;
获取正样本数据集和负样本数据集,所述正样本数据集包括正样本图文对,所述负样本数据集包括负样本图文对;
根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型,所述多模态预训练模型包括跨模态对比学习模块,所述跨模态对比学习模块用于对所述正样本图文对和所述负样本图文对进行图文相似度对比学习。
2.根据权利要求1所述的方法,其特征在于,所述构建双塔结构的多模态预训练模型,包括:
将图像编码器和图像动量编码器均与第一全连接层连接;
将文本编码器和文本动量编码器均与第二全连接层连接;
将所述第一全连接层和所述第二全连接层均与多层感知机连接;
将所述多层感知机与跨模态对比学习模块连接,得到双塔结构的多模态预训练模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型,包括:
在当前训练周期,将至少一个所述正样本图文对和多个所述负样本图文对输入所述多模态预训练模型;
通过所述图像编码器获得第一正样本图文对中图像对应的正样本图像特征向量;通过所述图像动量编码器获得每个所述负样本图文对中图像对应的负样本图像特征向量,所述第一正样本图文对为输入的任一正样本图文对;
通过所述第一全连接层将所述正样本图像特征向量和每个所述负样本图像特征向量拼接为图像特征向量序列;
通过所述文本编码器提取第一正样本图文对中文本对应的正样本文本特征向量;通过所述文本动量编码器提取每个所述负样本图文对中文本对应的负样本文本特征向量;
通过所述第二全连接层将所述正样本文本特征向量和每个所述负样本文本特征向量拼接成文本特征向量序列;
通过所述多层感知机将所述图像特征向量序列和所述文本特征向量序列映射至同一空间下;
根据所述正样本图像特征向量、所述正样本文本特征向量、处于同一空间下的所述图像特征向量序列和所述文本特征向量序列,通过所述跨模态对比学习模块进行图文相似度对比学习。
4.根据权利要求3所述的方法,其特征在于,所述根据所述正样本图像特征向量、所述正样本文本特征向量、处于同一空间下的所述图像特征向量序列和所述文本特征向量序列,通过所述跨模态对比学习模块进行图文相似度对比学习,包括:
通过所述跨模态对比学习模块分别计算所述正样本图像特征向量与所述文本特征向量序列中每个文本特征向量之间的相似度,得到图-文相似度序列;
通过所述跨模态对比学习模块分别计算所述正样本文本特征向量与所述图像特征向量序列中每个图像特征向量之间的相似度,得到文-图相似度序列;
根据所述图-文相似度序列,通过检索损失函数计算所述正样本图像特征向量与所述每个文本特征向量之间的检索损失值,得到图-文损失序列;
根据所述文-图相似度序列,通过所述检索损失函数计算所述正样本文本特征向量与所述每个图像特征向量之间的检索损失值,得到文-图损失序列;
根据所述图-文损失序列和所述文-图损失序列,确定当前训练周期的最终损失值。
5.根据权利要求4所述的方法,其特征在于,所述确定当前训练周期的最终损失值之后,还包括:
若已训练周期数大于或等于预设训练次数,则从已训练周期中确定最终损失值最小的训练周期,将最终损失值最小的训练周期对应的模型参数及所述多模态预训练模型的模型结构确定为最终训练好的多模态预训练模型;
若已训练周期数小于预设训练次数,则根据所述最终损失值调整模型参数,根据调整后的模型参数进行下一周期的训练。
6.一种多模态预训练模型的应用方法,其特征在于,包括:
获取待检测图文对和多个负样本图文对;
通过权利要求1-5任一项所述的训练方法训练的多模态预训练模型对所述待检测图文对和所述多个负样本图文对进行图文相似度对比,确定所述待检测图文对包括的图像和文本是否相互对应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院;中国人民大学,未经北京智源人工智能研究院;中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110262221.6/1.html,转载请声明来源钻瓜专利网。