[发明专利]多模态预训练模型的训练方法、训练装置及电子设备有效
申请号: | 202110828433.6 | 申请日: | 2021-07-22 |
公开(公告)号: | CN113283551B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 李子中;李飞阳;史雅雅;薛娇 | 申请(专利权)人: | 智者四海(北京)技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态预 训练 模型 方法 装置 电子设备 | ||
1.一种多模态预训练模型的训练方法,其特征在于,包括:
构建多模态预训练模型,所述多模态预训练模型为双塔模型;
提供图文样本数据,所述图文样本数据中包括多个图文对;每一组所述图文对包括图片信息和文本信息;
将每一组所述图文对中所包括的所述文本信息输入至所述多模态预训练模型的文本侧,以获取每一组所述图文对的文本特征向量;
将每一组所述图文对中所包括的所述图片信息输入至所述多模态预训练模型的图像侧,以获取每一组所述图文对的图像特征向量,其中所述图像特征向量包括第一类图像特征向量和第二类图像特征向量;
根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型;训练所述多模态预训练模型时,将所述文本特征向量和所述图像特征向量分别两两做点积,点积结果最高的即为所述多模态预训练模型计算出的与该图片/文本最匹配的文本/图片。
2.根据权利要求1中所述的多模态预训练模型的训练方法,其特征在于,所述获取每一组所述图文对的图像特征向量的步骤包括:
获取所述图片信息中的所述第一类图像特征向量,所述第一类图像特征向量为全局特征向量;
获取所述图片信息中的所述第二类图像特征向量,所述第二类图像特征向量为局部特征向量;
将所述第一类图像特征向量和所述第二类图像特征向量连接到一起,并输入至全连接层进行维度变换,以得到所述图像特征向量,所述图像特征向量和所述文本特征向量为同一语义空间下的特征向量。
3.根据权利要求2中所述的多模态预训练模型的训练方法,其特征在于,所述获取所述图片信息中的所述第二类图像特征向量的具体步骤包括:
目标检测器对图片进行目标检测,获取所述图片中的目标物体特征以及所述目标物体的位置坐标特征;
将所述目标物体特征和所述位置坐标特征输入至自注意力层;
对所述目标物体特征和所述位置坐标特征进行融合,以得到所述第二类图像特征向量。
4.根据权利要求3中所述的多模态预训练模型的训练方法,其特征在于,所述获取每一组所述图文对的文本特征向量的步骤包括:
采用词粒度模型对所述文本信息进行分词,以得到多个标记序列;
将所述多个标记序列输入至转换层,以转换得到所述文本特征向量。
5.根据权利要求4中所述的多模态预训练模型的训练方法,其特征在于,所述根据所述图文样本数据中每一组所述图文对产生的所述图像特征向量和所述文本特征向量训练所述多模态预训练模型的步骤,包括:
计算每一组所述文本特征向量和所述图像特征向量之间的相关性;
评价所述相关性计算结果的高低;
当所述相关性的计算结果在预设范围内趋于稳定,或者当所述相关性的计算结果高于预设相关阈值时,停止对所述多模态预训练模型的训练。
6.根据权利要求5中所述的多模态预训练模型的训练方法,其特征在于,所述评价所述相关性计算结果的高低的步骤包括:
对所述图文样本数据中的所述文本特征向量和所述图像特征向量做点积运算,得到点积运算结果;
将所述点积运算结果与所述图片信息、所述文本信息进行对比,并采用交叉熵损失函数计算损失值;
根据所述损失值的大小来评价所述相关性计算结果的高低。
7.根据权利要求1所述的多模态预训练模型的训练方法,其特征在于,所述图文样本数据包括300万语义一致的中文图文对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110828433.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于语音识别结果的匹配方法
- 下一篇:断路器监控系统与方法