[发明专利]多模态模型的训练方法、装置、计算机设备及存储介质有效
申请号: | 202211364032.0 | 申请日: | 2022-11-02 |
公开(公告)号: | CN115410212B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 舒畅;肖京;陈又新 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/18;G06V30/148;G06V10/82;G06N3/08;G06N3/04;G06F40/289 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
1.一种多模态模型的训练方法,其特征在于,所述方法包括:
获取第一特征向量,所述第一特征向量为图片特征向量,所述图片特征向量包括图片位置编码向量和图片子特征向量,其中,所述图片位置编码向量使用sin函数和cos函数进行位置编码得到;
获取第二特征向量,所述第二特征向量为文本特征向量,所述文本特征向量包括文字位置编码向量和文本子特征向量,其中,所述文字位置编码向量使用sin函数和cos函数进行位置编码得到;
将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;
通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;
将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;
通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
2.根据权利要求1所述的多模态模型的训练方法,其特征在于,所述获取第一特征向量,所述第一特征向量为图片特征向量,包括:
读取图片训练集中的图片;
切分所述图片,获取多张子图片;
对每一张所述子图片使用sin函数和cos函数进行位置编码,得到图片位置编码向量;
将多张所述子图片输入全连接神经网络,获取图片子特征向量;
依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
3.根据权利要求1所述的多模态模型的训练方法,其特征在于,所述获取第二特征向量,所述第二特征向量为文本特征向量,包括:
读取文本训练集中的文本信息;
拆分所述文本信息,得到多个文字分词;
对每一个所述文字分词使用sin函数和cos函数进行位置编码,得到文字位置编码向量;
将多个所述文字分词输入全连接神经网络,获取文本子特征向量;
依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
4.根据权利要求1所述的多模态模型的训练方法,其特征在于,所述通过所述编码层获取对应的第一编码特征向量和第二编码特征向量,包括:
在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;
基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;
基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。
5.根据权利要求1所述的多模态模型的训练方法,其特征在于,所述损失函数为 ;其中,
表示图片损失函数;
表示文本损失函数。
6.根据权利要求5所述的多模态模型的训练方法,其特征在于,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,包括:
通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;
通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;
将所述第一损失值和所述第二损失值相加,得到损失值;
判断所述损失值是否小于预设损失阈值;
若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型。
7.根据权利要求6所述的多模态模型的训练方法,其特征在于,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型之后,还包括:
获取待处理文本及待处理图片;
将所述待处理文本和所述待处理图片输入所述多模态模型;
基于所述多模态模型对所述待处理文本和所述待处理图片进行处理,得到图文结合的摘要文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211364032.0/1.html,转载请声明来源钻瓜专利网。