[发明专利]多模态模型的训练方法、装置、计算机设备及存储介质有效
申请号: | 202211364032.0 | 申请日: | 2022-11-02 |
公开(公告)号: | CN115410212B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 舒畅;肖京;陈又新 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/18;G06V30/148;G06V10/82;G06N3/08;G06N3/04;G06F40/289 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及计算机技术领域,可用于金融、医疗等领域的图文摘要生成,特别是涉及到一种多模态模型的训练方法、装置、设备及介质,所述方法包括如下步骤:获取第一特征向量;获取第二特征向量;将第一特征向量和第二特征向量输入待训练多模态模型,待训练多模态模型包括编码层和解码层;通过编码层获取对应的第一编码特征向量和第二编码特征向量;通过解码层解码第一编码特征向量和第二编码特征向量并生成图文摘要;通过预设的损失函数对待训练多模态模型进行训练,直至待训练多模态模型中的参数收敛,得到多模态模型。本申请通过训练多模态模型,使得多模态模型具备生成图文结合的图文摘要性能,进而得到图文摘要。
技术领域
本申请涉及计算机技术领域,特别是涉及到一种多模态模型的训练方法、装置、计算机设备及存储介质。
背景技术
文本摘要是指通过各种技术,对文本或者是文本集合,抽取、总结或是精炼其中的要点信息,用以概括和展示原始文本(集合)的主要内容或大意。作为文本生成任务的主要方向之一,从本质上而言,这是一种信息压缩技术。
在医疗、金融领域中文献中的摘要,常通过传统的摘要生成技术生成文献摘要。传统的摘要生成技术一般是单模态摘要,即纯文本摘要。为获取多模型摘要,常使用两个不同的编码器对文本和图像分别进行编码,然后将各自的特征进行拼接并输入解码器中解码,进而生成图文摘要。由于生成图文结合的摘要是使用不同的编码器分别对文本和图片进行处理,使得生成的图文摘要匹配度不高。因此,优化图文摘要的生成技术,获取高匹配度的图文摘要是目前需要解决的问题。
发明内容
本申请的主要目的为提供一种多模态模型的训练方法、装置、计算机设备及存储介质,旨在优化图文摘要的生成技术,进而得到高匹配度的图文摘要。
为了实现上述发明目的,本申请提出一种多模态模型的训练方法,所述方法包括:
获取第一特征向量,所述第一特征向量为图片特征向量;
获取第二特征向量,所述第二特征向量为文本特征向量;
将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;
通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;
将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;
通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
进一步地,所述获取第一特征向量,所述第一特征向量为图片特征向量,包括:
读取图片训练集中的图片;
切分所述图片,获取多张子图片;
对每一张所述子图片进行位置编码,得到图片位置编码向量;
将多张所述子图片输入全连接神经网络,获取图片子特征向量;
依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
进一步地,所述获取第二特征向量,所述第二特征向量为文本特征向量,包括:
读取文本训练集中的文本信息;
拆分所述文本信息,得到多个文字分词;
对每一个所述文字分词进行位置编码,得到文字位置编码向量;
将多个所述文字分词输入全连接神经网络,获取文本子特征向量;
依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211364032.0/2.html,转载请声明来源钻瓜专利网。