[发明专利]多模态模型的训练方法、装置、计算机设备及存储介质有效

申请号：	202211364032.0	申请日：	2022-11-02
公开（公告）号：	CN115410212B	公开（公告）日：	2023-02-07
发明（设计）人：	舒畅;肖京;陈又新	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06V30/19	分类号：	G06V30/19;G06V30/18;G06V30/148;G06V10/82;G06N3/08;G06N3/04;G06F40/289
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉;曹勇
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多模态模型训练方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及计算机技术领域，可用于金融、医疗等领域的图文摘要生成，特别是涉及到一种多模态模型的训练方法、装置、设备及介质，所述方法包括如下步骤：获取第一特征向量；获取第二特征向量；将第一特征向量和第二特征向量输入待训练多模态模型，待训练多模态模型包括编码层和解码层；通过编码层获取对应的第一编码特征向量和第二编码特征向量；通过解码层解码第一编码特征向量和第二编码特征向量并生成图文摘要；通过预设的损失函数对待训练多模态模型进行训练，直至待训练多模态模型中的参数收敛，得到多模态模型。本申请通过训练多模态模型，使得多模态模型具备生成图文结合的图文摘要性能，进而得到图文摘要。

技术领域

本申请涉及计算机技术领域，特别是涉及到一种多模态模型的训练方法、装置、计算机设备及存储介质。

背景技术

文本摘要是指通过各种技术，对文本或者是文本集合，抽取、总结或是精炼其中的要点信息，用以概括和展示原始文本（集合）的主要内容或大意。作为文本生成任务的主要方向之一，从本质上而言，这是一种信息压缩技术。

在医疗、金融领域中文献中的摘要，常通过传统的摘要生成技术生成文献摘要。传统的摘要生成技术一般是单模态摘要，即纯文本摘要。为获取多模型摘要，常使用两个不同的编码器对文本和图像分别进行编码，然后将各自的特征进行拼接并输入解码器中解码，进而生成图文摘要。由于生成图文结合的摘要是使用不同的编码器分别对文本和图片进行处理，使得生成的图文摘要匹配度不高。因此，优化图文摘要的生成技术，获取高匹配度的图文摘要是目前需要解决的问题。

发明内容

本申请的主要目的为提供一种多模态模型的训练方法、装置、计算机设备及存储介质，旨在优化图文摘要的生成技术，进而得到高匹配度的图文摘要。

为了实现上述发明目的，本申请提出一种多模态模型的训练方法，所述方法包括：

获取第一特征向量，所述第一特征向量为图片特征向量；

获取第二特征向量，所述第二特征向量为文本特征向量；

将所述第一特征向量和所述第二特征向量输入待训练多模态模型，所述待训练多模态模型包括编码层和解码层；

通过所述编码层获取对应的第一编码特征向量和第二编码特征向量；

将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层，通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要；

通过预设的损失函数对所述待训练多模态模型进行训练，直至所述待训练多模态模型中的参数收敛，得到多模态模型。

进一步地，所述获取第一特征向量，所述第一特征向量为图片特征向量，包括：

读取图片训练集中的图片；

切分所述图片，获取多张子图片；