[发明专利]多模态预训练模型的训练方法、训练装置及电子设备有效
申请号: | 202110828433.6 | 申请日: | 2021-07-22 |
公开(公告)号: | CN113283551B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 李子中;李飞阳;史雅雅;薛娇 | 申请(专利权)人: | 智者四海(北京)技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态预 训练 模型 方法 装置 电子设备 | ||
本申请提供了一种多模态预训练模型的训练方法、训练装置及电子设备。本申请通过将每一组图文对产生的图像特征向量和文本特征向量输入至多模态预训练模型完成对多模态预训练模型的训练。其中图像特征向量包括了第一类图像特征向量和第二类图像特征向量。第一类图像特征向量包括原始图片的全局特征,第二类图像特征向量包括原始图片的局部特征和局部特征的位置坐标。本申请中设置第二类图像特征向量可以将强相关的视觉‑语义场景准确的描述。本申请提供的多模态预训练模型的训练方法可以大量的节约在预训练时所花费的时间和计算资源,得到一个需要少量的数据就能够快速准确的进行文匹配的多模态预训练模型。
技术领域
本申请涉及计算机应用技术领域,具体涉及一种多模态预训练模型的训练方法、训练装置及电子设备。
背景技术
随着迁移学习技术的不断发展,一系列大规模的语言预训练模型 (PretrainLanguage Model) 以及图文多模态预训练 (Pretrain Multi-Modal Model) 模型广泛兴起,比如BERT,GPT-3,T5,CLIP等。这些预训练模型通常使用大规模的数据集在较为简单的任务上进行预训练。预训练完成后,用户再根据特定的下游任务加载预训练模型的参数后继续进行微调,便可以让预训练模型在相关下游任务上取得显著的性能提升。
目前,存在一些需要对图文信息进行检索的问题,即需要建立预训练模型以实现对图文信息的识别。传统的,图文检索的预训练模型主要是基于文本的图文检索模型。基于文本的图文检索沿用了传统的文本检索技术,数据库并不会对图片的内容来进行分析,而只是记录图像的名称和尺寸,图像注解的文字内容,以及人工给出的标签。在文本检索图片时,用户一般以关键短词的形式来查询图片,或者去特定类别的目录下寻找目标图像。以这种方式进行图文检索,不仅需要花费大量的时间和人力来对图片进行标注,而且检索机制并不能在真正意义上“理解”图片中描述的内容,从而不能实现文本与图片的在同一个语义空间下的“对齐”。
当然目前对图文信息进行检索时,也会采用基于内容的直接搜索模型,比如多模态预训练模型。在预训练阶段,多模态预训练模型会看到大量的图片-文本数据对,多模态预训练模型在训练过程中将文本图片编码,在多模态预训练模型内部或者目标函数中进行图片-文本语义的对齐,并产出同一语义空间的特征向量。通过计算特征向量的相似度来判断与当前图片/文本内容最相近的文本/图片,从而进行图文检索。
目前,图文多模态预训练模型开始在英文社区火爆起来,相关的改进模型与预训练技术也纷纷出现。遗憾的是,ViLBERT,CLIP以及DALL·E(三者均是基于内容进行图文检索的预训练模型)在训练过程中使用的文本均为英文文本,使其无法拥有中文文本检索与被检索的能力。
对于中文社区来说,目前有人民大学与中科院计算所联合发布的中文通用多模态预训练模型悟道·文澜,也有阿里达摩院发布的最大多模态预训练模型M6。其中,悟道·文澜模型是双塔模型模型,与CLIP的模型结构类似,在文本的预训练中使用了对比学习的方式来构造负样本。M6模型构建了一个基于自注意力机制 (Self-Attention) 的转换模型,兼具文本和图像特征向量提取与文本图片生成两种功能。
但是悟道·文澜模型是一个具有10亿参数的大规模预训练模型。而M6模型更是一个具有1000亿参数的超大规模的多模态预训练模型,这两种预训练模型都非常庞大。目前,急需提供一种通过少量的数据就能够快速准确的进行图文匹配的多模态预训练模型,该多模态预训练模型可以大量的节约在预训练时所花费的时间和计算资源。
发明内容
有鉴于此,为了能够更好地完成图文检索的任务,本申请提供了一种通用的多模态预训练模型的训练方法、训练装置及电子设备。本申请提供的所述多模态预训练模型能够适用于强相关的视觉-语义场景,减少了预训练所花费的时间和计算资源,相比于悟道·文澜模型与M6模型来说,既准确又迅速。
本申请提供一种多模态预训练模型的训练方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110828433.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于语音识别结果的匹配方法
- 下一篇:断路器监控系统与方法