[发明专利]多模态变分自编码模型训练方法、系统及相关设备在审
| 申请号: | 202210659509.1 | 申请日: | 2022-06-09 |
| 公开(公告)号: | CN115035366A | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 陈亚瑞;杨剑宁;吴世伟;刘垚;王晓捷;闫潇宁;许能华 | 申请(专利权)人: | 深圳市安软慧视科技有限公司 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/82;G06N3/04;G06N3/08;G06F17/18 |
| 代理公司: | 深圳君信诚知识产权代理事务所(普通合伙) 44636 | 代理人: | 刘伟 |
| 地址: | 518000 广东省深圳市福田区沙*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态变分 编码 模型 训练 方法 系统 相关 设备 | ||
本发明适用于多模态数据处理领域,提供了一种多模态变分自编码模型训练方法、系统及相关设备,所述方法包括:获取包含多种模态的图像数据,并将每两张不同模态的图像数据进行配对,得到图像对数据集;构建多模态变分自编码框架模型,并将所述图像对数据集作为所述多模态变分自编码框架模型的输入,对所述多模态变分自编码框架模型进行训练;使用四元组度量损失作为所述多模态变分自编码框架模型训练的损失函数,直到损失函数收敛,输出完成训练的多模态变分自编码模型。本发明实现了在多模态变分自编码模型训练过程中在隐空间对共享隐向量进行对齐,使模型对多模态数据的数据表示与生成能力得到提高。
技术领域
本发明属于多模态数据处理领域,尤其涉及一种多模态变分自编码模型训练方法、系统及相关设备。
背景技术
多模态数据处理广泛存在于自然科学研究、工程技术等领域中,不同模态的数据往往是对同一事、物不同形式的表示,又各自具有独特的性质。对多模态数据进行建模与表示是人工智能研究领域的重要课题,多模态数据处理也是人工智能技术应用重要的组件。
采用概率生成模型处理多模态数据是一个重要的研究领域,早期的模型不能有效地处理大规模数据场景下模型训练与推理问题,而变分自编码(Variational Auto-Encoder,简称VAE)的提出很好地解决了该问题,基于VAE框架的深度概率生成模型研究也成为了当前多模态数据处理重要的方向。2016年之后,一些研究工作基于VAE框架通过建模数据的条件生成过程,实现模态之间的数据交叉与转换生成,但这些工作未从生成角度进行多模态数据建模,限制了模型的表示能力;2017年之后,对多模态联合数据分布的建模研究工作陆续展开,包括联合多模态变分自编码器(joint multimodal variational auto-encoder,JMVAE)模型、多模态变分自编码器(multimodal variational auto-encoder,MVAE)模型和专家混合多模态变分自编码器(mixture-of-experts multimodalvariational auto-encoder,MMVAE)模型等,这些模型通过建模多模态数据联合概率分布实现多模态数据的表示、条件生成,比分别建模不同方向上条件概率分布的训练开销更低,也获得了更有效的数据表示。但这些模型没有对数据进行解耦表示。
2020年以来的一些研究工作尝试将不同模态的共享与私有信息分开表示,相关工作提出了解耦的多模态变分自编码器(disentangling multimodal variational auto-encoder,DMVAE)模型,该模型通过将模态共享与私有信息分开表示,并最小化共享与私有隐向量的互信息进行解耦表示,同时通过噪音对抗估计损失在隐空间对齐共享隐向量,取得了较好的效果,但该模型仍然存在数据生成质量不清晰与共享私有信息抽取不准确的问题。
在当前多模态数据处理领域,已有的研究工作对不同模态数据之间的共享信息没有显式的约束,这使得多模态数据共享与私有信息不能被高效地解耦表示,进而导致信息抽取不准确、生成数据模糊的问题。
发明内容
为解决以上问题,本发明实施例提供一种多模态变分自编码模型训练方法、系统及相关设备,旨在提高多模态数据中共享和私有信息的数据生成、解耦等能力。
第一方面,本发明实施例提供一种多模态变分自编码模型训练方法,所述方法包括以下步骤:
获取包含多种模态的图像数据,并将每两张不同模态的图像数据进行配对,得到图像对数据集;
构建多模态变分自编码框架模型,并将所述图像对数据集作为所述多模态变分自编码框架模型的输入,对所述多模态变分自编码框架模型进行训练;
使用四元组度量损失作为所述多模态变分自编码框架模型训练的损失函数,直到损失函数收敛,输出完成训练的多模态变分自编码模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市安软慧视科技有限公司,未经深圳市安软慧视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210659509.1/2.html,转载请声明来源钻瓜专利网。





