[发明专利]多模态变分自编码模型训练方法、系统及相关设备在审
| 申请号: | 202210659509.1 | 申请日: | 2022-06-09 |
| 公开(公告)号: | CN115035366A | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 陈亚瑞;杨剑宁;吴世伟;刘垚;王晓捷;闫潇宁;许能华 | 申请(专利权)人: | 深圳市安软慧视科技有限公司 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/82;G06N3/04;G06N3/08;G06F17/18 |
| 代理公司: | 深圳君信诚知识产权代理事务所(普通合伙) 44636 | 代理人: | 刘伟 |
| 地址: | 518000 广东省深圳市福田区沙*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态变分 编码 模型 训练 方法 系统 相关 设备 | ||
1.一种多模态变分自编码模型训练方法,其特征在于,所述方法包括以下步骤:
获取包含多种模态的图像数据,并将每两张不同模态的图像数据进行配对,得到图像对数据集;
构建多模态变分自编码框架模型,并将所述图像对数据集作为所述多模态变分自编码框架模型的输入,对所述多模态变分自编码框架模型进行训练;
使用四元组度量损失作为所述多模态变分自编码框架模型训练的损失函数,直到损失函数收敛,输出完成训练的多模态变分自编码模型。
2.如权利要求1所述的多模态变分自编码模型训练方法,其特征在于,定义所述图像对数据集中的其中一对图像分别为第一模态图像x和第二模态图像y,所述第一模态图像x和所述第二模态图像y相互配对得到的一对两模态数据为(x,y),所述两模态数据(x,y)具有共享隐向量z、以及分别对应所述第一模态图像x和所述第二模态图像y的私有隐向量hx、hy;
所述多模态变分自编码框架模型包括分别对应所述第一模态图像x和所述第二模态图像y的第一生成器第二生成器所述多模态变分自编码框架模型还包括分别对应所述私有隐向量hx和所述私有隐向量hy的第一私有信息编码器第二私有信息编码器以及分别对应所述第一模态图像x和所述第二模态图像y的第一共享信息编码器第一共享信息编码器
3.如权利要求2所述的多模态变分自编码模型训练方法,其特征在于,所述多模态变分自编码框架模型对所述两模态数据(x,y)的联合概率分布建模满足如下关系式(1):
关系式(1)中,p(z)、p(hx)、p(hy)分别为所述共享隐向量z、所述私有隐向量hx、所述私有隐向量hy的先验分布,且均服从各向同性的高斯分布。
4.如权利要求3所述的多模态变分自编码模型训练方法,其特征在于,所述多模态变分自编码框架模型进行训练时,对于所述两模态数据(x,y),其边缘概率分布pθ(x,y)满足如下关系式(2):
所述多模态变分自编码框架模型使用变分推理法,利用q(z,hx,hy|x,y)作为变分分布,并计算lnpθ(x,y)的变分下界所述变分下界满足如下关系式(3):
5.如权利要求4所述的多模态变分自编码模型训练方法,其特征在于,所述多模态变分自编码框架模型进行训练时,对于所述两模态数据(x,y)存在模态数据缺失的情况,其边缘概率分布pθ(x)、pθ(y)分别满足如下关系式(4)、(5):
所述多模态变分自编码框架模型使用变分推理法,利用q(z,hx,|x)、q(z,hy,|y)作为变分分布,并计算lnpθ(x)的变分下界或lnpθ(y)的变分下界变分下界满足如下关系式(6):
变分下界满足如下关系式(7):
6.如权利要求5所述的多模态变分自编码模型训练方法,其特征在于,定义所述第一模态图像x和所述第二模态图像y对应的负样本分别为x_、y_,所述四元组度量损失的约束满足如下关系式(8):
关系式(8)中,μx(x)与μy(y)分别表示所述第一共享信息编码器所述第二共享信息编码器的输出结果的均值,α1、α2为超参数;
所述多模态变分自编码框架模型最终的目标函数满足如下关系式(9):
其中,β为超参数。
7.如权利要求1所述的多模态变分自编码模型训练方法,其特征在于,所述多模态变分自编码模型在训练时使用梯度下降方法进行优化,使用Adam作为优化器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市安软慧视科技有限公司,未经深圳市安软慧视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210659509.1/1.html,转载请声明来源钻瓜专利网。





