[发明专利]一种基于变分自编码器的零样本跨模态检索方法有效
| 申请号: | 202210463114.4 | 申请日: | 2022-04-28 |
| 公开(公告)号: | CN114791958B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 徐行;王凯;田加林;杨阳;沈复民;申恒涛 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/45;G06N3/0455;G06N3/08 |
| 代理公司: | 电子科技大学专利中心 51203 | 代理人: | 曾磊 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 编码器 样本 跨模态 检索 方法 | ||
1.一种基于变分自编码器的零样本跨模态检索方法,其特征在于,该方法通过基于变分自编码器的零样本跨模态检索模型实现,该模型包括两个模态分别对应的两个特征提取器,一个分类器,一个混合变分自编码器及其对应的损失函数,分别对应于两个模态的两个解耦变分自编码器及其对应的两个损失函数,特征对齐损失函数和反直觉交叉重构损失函数,其中,分别对应于两个模态的两个解耦变分自编码器合称为多模态解耦变分自编码器;该方法具体包括以下步骤:
S1)数据预处理
选取N个数据集进行实验,每个数据集由两个不同模态x、y的数据构成,对于其中任一数据集,按照预先设置好的划分方式将该数据集的类别划分为可见类与不可见类,其中可见类作为训练集,不可见类作为测试集,可见类与不可见类中的类别没有重合,该数据集中各模态均包括可见类与不可见类,然后对该数据集中各模态数据进行数据预处理,最终得到N个数据预处理后的数据集;
S2)对任意一个数据预处理后的数据集中的训练集进行处理,使用特征提取器提取训练集中各模态数据的原始特征向量;
S3)使用所述基于变分自编码器的零样本跨模态检索模型对提取到的训练集中各模态数据的原始特征进行处理
首先使用多模态解耦变分自编码器对各模态数据的原始特征向量进行解耦:所述多模态解耦变分自编码器中每个解耦变分自编码器均由语义相关特征编码器、语义无关特征编码器与一个第一解码器构成,两个解耦变分自编码器中所有的编码器与第一解码器都由三个全连接层构成,任意两个全连接层之间插入Leakey-ReLU层以及Batch-Norm层,语义相关特征编码器和语义无关特征编码器使用对应模态的特征提取器提取的原始特征向量作为输入,分别输出相应模态数据的语义相关特征向量和语义无关特征向量,并对语义无关特征向量进行规范化,要求语义无关特征向量分布接近标准正态分布,以模态x为例,规范化损失函数LKL(x)定义为:
其中hx,x分别代表模态x的语义无关特征向量以及模态x的原始特征向量,代表模态x的语义无关特征编码器提取的语义无关特征向量的实际分布,p(h)为语义无关特征向量的先验分布,在这里被预设为标准正态分布;表示对语义无关特征向量的实际分布及其先验分布进行KL散度的约束;
第一解码器使用语义相关特征向量与语义无关特征向量的拼接作为输入,输出对应模态输入的原始特征向量的重构,并通过重构损失函数约束使该重构与输入的原始特征向量保持一致以减少编码过程中的信息损失,对于模态x,所述重构损失函数为:
其中zx代表模态x的语义相关特征向量,代表模态x的语义无关特征编码器和语义相关特征编码器的参数,θX表示模态x的第一解码器的参数,表示求期望值,log(·)表示以自然常数为底的对数,表示模态x的语义无关特征向量和语义相关特征向量的联合分布,表示模态x的第一解码器通过语义无关特征向量和语义相关特征向量重构出的原始特征,表示对重构出的原始特征进行极大似然估计;上述重构损失函数与规范化损失函数LKL(x)一起构成一个模态x的解耦变分自编码器的损失函数:
LDVAE(x)=LKL(x)+LRec(x)
同理,模态y的解耦变分自编码器的损失函数为:
LDVAE(y)=LKL(y)+LRec(y)
其中,y表示模态y的原始特征向量,LKL(y)表示模态y的规范化损失函数,LRec(y)表示模态y的重构损失函数;
所述多模态解耦变分自编码器由针对于两个不同模态x、y的解耦变分自编码器构成,所述多模态解耦变分自编码器的目标损失函数定义如下:
LMDVAE(x,y)=LDVAE(x)+LDVAE(y)
所述混合变分自编码器由一个混合编码器与一个第二解码器构成,所述混合编码器以所述两个模态的原始特征向量拼接作为输入,输出包含两个模态公共语义信息的语义嵌入向量,输出语义嵌入向量的维度与语义相关特征向量保持一致;所述混合编码器包含四个全连接层,每两个相邻的全连接层之间插入Leakey-ReLU层以及Batch-Norm层,同时将前两个全连接层的输出作为所述分类器的输入,所述分类器由一个全连接层构成,输出分类结果,通过分类损失保证混合变分自编码器编码了语义信息,将两个模态中属于相同类别的数据成对构建输入样本对(x,y),所述分类损失定义如下:
其中l代表模态x或模态y数据的类别标签,代表所述混合编码器前两个全连接层的参数,并且代表样本对(x,y)的分类概率,表示对所有样本得到的分类概率求均值;所述第二解码器由三层全连接层构成,任意两个相邻全连接层之间插入Leak ey-ReLU层以及Batch-Norm层,以混合编码器输出的语义嵌入向量作为输入,输出样本对(x,y)的重构,通过L1损失保证混合变分自编码器学习到足够的信息;将上述分类损失包含在内,混合变分自编码器的损失函数定义如下:
其中λ是一个超参数,用于控制语义信息的学习,下标表示使用样本对(x,y)提取出语义嵌入向量h的过程,表示使用语义嵌入向量h重构出样本对(x,y)的过程,表示对所有的重构结果求均值;
所述特征对齐损失函数定义如下:
其中代表所述混合编码器的参数,hy代表模态y的语义相关特征向量,代表模态y的语义相关特征编码器的参数,分别代表通过x和y提取语义相关特征向量的过程,表示学习到的语义相关特征向量的先验分布,表示对分布和进行KL散度的约束,表示对分布和进行KL散度的约束;
所述反直觉交叉重构损失函数定义如下:
其中||·||代表L1损失,分别代表模态x和y的反直觉重构;
所述反直觉重构定义如下,以模态x为例:
其中DY(·)代表所述模态y的第一解码器,zy、θY分别代表模态y的语义无关特征向量以及第一解码器的参数;
综上,所述基于变分自编码器的零样本跨模态检索模型的损失函数为:
L=LMDVAE+LFVAE+αLAlign+βLCICR
其中α,β为预设的超参数,用于调整不同损失的权重;
S4)对基于变分自编码器的零样本跨模态检索模型进行参数更新
对任意一个数据预处理后的数据集进行训练,在每一轮训练中,随机从该数据预处理后的数据集中的训练集两个模态中选择属于同一个类别的数据组成数据对作为整个基于变分自编码器的零样本跨模态检索模型的输入,根据步骤S3)的损失函数计算方式计算损失函数L,并使用梯度下降策略进行优化,直到损失函数L收敛,由此得到训练完成的基于变分自编码器的零样本跨模态检索模型;
S5)预测测试集中的数据
使用训练完成的基于变分自编码器的零样本跨模态检索模型在步骤S4)采用的数据预处理后的数据集对应的测试集上进行测试,得到该数据预处理后的数据集中不可见类的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210463114.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可折叠眼镜框架及其制备工艺
- 下一篇:一种伞柄及遮阳伞





