[发明专利]基于Transformer网络和超球空间学习的多模态图像处理方法及系统有效

申请号：	202111451939.6	申请日：	2021-12-01
公开（公告）号：	CN114241273B	公开（公告）日：	2022-11-04
发明（设计）人：	徐行;田加林;沈复民;申恒涛	申请（专利权）人：	电子科技大学
主分类号：	G06V10/80	分类号：	G06V10/80;G06V10/778;G06V10/764;G06V10/82
代理公司：	电子科技大学专利中心 51203	代理人：	周刘英
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 transformer 网络空间学习多模态图像处理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Transformer网络和超球空间学习的多模态图像处理方法，其特征在于，该方法具体包括如下步骤：

步骤S1：获取预训练的Transformer网络模型，并基于各个模态的图像数据以自监督方式微调该预训练的Transformer网络模型，得到各个模态对应的教师模型；

步骤S2：构建能够基于多模态图像进行超球空间学习的多分支模型，其由各个模态对应的教师模型和一个多模态融合模型构成；

步骤S3：基于各个模态对应的教师模型分别提取各个模态图像的教师蒸馏向量，基于所述多模态融合模型提取各个模态图像的学生蒸馏向量，并基于所述多模态融合模型提取各个模态图像在单位超球空间的特征及其分类概率；

步骤S4：基于所述各个模态图像的教师蒸馏向量、所述各个模态图像的学生蒸馏向量、所述各个模态图像在单位超球空间的特征以及所述各个模态图像在单位超球空间的分类概率计算各个模态的蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失，并基于所述蒸馏损失、所述模态间中心对齐损失、所述模态内均匀性损失和所述分类损失更新所述多模态融合模型；

步骤S5：采用更新后的所述多模态融合模型基于待检测模态的图像和待查询模态的图像生成零样本跨模态检索结果；

其中，所述步骤S4的具体实现方式为：

多模态融合模型的训练过程是在各个模态对应的教师模型的监督下进行的，因为各个模态对应的教师模型是以自监督方式预训练的，它们被优化为发现每张图像所特有的全局结构信息；然而，多模态融合模型的目的是消除同个类别但不同模态的分布之间的模态差异，这将不可避免地要求多模态融合模型更多地关注整个类别共享的更具辨别性的局部结构，逐渐忘却每张图像所特有的结构信息，因此，通过知识蒸馏来避免这种名叫“灾难性遗忘”的现象；

基于照片的教师蒸馏向量及其学生蒸馏向量计算照片的蒸馏损失基于素描图的教师蒸馏向量及其学生蒸馏向量计算素描图的蒸馏损失以照片为例，给定N张图像构成的一批数据，知识蒸馏匹配教师蒸馏向量和学生蒸馏向量的概率分布，计算照片的蒸馏损失如下：

其中，τ_I和τ_D分别表示照片模态教师模型和多模态融合模型的温度超参，ψ表示Softmax归一化操作，KL表示Kullback-Leibler散度，以任意第张照片或任意第张素描图为例，和分别表示照片和素描图的教师蒸馏向量，而和分别表示照片和素描图的学生蒸馏向量；同理，也能够由一批素描图图像计算得到；因此，多模态融合模型的总体蒸馏损失定义为：

照片和素描图都被投影到单位超球空间，并期望照片和素描图能够按照类别聚集起来，当所有类别的图像都各自聚集起来，那它们的分布在超球空间中是线性可分的，因此，使用一个线性分类器对特征进行分类，计算分类损失如下：

其中，表示数学期望，x_i表示任意第张照片或者素描图，y_i表示x_i的类别标签，θ_c表示所述线性分类器的参数，多模态融合模型的结构是由一个骨架网络f_F和两个投影网络h_D和h_F构成，用g_D表示f_F和h_D构成的模型，g_F表示f_F和h_F构成的模型，P(y_ig_F(x_i)；θ_c)表示参数为θ_c的线性分类器将x_i分类为y_i的概率；

此外，基于各个模态图像在单位超球空间的特征计算模态间中心对齐损失明确要求各个模态图像在单位超球空间的特征分布在超球上是重叠的：

其中，为了简化表示，*表示照片模态I或者素描图模态S，λ是指数移动平均的权值，表示一批图像数据中类别标签为y_j的样本的数量，表示类中心，表示由各个类别y_i组成的类集合，上述第二行公式表示L2范数归一化类中心，即将类中心映射回单位超球空间；

另外，基于各个模态图像在单位超球空间的特征和径向基函数，为每个模态的特征计算模态内均匀性损失，其中模态内均匀性损失定义为成对特征的高斯势的期望的对数；最后，总的模态内均匀性损失是各个模态的模态内均匀性损失与的和：

其中，和表示同模态的任意两张图像，t是固定为2的参数，为任意成对图像和计算高斯势；

最后，多模态融合模型的总体目标函数是上述四种损失的线性加权，定义如下：

其中，λ₁和λ₂分别是模态间中心对齐损失和模态内均匀性损失的超参数，计算出多模态融合模型的总体目标函数的值后，根据随机梯度下降算法更新多模态融合模型的参数，得到更新后的所述多模态融合模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111451939.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于降低产品水洗筛余物的装置
下一篇：一种钙钛矿薄膜制备设备、方法及钙钛矿太阳能电池

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Transformer网络和超球空间学习的多模态图像处理方法及系统有效

专利文献下载