[发明专利]一种基于变分自编码器的零样本跨模态检索方法有效
| 申请号: | 202210463114.4 | 申请日: | 2022-04-28 |
| 公开(公告)号: | CN114791958B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 徐行;王凯;田加林;杨阳;沈复民;申恒涛 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/45;G06N3/0455;G06N3/08 |
| 代理公司: | 电子科技大学专利中心 51203 | 代理人: | 曾磊 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 编码器 样本 跨模态 检索 方法 | ||
本发明公开了一种基于变分自编码器的零样本跨模态检索方法,该方法通过基于变分自编码器的零样本跨模态检索模型实现,模型包括特征提取器,分类器,混合变分自编码器及损失函数、多模态解耦变分自编码器及损失函数,特征对齐损失函数和反直觉交叉重构损失函数,本发明通过数据预处理、提取原始特征、对原始特征进行处理、模型参数更新以及模型预测得到不可见类的检索结果。本发明将变分自编码器模型适应性地应用在零样本跨模态检索任务中,引导模型在训练过程中自行学习更加细化的语义嵌入以进行跨模态语义特征对齐,以学习到适合多模态语义特征的子空间分布。同时利用全新的反直觉重构策略加强语义信息保存的效果,实现更好的检索性能。
技术领域
本发明属于计算机视觉中的零样本跨模态检索分支,具体涉及一种基于变分自编码器的零样本跨模态检索方法。
背景技术
随着多媒体技术的发展,网络空间中往往充斥着图片、文本、视频、语音、草图等各种模态的信息。因此,在人们日常的工作与生活中,往往不止希望能进行单个模态的信息的检索,还希望能够通过一种模态的信息来检索另一种模态中的信息。跨模态检索任务正是针对这个问题提出的,其目的在于通过模态间相似的语义信息完成不同模态之间的检索。由于不同模态之间存在着显著的差异,因此直接在模态间进行语义的比较是十分困难的。为了解决这个问题,当前方法往往试图将不同模态的数据映射到一个公共子空间,在这个映射过程中尽可能保存其语义信息,并且减小模态间的差异。
当用于训练的类别与用于测试的类别保持一致时,现有的跨模态检索方法在草图-图片检索以及图片-文本检索等情景中都取得了优秀的效果。但是在实际的应用场景下,很多需要进行检索的类别是在训练时没有出现过的,当使用这些方法在这些不可见类上进行测试的时候,检索的效果会大幅度地下降。因此,更加贴近实际应用场景的零样本跨模态检索任务被提出。零样本检索任务不仅要考虑模态之间的差异,同时也要解决可见类与不可见类之间的语义差异。
为了在缩小模态间差异的同时完成可见类与不可见类之间的语义迁移,大部分现有方法在框架中引入了如生成对抗模型或变分自编码器等生成模型,将不同模型的数据映射到一个公共子空间,同时借鉴零样本分类任务的解决思路,引入额外的标签的语义嵌入向量完成语义对齐,在这个过程中语义嵌入成为可见类与不可见类之间进行语义迁移的桥梁。除此以外,还有部分方法从解耦的角度出发,通过各种解耦的方法直接提取出原始数据中的语义信息。
尽管研究者们提出的诸多特征对齐方法已经在大量公开数据集中取得了较好的检索效果,但依旧还存在一些不足。例如,额外的语义嵌入需要领域专家定义的准确类名,需要额外的人力成本。此外,语义嵌入通常是从在线语言学语料库(例如,维基百科)中获取的,使用这种方式直接对类进行语义表示显得较为粗略。前文所述生成模型通常在现有方法中被直接部署为默认架构,而没有针对零样本跨模态检索任务进行特定适配。不仅如此,现有的直接重构与交叉重构方式往往只注重与单一模态中信息的保存,因此学习到的子空间映射特征可能无法完整地保留模态间的相关信息。
综上,当前的零样本检索任务框架、语义迁移方式存在许多改善空间,同时需要更有效的保存语义信息的方法。本发明通过模型自行学习语义嵌入从而完成语义相关特征的学习,最终进行零样本跨模态检索,以及提出反直觉重构并设计相关损失函数以达到提高检索正确率的目的。
发明内容
本发明将变分自编码器模型适应性地应用在零样本跨模态检索任务中,引导模型在训练过程中自行学习更加细化的语义嵌入以进行跨模态语义特征对齐,以学习到适合多模态语义特征的子空间分布。同时利用全新的反直觉重构策略加强语义信息保存的效果,实现更好的检索性能。
本发明是一种基于变分自编码器的零样本跨模态检索方法,该方法通过基于变分自编码器的零样本跨模态检索模型实现,该模型包括两个模态对应的特征提取器、一个分类器、混合变分自编码器及其对应的损失函数、对应于两个模态的两个解耦变分自编码器及其对应的损失函数、特征对齐损失函数和反直觉交叉重构损失函数。其中,对应于两个模态的两个解耦变分自编码器合称为多模态解耦变分自编码器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210463114.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可折叠眼镜框架及其制备工艺
- 下一篇:一种伞柄及遮阳伞





