[发明专利]零样本图像识别方法及其识别装置、介质与计算机终端在审
| 申请号: | 202210638733.2 | 申请日: | 2022-06-08 |
| 公开(公告)号: | CN114821196A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 赵鹏;刘金辉;韩莉 | 申请(专利权)人: | 安徽大学 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06N3/04 |
| 代理公司: | 合肥市泽信专利代理事务所(普通合伙) 34144 | 代理人: | 方荣肖 |
| 地址: | 230022 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 图像 识别 方法 及其 装置 介质 计算机 终端 | ||
本发明涉及公开了一种基于原型域对齐与跨模态重建的零样本图像识别方法,其包括以下主要步骤:提取可见类样本的视觉特征;通过特征分布编码器获得可见类图像的视觉分布信息;通过特征生成器获得生成的视觉特征;通过设计分布正则化损失、域一致性损失、视觉重建损失、对抗损失和语义重建损失,训练优化所述特征生成器的模型的参数,获得训练好的特征生成器;将未见类语义特征输入训练好的特征生成器获得生成的未见类视觉特征;利用生成的未见类视觉特征训练未见类分类器;利用训练好的未见类分类器对未见类图像进行预测。本发明通过原型域一致性对齐和跨模态重建,使生成的视觉特征与真实的视觉特征更加接近,并且包含更多的类别判别性特征。
技术领域
本发明涉及计算机视觉的图像识别领域中的一种零样本图像识别方法,特别是一种基于原型域对齐与跨模态重建的零样本图像识别方法、与所述零样本图像识别方法相对应的零样本图像识别装置、采用所述零样本图像识别方法的计算机可读存数介质与计算机终端。
背景技术
现有的图像识别方法需要在模型训练阶段收集大量有类别标签的图像对模型进行训练,识别阶段只能识别训练阶段中出现过的类别。然而在实际场景中,经常需要识别训练阶段缺少图像的类别,例如濒危物种的图像、医疗肿瘤图像等。在上述应用场景下,训练阶段只能获取到各个类别的文本描述,无法获得对应的图像。因此,传统的图像识别方法无法对未见类图像进行识别,而采用零样本图像识别方法便可以对对未见类图像进行识别。零样本图像识别方法通过模型训练,能够在识别阶段识别出在训练阶段无法获取到图像的类别。训练阶段具有图像的类别称为可见类,训练阶段无法获取到图像的类别称为未见类。
公开号为CN113537322A的发明专利申请公开了一种跨模态语义增强生成对抗网络的零样本视觉分类方法。该方法需先训练跨模态语义增强网络,再训练基于跨模态语义增强的生成对抗网络。所述方法的跨模态语义增强网络首先将视觉特征进行降维后完成分类器及回归器操作。然后,为了保证视觉和语义之间更接近,所述方法又将语义特征通过升维变换为与降维后视觉空间相同的维度,然后通过网络将语义特征和视觉特征映射到同一子空间中,获得跨模态重构的语义特征和视觉特征,并进行计算不同模态的特征差异。
但是考虑到视觉特征包含丰富的细致和判别信息,容易在降维的过程中丢失一部分视觉信息;同时,这传统的视觉模态和语义文本模态的特征生成机制会存在有些细致视觉特征没法找到对应的语义特征,有些具有隐喻的语义文本特征也无法找到对应的视觉特征,因而将视觉特征和语义特征映射到同一空间,会造成信息损失和错误的信息对齐。其次,公开号为CN113537322A的发明专利申请中的方法通过生成对抗网络中的生成器进行特征生成的,生成器从高斯分布中直接采样,忽略了样本的分布信息。
零样本学习通过可见类的视觉图像和语义属性进行训练,建立相同类别的视觉图像与语义属性之间的关系,并在预测时,将这种关系迁移到未见类,便可以实现对未见类图像的预测。现有的零样本学习方法主要分为基于属性预测的方法、基于空间嵌入的方法以及基于生成模型的方法。本发明属于基于生成模型的零样本学习方法。
由于图像和语义特征来自不同模态,某些相同的语义属性映射到不同类上的视觉特征具有较大的分布差异,例如“大象”和“猪”具有相同的语义属性“鼻子”,但它们的视觉特征差异很大。因此不同类别之间视觉特征和语义特征的映射关系存在着域偏移现象。因而,基于生成模型的零样本学习在生成未见类视觉样本时,存在生成的视觉特征分布偏离真实视觉特征分布的现象,从而会产生样本域分布不一致的问题。此外,基于生成模型的方法需要同时以随机向量与语义向量作为生成器的输入,生成的图像难以保证包含充足的类别信息,可能会掺杂更多与类别无关的噪声信息,无法保证生成器可以将随机向量和语义向量充分解耦。生成的图像可能会包含更多与类别无关的信息,导致合成样本的类区分性比较差,从而会产生生成样本类别信息不完全的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210638733.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电弧增材用辅助焊丝振动装置
- 下一篇:一种塔式大气污染净化装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





