[发明专利]一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法在审
| 申请号: | 202210111331.7 | 申请日: | 2022-01-29 |
| 公开(公告)号: | CN114386534A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 饶元;苏仕芳;江朝晖;金秀;张武;梁惠;李绍稳 | 申请(专利权)人: | 安徽农业大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06V10/764;G06V10/774;G06V10/80;G06V10/82 |
| 代理公司: | 安徽知问律师事务所 34134 | 代理人: | 代群群 |
| 地址: | 230036 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 编码器 对抗 生成 网络 图像 增广 模型 训练 方法 分类 | ||
本发明公开了一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法,该方法将可见类训练图像的视觉特征和语义特征分别输入视觉模态和语义模态变分自编码器中对应生成第一伪视觉特征和伪语义特征,并将其输入生成器网络中生成第二伪视觉特征,再利用判别器网络判别真实特征和生成的特征,利用可见类训练图像数据集对变分自编码器对抗生成网络模型进行训练。对于零样本图像分类,在可见类上训练完成的模型生成未见类训练图像的伪视觉特征并结合类别标签训练分类器对未见类图像进行分类;能够有效融合图像的视觉信息和语义信息,生成更接近于真实数据分布且高质量的可见类和未见类图像,提高零样本图像分类准确率。
技术领域
本发明属于图像识别技术领域,特别是涉及一种基于变分自编码器和对抗生成网络的图 像增广模型训练方法及图像分类方法。
背景技术
传统的图像分类任务不仅需要大量的有标签图像数据,且当模型训练集与测试集的类别 不一致时性能较差。例如,对于一张未见过的或不属于训练集中任何一类的图片时,需要重 新收集样本并进行标注,得到足够的训练样本对模型进行重新训练,才能使模型具有识别该 图片的能力。在这过程中,不仅代价高、速度慢;且在现实中大量标注好的图像的采集和标 记具有高复杂度和不确定性。因此,为解决未见类样本缺失的问题,零样本学习(Zero-shot learning,ZSL)被提出。
零样本学习是迁移学习的一种特殊场景,是用来解决识别训练样本中未见类的样本问题。 通俗地讲,零样本学习就是让模型能够模拟人的推理方式,并识别从未见过的事物。在特征 空间中带标签的样本为可见类,在特征空间中不带标签的样本为未见类。传统零样本学习旨 在从给定的可见类图片中找到图像视觉特征与语义特征之间的映射关系,然后将其泛化到未 见类图片中,对未见类图片进行识别,从而实现零样本图像识别任务。例如,使用花菜的图 像数据训练零样本识别模型,同时将“西兰花为绿色的花菜”这一语义关系输入零样本模型中, 则该模型可以对西兰花的图片进行识别分类。
实现零样本学习,首先要建立两个最基本的空间:特征空间和类别的语义空间。特征空 间中的元素为所有图片的视觉特征,类别的语义空间是对图片标签属性的描述,一般表示为 语义的属性空间或语义的词向量空间;零样本学习要做的就是学习特征空间和语义空间的映 射关系。通常,特征空间中的视觉特征都是通过深度卷积神经网络提取得到,其维度较高, 而语义空间中的维度较低,所以特征空间和语义空间的映射关系分为从特征空间(高维空间) 到语义空间(低维空间)的映射和从语义空间(低维空间)到特征空间(高维空间)的映射。 从高维空间到低维空间的映射最终实现,对任一张图片,通过神经网络学习映射关系把这个 未知特征从特征空间映射到语义空间,然后在语义空间中寻找一个和它最接近的近邻,一次 实现图片的识别分类;从低维空间到高维空间的映射最终实现,在未见类图像的情况下,描 述其语义信息,通过词向量模型得出其语义特征,其维度较低,然后通过学习到的映射关系 生成该未见类的图像特征,将该特征输入到分类器中,得出该特征所属的类别。然而,由于 可见类和未见类之间的数据分布不同,直接进行视觉空间和语义空间的映射,会导致未见类 的识别偏向于可见类,为缓解这些问题,面向零样本学习的生成模型被提出,具体为将未见 类样本的视觉特征和语义特征输入生成模型合成训练样本去直接训练一个分类器,将零样本 分类转换为经典的可监督学习。
面向零样本学习的生成模型主要为基于生成对抗网络(Generative AdversarialNetworks, GAN)和基于变分自编码器(Variational Autoencoder,VAE)的生成模型,生成对抗网络生 成的样本更加清晰且逼真,但生成对抗网络存在训练网络不稳定导致部分生成的样本严重偏 离真实分布,模型易崩塌等问题;与生成对抗网络不同,变分自编码器的训练过程相对稳定, 直接比较重构图片与原始图片的差异,但变分自编码器直接计算重构图片和原始图片的均方 误差作为损失函数,使得生成的图片质量较低。
发明内容
1、要解决的问题
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽农业大学,未经安徽农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210111331.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:巴氏杀菌发酵乳及其制备方法
- 下一篇:拍摄方法、装置和电子设备





