[发明专利]一种基于多尺度多粒度特征解耦的图像重构方法及系统在审

申请号：	202111401567.6	申请日：	2021-11-24
公开（公告）号：	CN114067162A	公开（公告）日：	2022-02-18
发明（设计）人：	王烨;赵钱蒙可;刘群;王国胤;冷佳旭;郑丽	申请（专利权）人：	重庆邮电大学
主分类号：	G06V10/764	分类号：	G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司：	重庆辉腾律师事务所 50215	代理人：	王海军
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于尺度粒度特征图像方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于图像领域，具体涉及一种基于多尺度多粒度特征解耦的图像重构方法及系统，包括提供一种深度隐变量特征解耦生成模型，模型包括编码器、隐空间特征解耦、分类模型和重构模型四个模块，利用编码器对图像进行编码，得到包含多粒度语义信息的深度隐变量；分类模型根据解耦后的深度隐变量包含的粗粒度信息，对图像的所属类别进行细化；重构模型对解耦后的深度隐变量进行解码，得到重构生成图像；本发明利用多尺度多粒度语义标签将深度隐变量生成模型的隐空间有监督的解耦成不同层次的语义类别的子空间，更好地学习到图像中不同粒度层次的语义信息，从而能更好地应用于生成任务。

技术领域

发明属于图像领域，涉及深度隐变量特征解耦的图像重构模型，具体涉及一种基于多尺度多粒度特征解耦的图像重构方法。

背景技术

图像生成的关键在于对深度隐变量进行特征解耦，使模型学习到的各个语义之间相互独立，从而更好地应用于后续图像重构。现有技术主要分为无监督学习和有监督学习两种任务来进行，都是使用深度隐变量模型，尝试对模型学习到的高维隐空间变量中的不同语义进行分离，将隐变量解耦成特定的特征表示。然而上述的模型不管是在有监督学习还是在无监督学习的情况下，特征解耦都是在同一粒度级下进行的，缺乏层次性，从而不能较好地对不同层次之间的语义信息进行学习以及解耦。

图像的重构常采用自编码器，传统的自编码器包括编码器和解码器，只具备编码和解码的功能。自编码器采用的结构可分为两类，一类是编码器和解码器都采用一个CNN网络，其重构图像效果好，但由于CNN的结构特性导致高维空间维度过高，且隐空间杂乱无章，无法用已有标签信息引导隐空间解耦，另一类是编码器和解码器都采用多层感知器(Multi-Layer Perceptron，MLP)，MLP除了输入层和输出层，它中间有多个隐层，且隐层数量可以自行设定，但重构图像效果比采用CNN网络的自编码器差，因此如何在保障图像重构效果的同时实现深度隐变量的解耦也是研究的焦点。

发明内容

为解决现有模型对深度隐变量特征解耦都是在同一粒度层次下进行的，不能很好的捕捉不同层次之间的语义信息的问题。本发明提供了一种基于多尺度多粒度特征解耦的图像重构方法，提出多尺度自编码器，其包括编码器、隐空间特征解耦和重构模型三个模块，从而构建一种深度隐变量特征解耦生成模型，包括多尺度自编码器和可用于下游分类任务的分类模型，包括以下步骤：

S1、获取图像样本集及图像样本集中每张图像样本的粗粒度标签和细粒度标签，并初始化深度隐变量特征解耦生成模型的参数；

S2、从图像样本集中抽取图像样本，将该图像样本及其粗粒度标签和细粒度标签送入深度隐变量特征解耦生成模型；

S3、将图像样本输入编码器得到该图像的深度隐变量，深度隐变量经过隐空间特征解耦并根据细粒度标签计算该深度隐变量的特征解耦损失；

S4、将S3中计算特征解耦损失后的深度隐变量送入重构模型，得到重构输出结果，并计算重构输出结果的损失；

S5、将S3中计算特征解耦损失后的深度隐变量送入分类模型，分类模型根据粗粒度标签得到分类输出结果，并计算分类输出结果的损失；

S6、将以上三种损失相加，通过梯度反向传播更新深度隐变量特征解耦生成模型的参数，参数更新后返回步骤S2进行迭代，直到参数收敛完成深度隐变量的特征解耦；

S7、将实时数据送入训练好的深度隐变量特征解耦生成模型，得到实时数据的重构图像及重构图像的类别信息。

进一步的，采用CNN和多层感知器构建编码器和重构模型。

进一步的，本发明基于自编码器(AE)提出了多尺度自编码器Multi-scale Auto-Encoder(MAE)，其能让深度隐变量学习到代表图像类别的粗粒度信息和代表图像中具体语义的细粒度信息。

进一步的，通过损失函数训练深度隐变量特征解耦生成模型，该损失函数表示为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载