[发明专利]一种基于条件可预测参数的图像信息提取与生成方法在审
申请号: | 202010793797.0 | 申请日: | 2020-08-10 |
公开(公告)号: | CN111931779A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 金鑫;李凤仪;于明学;肖超恩 | 申请(专利权)人: | 韶鼎人工智能科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04;G06N3/08;G06T5/20 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 张乾桢 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条件 预测 参数 图像 信息 提取 生成 方法 | ||
本发明提出一种基于条件可预测参数的图像信息提取与生成方法,包括:步骤1、设计模型生成器,模型生成器基础网络结构采用编码解码结构,在解码层中不同阶段的卷积参数均有对应的预测网络进行预测;步骤2、设计辨别器,辨别器采用多尺度辨别器结构,两个尺度分别为原尺度,以及降采样两倍后尺度;步骤3、进行模型生成器、辨别器的训练;步骤4、基于训练后的模型生成器、辨别器对输入的图像进行信息提取与生成。本发明尝试将图像按功能生成,设计了基于条件可预测参数的图像信息提取与生成模型方法,将解码部分卷积层看作是具有不同功能的画笔,并将其看作是辨别器下采样的逆过程,添加了参数预测网络,实现了图像按功能生成。
技术领域
本发明涉及视觉计算领域,尤其是一种基于条件可预测参数的图像信息提取与生成模型。
背景技术
在视觉训练领域,先编码再解码的生成器结构,仅仅具有两方面的作用:一个作用是,在编码过程中去除无用信息,提炼有用信息(生成特征),在解码过程中,利用有用信息(特征)实现特征转化;第二个作用是,在编码过程中可以扩大感受野,增加参数的共享,提高模型的表达能力。而这两方面的作用仅仅体现在编码、解码两个大的结构上,并没有关注其中每一层网络的作用,这也体现了深度学习的黑盒特征。由于深度学习的黑盒特征,为了提高网络模型的表达能力,往往只是增加模型的深度,提高模型参数总量,扩大模型参数空间,增加参数共享,这会导致模型越来越臃肿,参数量越来越大,不利于部署在移动端以及其他内存较少的终端设备上。
发明内容
为了解决上述技术问题,本发明提出一种基于条件可预测参数的图像信息提取与生成方法,包括如下步骤:
步骤1、设计模型生成器,模型生成器基础网络结构采用编码解码结构,在解码层中不同阶段的卷积参数均有对应的预测网络进行预测;生成器基础网络中,语义标签图作为输入;在编码阶段:在RGB维度进行扩充,先经过一层卷积核为7*7的卷积层,并将输入的维度扩大为64维,紧接着使用卷积层连续进行3次下采样,输入维度逐步扩充到512维,之后经过9个残差块结构,增加网络深度;在解码阶段:使用卷积加上采样函数连续进行三次上采样,恢复到原先尺寸,最后经过一层卷积层,将输入维度降为3维,进行输出;其中解码阶段3层卷积的卷积核参数由3个预测网络给出,整个网络的归一化层均采用实例归一化,激励函数均为Relu函数;
步骤2、设计辨别器,辨别器采用多尺度辨别器结构,两个尺度分别为原尺度,以及降采样两倍后尺度;在每一个尺度上,输入都连续经过4层的下采样卷积层,最后经过一层卷积,在每个位置上输出0或者1,作为预测图像的真假,0代表当前位置预测为假图片,1代表当前位置预测为真图片;
步骤3、进行模型生成器、辨别器的训练;
步骤4、基于训练后的模型生成器、辨别器对输入的图像进行信息提取与生成。
进一步的,预测网络设计如下:
预测网络参照编码解码结构,首先对传入的语义标签图进行下采样,然后通过解码器对编码后的语义特征图进行上采样,并参照U-net网络结构,将不同级别的特征与原始语义图进行级联,以获得具有全局上下文感知的语义特征图,该语义特征图用于预测条件卷积的参数权重以及条件卷积的注意力权重;引入深度可分离卷积,将卷积核分解为条件深度卷积以及常规点式卷积;条件深度卷积独立地在每个输入通道上执行空间滤波,并且基于语义布局动态预测其空间变化的内核权重。
进一步的,步骤1中的预测网络进一步设计如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韶鼎人工智能科技有限公司,未经韶鼎人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010793797.0/2.html,转载请声明来源钻瓜专利网。