[发明专利]一种基于深度卷积对抗生成网络的图像反射去除方法有效
申请号: | 201710173436.4 | 申请日: | 2017-03-22 |
公开(公告)号: | CN107103590B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 徐雪妙;周乐 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06K9/62;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度卷积对抗生成网络的图像反射去除方法,包括步骤:1)数据获取;2)数据处理;3)模型构建;4)损失定义;5)模型训练;6)模型验证。本发明结合了深度卷积神经网络提取高层图像语义信息的能力以及对抗生成网络灵活的损失函数定义能力,突破了传统方法仅使用低层像素信息的限制,因此对一般化的图像反射去除问题具有更强的适应能力。 | ||
搜索关键词: | 一种 基于 深度 卷积 对抗 生成 网络 图像 反射 去除 方法 | ||
【主权项】:
1.一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,包括以下步骤:1)数据获取训练深度卷积对抗生成网络需要大量的训练数据,因此需要使用大规模的自然图像数据集,得到的图像数据集需要划分为训练数据集以及验证数据集,其中训练数据集用于模型训练阶段,验证数据集用于模型验证阶段;2)数据处理将图像数据集的图像通过预处理转化为训练深度卷积对抗生成网络所需要的形式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于图像反射去除问题的深度卷积对抗生成网络,包括以下步骤过程:3.1)构造编码器模型编码器是用于从输入的混合图像中提取出高层的语义信息并保存到一个低维的编码中,编码器的输入为3×128×128的混合图像,输出为1024×4×4的低维编码,为了实现从输入到输出的转换,编码器包含了多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活层组成,其中,卷积层设置卷积步长为2,在增大感受野的同时逐渐减小了图像的尺寸,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到了稳定和加速模型训练的作用,非线性激活层的加入防止了模型退化为简单的线性模型,提高了模型的描述能力;3.2)构造解码器模型解码器是用于从低维的编码中拆解并还原出反射图像和目标图像,解码器的输入为1024×4×4的低维编码,输出为6×128×128的复原图像,得到的复原图像能够简单地直接拆解为两张3×128×128的输出图像,这两张拆解得到的图像即为还原出来的反射图像和目标图像;为了实现低维编码到复原图像的转换,解码器包含了多个级联的上采样层,上采样层由串联的反卷积层、批量正则化层、以及非线性激活层组成,其中,反卷积层设置反卷积步长为2,起到了从低维编码放大图像尺寸的作用,批量正则化层和非线性激活层的作用与编码器中同样;3.3)构造判别器模型判别器是用于约束解码器的输出结果,使其输出更接近自然图像;判别器的输入是两张3×128×128的图像,输出为一个用于指示输入的类型的标量;判别器的结构与编码器一样,也由级联的下采样层组成,所不同的是,判别器的首层输入是由两张输入图像叠加得到的6×128×128的层叠图像,而输出则是单一的标量;输入判别器的两张图像能够是由编解码器拆解还原得到的反射图像和目标图像,也能够是从数据集中抽取得到的原始图像;判别器的作用是读取输入的两张图像,区分出它们是复原后的图像还是原始图像;如果判断是原始图像,则判别器应该输出一个大的值;相反,如果判断是复原图像,则判别器应该输出一个小的值;4)损失定义根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,持续输入训练样本,根据损失函数计算出网络的损失值,通过反向传播计算出各层网络的参数的梯度,通过随机梯度下降算法对各层网络的参数进行更新;6)模型验证使用验证数据对训练得到的模型进行验证,测试其泛化性能。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710173436.4/,转载请声明来源钻瓜专利网。