[发明专利]一种基于深度学习的图像目标抠取方法有效

专利信息
申请号: 201810649490.6 申请日: 2018-06-22
公开(公告)号: CN109035267B 公开(公告)日: 2021-07-27
发明(设计)人: 全红艳;沈卓荟 申请(专利权)人: 华东师范大学
主分类号: G06T7/12 分类号: G06T7/12;G06N3/04;G06N3/08
代理公司: 上海蓝迪专利商标事务所(普通合伙) 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度学习的图像目标抠取方法,在前景抠取策略中,建立了低分辨率与高分辨率结合的深度学习架构,解决了数据集质量不均的问题,并定义了合理的网络结构与损失函数,以确保深度学习模型的质量和性能。通过自然图像与合成图像混合数据集的建立,解决了图像目标抠取中数据集匮乏的问题。本发明避免了传统的三分图输入的条件限制,实现了对前景目标的自动抠取,能够获得较为精细的图像抠取结果。
搜索关键词: 一种 基于 深度 学习 图像 目标 方法
【主权项】:
1.一种基于深度学习的图像目标抠取方法,其特征在于,该方法输入图像分辨率为Nt×Nt,其Nt为224、448或者896,具体包括以下步骤:步骤1:构建合成图像集SC(a)前景图像数据集的构建从pngimg.com网站收集N张png格式的前景图像,其中20000≤N≤30000,要包含人物、动物、前景物体各种类别;从其中筛选前景图像Nc张,3810≤Nc≤N,要求所述筛选前景图像必须是拍摄得到的自然图像,并保持类别数种;利用选出的Nc张图像构建前景图像数据集其中是其中的第k+1张图像;(b)背景图像数据集构建从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;(c)合成图像:在[0,NB‑1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,Nc‑1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为产生前景图像缩放因子s∈[0.7,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;利用的第4通道信息进行生成掩模,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;进一步按照上述方法生成NF组数据,其中3162≤NF≤10000;步骤2:构建自然图像数据集SN利用数据集MSRA10k,筛选出具有明确前景物体目标的自然图像NS张,其中2017≤NS≤10000,并将它们缩放为Nt×Nt分辨率,并构建自然图像数据集SN;步骤3:利用SC和SN构建训练数据集ST利用SC和SN的并集构建ST,ST=SC∪SN;步骤4:构建神经网络神经网络的整体结构由低分辨率子网络U‑NetL和高分辨率子网络U‑NetH相连接构成;(a)U‑NetL的结构将Iin进行下采样得到分辨率(Nt/2)×(Nt/2)的图像,进一步构建形状为(Nt/2)×(Nt/2)×3的张量,作为U‑NetL的输入,U‑NetL输出为掩模图像,张量形状为(Nt/2)×(Nt/2)×1;U‑NetL基于U‑Net构建,在U‑Net的Lt层卷积神经网络架构基础,去掉头尾两个子结构,编码器及解码器均采用Lt‑1个子结构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;编码器除Lt‑1个子结构,额外附加的一个卷积层构成,每个子结构包含两个卷积层与一个最大池化层;卷积层均采用3×3的卷积核,卷积步长为1,每个卷积层的输出均进行批归一化处理,使用Leaky Relu函数进行激活,最大池化层的池化窗口大小为2×2;Lt‑1个子结构中,第1个子结构的两个卷积层中卷积核个数都是64,输出特征图尺度为56×56;后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后通过额外附加的卷积层编码,通道数为1024;解码器由Lt‑1个子结构和一个额外附加的卷积层构成,每个子结构都包含一个上采样层与2个卷积层,每个子结构中卷积层的卷积核个数相同,上采样层的采样窗口大小为2×2;解码器子结构中,第1个子结构的两个卷积层中卷积核个数都是512,输出特征图尺度为14×14;后面各层子结构的卷积核个数减半,输出特征图尺度增加一倍;通过Lt‑1个子结构,将编码器输出的特征图尺度还原至(Nt/2)×(Nt/2),通道数为64;在编码器和解码器之后使用一个卷积层Le,Le采用1×1的1个卷积核,该卷积输出端连接一个Sigmoid激活层,获取为0至1之间的浮点数输出,最后得到(Nt/2)×(Nt/2)×1的低分辨率的掩模输出图像;编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一层卷积层的输入:即编码器第1层与解码器第Lt‑2层输入特征图连接,作为解码器第Lt‑1个卷积层的输入;同样地,编码器第2层与解码器第Lt‑3层连接,作为解码器第Lt‑2层的输入,按照此方式进行跨层连接;(b)U‑NetH的结构U‑NetH输入张量形状为(Nt/2)×(Nt/2)×3,输出为抠取的结果图像,张量形状为Nt×Nt×3;U‑NetH基于U‑Net的卷积神经网络构建,编码器及解码器均Lt层:编码器由Lt个子结构相继连接,编码器的最后一个子结构连接一个附加的卷积层;对于初始图像作卷积前边界填补零处理,第1个子结构中卷积核个数为32,输出特征图尺度为(Nt/2)×(Nt/2);后面各层子结构卷积核个数增加一倍,输出特征图尺度减少一半,最后加上额外的卷积层,得到来自1024个核的特征,通道数为1024;解码器同样由Lt个子结构和一个额外附加的卷积层构成,将编码器输出的特征图,逐步还原至Nt×Nt的尺度:第1个子结构中卷积核个数为1024,输出特征图尺度为14×14;后面各层子结构卷积核个数减少,输出特征图分辨率增加一倍,第Lt子结构中卷积核个数为64,输出特征图尺度为Nt×Nt,最后使用一个卷积层生成最终的网络输出,该卷积层采用1个1×1的卷积核,得到形状为Nt×Nt的特征图像;在解码器的输出端连接一个Sigmoid激活层,确保输出0至1之间的浮点数,最后得到Nt×Nt×1的输出图像;编码器与解码器之间进行跨层连接,即每个编码器中的卷积层与解码器中相同尺寸的卷积层进行逐通道连接,并作为下一卷积层的输入:即编码器第1层与解码器第Lt‑1层输入特征图连接,作为解码器第Lt个卷积层的输入;同样地,编码器第2层与解码器第Lt‑2层连接,作为解码器第Lt‑1层的输入,按照这样方式进行跨层连接;(c)U‑NetL与U‑NetH的连接将U‑NetL输出的掩模图像结合U‑NetH子结构2的输出,一并输入到U‑NetH子结构3中,以实现U‑NetL与U‑NetH的连接;步骤5:神经网络的训练在数据集SC和SN各随机取2000幅图像,构成4000幅混合图像,将该数据集划分为训练数据、评估数据与测试数据:3600、200、200幅图像;其中训练数据用于网络训练,评估数据用于在训练过程中计算评价指标,测试数据用于对训练的网络模型进行性能测试;在网络训练阶段中,将构建的训练数据作为网络训练的输入,首先训练U‑NetL,训练完毕后,将U‑NetL的输出加入U‑NetH的对应特征图中,再进行U‑NetH的训练;U‑NetL与U‑NetH训练时,均采用如下交并比损失函数进行控制:Yt表示网络输出的掩模图像中第t个像素的通道数据,Gt表示目标图像的第t个像素掩模的真实值;H表示图像中像素的个数,U‑NetL训练时,H为(Nt/2)×(Nt/2),U‑NetH训练时,H为Nt×Nt;步骤6:对输入图像进行目标抠取使用训练得到的网络模型,在自然图像数据集上进行图像抠取结果的预测;预测过程分为低分辨率预测和高分辨率预测,最终得到前景抠图的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810649490.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top