[发明专利]可指定类别的优化抠图方法及系统有效
申请号: | 201910881566.2 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110610509B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 黄剑波;王榕榕;徐树公 | 申请(专利权)人: | 上海大学 |
主分类号: | G06T7/194 | 分类号: | G06T7/194;G06T7/13;G06T7/187 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 指定 类别 优化 方法 系统 | ||
1.一种可指定类别的优化抠图系统,其特征在于,包括:语义分割模块、连通域计算模块以及抠图模块,其中:语义分割模块与图片输入相连并传输语义分割后的三元图,连通域模块与语义分割预测所得的三元图、用户指定的类别输入相连并传输相应类别的三元图,抠图模块与图片输入、连通域计算模块所得的三元图相连并得到最终的物体前景alpha图;
所述的可指定类别的优化抠图是指:采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图,通过连通域计算和选择可快速得到某一类别的物体的三元图,再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图,得到优化质量的alpha图;
所述的多类别预测的语义分割网络,采用ResNet-101架构进行图像特征的提取,输出的是不同类别的语义分割图以及边缘预测,其中语义分割是指:根据图片内容的语义信息将图片中不同物体的像素进行分类;
所述的待测图像的不同类别前景的三元图,根据语义分割网络预测的类别确定每个类别的三元图中的对应的前景部分,再通过连通域的计算得到与对应前景部分相连的边缘部分作为三元图的未知区域,根据用户指定的某个类别得到其对应的三元图;
所述的语义分割网络具体包括:下采样层、两层扩大感受野并保持分辨率不变的扩张卷积层、用于获得不同的空间特征信息的多尺度池化层和两层上采样层,将特征图还原到原始图像大小,得到最终的不同类别预测图;
所述的下采样层为conv-BN-relu结构,即由卷积层、批量归一化层BN和激活层relu组成,以让深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的同时增加神经网络的非线性,同时该上采样层采用两次4倍双线性插值将特征图恢复为原图大小以得到最后语义分割结果;
所述的抠图网络采用Unet形式的encoder-decoder结构,包括五个子单元组成的encoder和对应五个子单元组成的decoder,通过将具有相同大小的encoder特征图和decoder特征图通过跳跃连接方式相融合,从而结合低层特征和高层特征,以达到优化细节的效果;
所述的下采样层进一步包括五个子单元,其中:
第一子单元:采用7*7*64的卷积核对输入做卷积操作,stride设为2,padding设为3,将所得特征图经过批量归一化层,并通过relu函数激活,将所得的激活值通过最大池化操作得到第一子单元的输出;
第二子单元:对第一子单元的输出通过3个bottleneck结构,该bottleneck结构是由1*1*64、3*3*64、1*1*256卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第三子单元:对第二子单元的输出通过4个bottleneck结构,该bottleneck结构是由1*1*128、3*3*128、1*1*512卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第四子单元:对第三子单元的输出通过23个bottleneck结构,该bottleneck结构是由1*1*256、3*3*256、1*1*1024卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第五子单元:对第四子单元的输出通过3个bottleneck结构,该bottleneck结构是由1*1*512、3*3*512,膨胀率为2的空洞卷积、1*1*2048卷积层组成的,最后一个bottleneck的stride为1;
所述的encoder具体包括:
第一子单元:包括2个conv-BN-relu结构,其中两个卷积层的卷积核参数均为3*3*64,stride和padding设为1,将卷积得到的结果通过一个max pooling层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第二子单元:包括2个conv-BN-relu结构,其中两个卷积层的卷积核参数均为3*3*128,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第三子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*256,stride和padding设为1,可形变卷积层卷积核参数为3*3*256,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第四子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*512,stride和padding设为1,可形变卷积层卷积核参数为3*3*512,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第五子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*512,stride和padding设为1,可形变卷积层卷积核参数为3*3*512,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作;
所述的decoder具体包括:
第一子单元:通过encoder中第五子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第一次上采样结果;
第二子单元:通过encoder中第四子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第二次上采样结果;
第三子单元:通过encoder中第三子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第三次上采样结果;
第四子单元:通过encoder中第二子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第四次上采样结果;
第五子单元:通过encoder中第一子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第五次上采样结果,此时特征图为原图大小,得到最终的预测值;
所述的可形变卷积层通过学习偏移量并在原始卷积核的感受野上加上该偏移量,使得偏移后感受野和物体的实际形状相匹配,因此卷积的区域会始终覆盖在物体形状的周围,使得网络更关注上下文结构,从而达到更优的预测效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881566.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种静态视频分析方法及系统
- 下一篇:目标跟踪方法、装置、电子设备及存储介质