[发明专利]一种基于显著性目标检测的自动抠图方法及其配套系统在审
| 申请号: | 202111060436.6 | 申请日: | 2021-09-10 |
| 公开(公告)号: | CN114820423A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 孙创开;黄海龙;伍俊英 | 申请(专利权)人: | 广州凡科互联网科技股份有限公司 |
| 主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/11;G06T7/194;G06T5/30;G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 济宁众城专利事务所 37106 | 代理人: | 李效宁 |
| 地址: | 510300 广东省广州市海珠区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 显著 目标 检测 自动 方法 及其 配套 系统 | ||
1.一种基于显著性目标检测的自动抠图方法,其特征在于,包括以下步骤:
S1_1、首先,将图像输入到由原来的ReLU激活函数替换为精度更高的Swish函数后的“Bottleneck”模块构成的Res_Swish网络中,经过编码的五个阶段Encode_stage1、Encode_stage2、Encode_stage3、Encode_stage4、Encode_stage5和解码的五个阶段Decode_stage4、Decode_stage3、Decode_stage2、Decode_stage1,同时将Encode阶段的每次输出加到对称的Decode阶段,有效利用多尺度的特征信息;
S1_2、分别对Decode_stage1阶段的输出进行卷积核大小为3*3、padding=1的卷积运算,由于Decode_stage1阶段未进行降采样,因此无需上采样操作直接得到输出张量M1,再分别对Decode_stage2、Decode_stage3、Decode_stage4、Decode_stage5阶段的输出进行卷积核大小为3*3、padding=1的卷积运算,且分别使用双线性插值算法上采样到与输入尺寸相同的输出张量M2、M3、M4、M5;
S1_3、按照维度1对M1、M2、M3、M4、M5进行横向拼接成6通道的张量M0,再对M0使用大小为1*1的卷积核卷积为单通道张量;
S1_4、最后对S1_3步骤中得到的单通道张量进行sigmoid操作,得到每个像素属于前后景的概率矩阵M[:,:]。将概率矩阵M乘以255,得到显著性目标检测模块预测的蒙版图Alpha_SOD。
2.根据权利要求1所述的基于显著性目标检测的自动抠图方法,其特征在于:基于显著性目标检测的神经网络是在经典的Encode-Decode结构的U-Net架构上改进而来,其中每个阶段的编码和解码网络单元由“Bottleneck”模块改进而来,具体地,将“Bottleneck”模块的ReLU激活函数替换为精度更高的Swish函数构成新的Res_Swish网络,Swish函数表示为:
swish(x)=x·sigmoid(x)
其中,x表示输入。
3.根据权利要求1所述的基于显著性目标检测的自动抠图方法,其特征在于:在步骤S1_3 中对M1、M2、M3、M4、M5进行横向拼接,生成6通道的张量M0,再对M0使用大小为1*1的卷积核卷积为单通道张量,该步骤实现了不同阶段的多尺度特征信息融合,公式如下:
M0=conv(concat(M1,M2,M3,M4,M5))
其中,M0表示融合后的特征映射,conv表示卷积层,concat表示横向拼接操作。
4.根据权利要求1所述的基于显著性目标检测的自动抠图方法,其特征在于:训练过程中使用二值交叉熵损失优化模型参数,损失函数为:
其中,h、w分别表示图像的高度和宽度,ti表示ground truth标签样本在像素i点属于前景的真实概率,oi表示神经网络在像素点i属于前景的预测概率。
5.根据权利要求1所述的基于显著性目标检测的自动抠图方法,其特征在于:全部损失过程使用多级二值交叉熵损失函数来监督多层网络,包括特征图M0、M1、M2、M3、M4、M5共6个损失函数,全程损失函数定义如下:
losstotal=lossM0+lossM1+lossM2+lossM3+lossM4+lossM5
其中,losstotal表示总的损失,lossM0到lossM5表示对应阶段的损失。
6.一种自动抠图和交互式抠图相结合的抠图辅助系统,其特征在于,包括以下步骤:
S2_1、将待处理图像Image输入显著性目标检测模块,经训练好的神经网络模型自动推理图像中每个像素点属于前景的概率P(xij),得到整幅图像的二维概率矩阵M[:,:]。将概率矩阵M乘以255,得到显著性目标检测模块预测的蒙版图Alpha_SOD;
S2_2、将S2_1步骤得到的蒙版图Alpha_SOD与原图Image导入抠图模块,得到前后景分离图像Matting;
S2_3、用户对S2_2步骤获取的抠图进行效果判断:如果符合主体区域抠图完整度和精度的要求,就下载Matting图使用(S2_4至S2_9步骤无需执行);反之,就进入交互式抠图模块;
S2_4、对S2_1步骤得到的Alpha_SOD进行二值化处理,得到二值图像Binary_alpha1;
S2_5、将S2_4步骤中得到的二值图像Binary_alpha1与原图Image进行蒙版计算,使用基于GrabCut的交互式抠图算法(蓝色笔迹代表保留,红色区域代表删除)对主体区域进行局部修改,获取准确度更高的二值化蒙版图Binary_alpha2;
S2_6、计算Binary_alpha1和Binary_alpha2之间的差异,对差异像素点区域的边缘通过腐蚀、膨胀等处理生成局部修改那些区域的Trimap图(仅修改的区域生成Trimap,非全部区域重新生成Trimap);
S2_7、将原图Image和S2_6步骤中生成的Trimap输入训练好的依赖三分图的抠图神经网络模型中,生成更精准的蒙版图Alpha_mat;
S2_8、将S2_7步骤中获取到的更精准蒙版图Alpha_mat导入抠图模块,运算得到Matting抠图;
S2_9、用户对S2_8步骤获取的抠图进行效果判断:如果符合主体区域抠图完整度和精度的要求,就下载Matting图;反之,就再次进入交互式抠图模块,执行S2_4到S2_8的步骤,直至抠图效果达到用户满意为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州凡科互联网科技股份有限公司,未经广州凡科互联网科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111060436.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电动紧急切断执行机构
- 下一篇:一种增加汽车安全性的全液晶仪表





