[发明专利]任意形状场景文字擦除方法、系统、设备与存储介质在审
申请号: | 202111461936.0 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114170099A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 张勇东;王裕鑫;谢洪涛;刘武;梅涛 | 申请(专利权)人: | 中国科学技术大学;北京京东尚科信息技术有限公司 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06T5/50;G06T7/11;G06T7/194;G06N3/04;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任意 形状 场景 文字 擦除 方法 系统 设备 存储 介质 | ||
1.一种任意形状场景文字擦除方法,其特征在于,包括:
构建级联若干擦除模块的网络结构,渐进式地对文字图像中文字区域进行擦除;
其中,第一级擦除模块输入原始图像,后一级擦除模块输入为前一级擦除模块输出的图像以及原始图像,结合原始图像对前一级擦除模块输出的图像进行优化;通过级联的擦除模块迭代的进行文字区域擦除操作,由最后一级擦除模块最终输出文字擦除后的图像。
2.根据权利要求1所述的一种任意形状场景文字擦除方法,其特征在于,所述网络结构中所有擦除模块的结构相同,且参数共享;
每一擦除模块均包括:主干网络、文字区域定位分支、背景区域重建分支及互补融合层;通过主干网络对输入图像进行特征提取,分别输入至文字区域定位分支和背景区域重建分支中;所述输入图像包括:原始图像,或者前一级擦除模块输出的图像以及原始图像;所述文字区域定位分支生成文字区域分割图,所述背景区域重建分支生成背景细节重建图像;所述文字区域分割图与背景细节重建图像一并输入至互补融合层,获得当前级擦除模块输出的图像。
3.根据权利要求2所述的一种任意形状场景文字擦除方法,其特征在于,所述主干网络包括依次连接的多个卷积层与多个残差模块;主干网络中最后一个卷积层、第二个残差模块、第三个残差模块以及最后一个残差提取的特征将输入至背景区域重建分支中;主干网络中第三个残差模块以及最后一个残差提取的特征将输入至文字区域定位分支中。
4.根据权利要求2或3所述的一种任意形状场景文字擦除方法,其特征在于,所述文字区域定位分支包括多个依次连接的卷积层,其输入为主干网络提取的两种层次的特征,第一种层次的特征为主干网络中间层输出,第二种层次为主干网络末尾层的输出;第二种层次的特征分为两个支路,第一个支路中,第二种层次的特征经过PSP模块进入第一个卷积层,第二个支路中第二种层次的特征与第二个卷积层输出级联后作为第三个卷积层的输入,第三个卷积层的输出与第一种层次的特征级联后,作为第四个卷积层的输入;
最后一个卷积层输出的特征被上采样到原始图像1/4大小,通过sigmoid操作后得到文字区域分割图,再通过双线性插值操作将文字区域分割图还原到原始图像大小。
5.根据权利要求2或3所述的一种任意形状场景文字擦除方法,其特征在于,所述背景区域重建分支包括依次设置的残差模块与多个卷积层,其输入为主干网络提取的四种层次的特征,四种层次的特征来自主干网络依次加深的卷积层或残差模块的输出;第四种层次的特征经残差模块与第一个卷积层后,再与第四种层次的特征级联作为第二个卷积层的输入,第二个卷积层、第三个卷积层、第四个卷积层的输出各自对应的与第三种层次的特征、第二种层次的特征、第一种层次的特征级联后作为下一个卷积层的输入;
训练阶段,设置了两个多尺度预测模块,各自连接倒数第一个与倒数第二个卷积层,用于预测多尺度的重建结果。
6.根据权利要求2所述的一种任意形状场景文字擦除方法,其特征在于,所述互补融合层的操作表示为:
其中,Maskt为文字区域定位分支预测的文字区域分割图,I′t为背景区域重建分支生成的背景细节重建图像,Ioriginal为原始图像;t表示擦除模块的序号,t=1,...,T,T网络结构中擦除模块的总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学;北京京东尚科信息技术有限公司,未经中国科学技术大学;北京京东尚科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111461936.0/1.html,转载请声明来源钻瓜专利网。