[发明专利]基于MASK和自动编码器的场景复杂文本图像编辑方法有效
申请号: | 202110347033.3 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113052759B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 许勇;余博西;黄艳 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06T3/00 | 分类号: | G06T3/00;G06T11/60;G06N3/0455;G06N3/0464;G06N3/09 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李君 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mask 自动 编码器 场景 复杂 文本 图像编辑 方法 | ||
1.基于MASK和自动编码器的场景复杂文本图像编辑方法,其特征在于,包括以下步骤:
通过数据获取模块获取MASK数据集,基于MASK数据集构建训练集;
对训练集进行预处理,并将预处理后的训练集中随机选取图像作为网络输入;
进行网络特征提取,即对预处理后的训练集图像进行初步特征提取,得到初步特征,将初步特征输入包含若干个残差模块的复合残差网络中进行处理,得到多层次特征;
对图像进行重构,即将多层次特征进行拼接,并进行卷积层处理得到三通道图像,即MASK;
使用三通道图像对残差模块的输出在神经网络的训练进行监督,进而优化网络参数;
所述进行网络特征提取,即对预处理后的训练集图像进行初步特征提取,得到初步特征,将初步特征输入包含若干个残差模块的复合残差网络中进行处理,得到多层次特征,具体为:将预处理后的含文本自然场景图片输入自动编码器,自动编码器提出包含文本位置和形状信息的MASK,即初步特征;将所述MASK与原本输入场景中的含文本自然场景图片组成多通道的Tensor(张量),将其输入自动编码器并提取信息,即得到多层次特征;
所述自动编码器包括六个自动编码器模块,每个自动编码器模块的输出作为另外一个自动编码器模块的输入;
所述自动编码器包括六个自动编码器模块,具体包括:
第一自动编码器模块,第一自动编码器模块由三个下采样编码器、三个上采样编码器以及U-Net结构组成;第一自动编码器模块输入的图像Is为场景中的文本图像;
第二自动编码器模块,与第一自动编码器模块结构相同,输入为Is、Omask1的concatenation,通道数为六通道,输出为不带文本的背景Ob;
第三自动编码器模块,与第一自动编码器模块结构相同,输入为Is、Omask1的concatenation,通道数为六通道,输出为只有文本的图片Ot1;
第四自动编码器模块,用于完成字体形态的变换,将标准的字体变换为具有原图像Is中文本部分的字体风格;
第五自动编码器模块,将Omask1和Ot1进行连接之后作为辅助信息注入该模块的自动编码器中间的网络层,从而指导字体纹理的渲染;
第六自动编码器模块,通道数为九通道,将干净的背景Ob、目标字MASK、目标字的字效作为输入进入该模块的自动编码器,该自动编码器与第一自动编码器模块具有相同的结构;该编码器的最终输出Ot为最终目标;完成了原图像Is中的文本替换,并且保留文本和背景的风格特征。
2.根据权利要求1所述的基于MASK和自动编码器的场景复杂文本图像编辑方法,其特征在于,所述对训练集进行预处理,具体为:
随机选取训练数据集的图像对,将图像进行变换;
随机切取图像对,得到64*128大小的图像块;
将图像对进行正则化处理,得到预处理后的训练集中随机选取图像;对于输入图像I,则有:
Inorm=I/255,
其中,Inorm为归一化后的图像。
3.根据权利要求1所述的基于MASK和自动编码器的场景复杂文本图像编辑方法,其特征在于,所述对图像进行重构,即将多层次特征进行拼接,并进行卷积层处理得到三通道图像,具体为:将每个残差模块的输出特征进行拼接后,输入到一个卷积层后得到三通道图像,取这个三通道图像为最终的复原图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110347033.3/1.html,转载请声明来源钻瓜专利网。