[发明专利]一种考虑汉字字形结构特征的汉字图像修复算法在审
申请号: | 202210573664.1 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114862721A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 刘岩;潘刚;周磊;米红泽;宋钊;胡书豪 | 申请(专利权)人: | 天津大学 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06T5/50;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300350 天津市津南区海*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 考虑 汉字 字形 结构 特征 图像 修复 算法 | ||
1.一种考虑汉字字形结构特征的汉字图像修复算法,大致步骤如下:
(1)步骤1:构建残损和涂抹汉字数据集
本修复算法需要使用残损和涂抹的汉字图像数据集,考虑到该数据集不好收集也没有公开的数据集,优先推荐采用合成的数据,也可以使用自己收集的数据。
(2)步骤2:训练预处理网络
使用深度学习搭建的预处理网络基于U-Net网络改进升级,在编码器和解码器对称的网络层之间跳跃连接,将编码器卷积丢失的特征信息传递给解码器。为了保留更多的空间生成更好的区域掩码并达到下采样的目的,使用2×2大小的卷积核和步长为2的卷积层来代替传统的池化层。此外,还采用了更多的卷积和反卷积层以得到更好的预处理效果。通过预处理网络对输入的残损的汉字图像进行简单的去噪和修复并提取图片中文字信息,以为后面的修复网络提供更好地输入。
(3)步骤3:训练修复网络
字形结构性特征注意力网络TAN本质上是卷积层的组合,以起到与注意力机制类似的作用,能够对输入的图像特征进行选择,去除与字形结构无关的特征以及阻碍字形修复的特征。记字形结构性特征注意力网络TAN为其表达式如下:
其中Xj代表输入特征图像,fi为一种特征拆分自适应映射,在网络中我们一个采用了4种拆分方式,所以i的取值为1至4,而j为输入特征图像X的目的字符的编号,kij为对应fi在编号j下的权值,简单的来说,就是每个字会有不同权值向量{k1,k2,k3,k4}。
为了保证字形结构注意网络训练的正确性,我们引入预训练的VGG网络,对其进行监督。记字形结构注意网络TAN的损失函数为Lattention,其表达式如下:
其中Xin,Xin2分别是输入的残损特征图像和修复网络第二次卷积输出,为字形结构注意网络,为预训练的VGG特征提取网络,为修复网络中对应大小的反卷积输出。
此发明的全局语义监督网络在某种程度上以隐含索引的形式强化了字形结构注意网络的训练效果,使得字形结构注意网络能够更好的训练出针对不同结构文体的权重,同时其和VGG分别作为语义损失和图像损失在语言和图像两个维度上强化了修复效果。记语义监督网络的损失函数为Lsem,其表达式如下:
Lsem=1-cos(y,e)
其中e为预训练的bert模型对句子E={c1,c2,…,cn}进行词嵌入得到,y为语义监督网络根据每个字ci对应图像imgi进行处理得到。
在预处理网络和修复网络我们映入一致性损失Lconsist,通过强化残损图像的特征图分别经预处理网络和修复网络处理前后的一致性来增强网络修复能力。Lconsist表达式如下:
其中Xtruth为残损输入图像Xin的未残损的目标图像,为预处理网络,为修复网络,λ为超参数可以根据实验结果调整。
训练的总损失表达如下:
Lall=Lconsist+Lattention+Lsem
(4)步骤4:测试修复网络对汉字图像的修复结果
使用第三步搭建完成的网络在残损和涂抹的汉字图像数据集上进行测试,能够针对残损、涂抹或二者兼有的文字图像取得良好的修复效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210573664.1/1.html,转载请声明来源钻瓜专利网。