[发明专利]一种考虑汉字字形结构特征的汉字图像修复算法在审
申请号: | 202210573664.1 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114862721A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 刘岩;潘刚;周磊;米红泽;宋钊;胡书豪 | 申请(专利权)人: | 天津大学 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06T5/50;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300350 天津市津南区海*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 考虑 汉字 字形 结构 特征 图像 修复 算法 | ||
作为图像修复的分支,文字修复近几年受到了广泛重视,但现今的文字修复大多针对英文这种结构简单的文字,对于中文这种结构复杂且多样化的文字研究较少,同时目前包括文字修复在内的图像修复工作大多针对残损图像,对于被涂抹图像的修复目前没有特别多的研究。本发明提出了一种使用字型结构性特征注意力网络的文字修复算法。其可以针对残损、涂抹或二者兼有的汉字图像进行有效的结构性修复。其中字型结构性特征注意力网络是考虑到与英语不同,汉字种类繁多且结构千差万别,如果使用传统的图像修复技术,很难针对汉字的不同结构性特征进行特异性修复,故本发明从汉字的结构下手,提出了针对不同汉字进行特异性修复的字型结构性特征注意力网络。
技术领域
本发明涉及到的技术领域包括计算机视觉、人工智能、图像修复等,是一种考虑汉字字形结构特征的汉字图像修复算法。
背景技术
图像修复作为计算机视觉领域的热门研究方向之一,旨在恢复残缺图像中损坏部分的像素特征,在许多计算机视觉应用领域中发挥关键作用。近年来,作为图像修复的子分支——文字修复受到了持续关注。但因为文字的特殊性,修复结果与真实图像有一点结构性的差异就会导致视觉效果大大折扣,这也是文字修复的难点所在。
近年来,基于深度学习网络的图像修复技术发展迅速。在2016年的CVPR会议上,Pathak D等人[1]结合CNN和GAN网络首次提出图像修复算法,在此算法的基础上涌现了许多改进的算法。但此类方法的修复只是集中于图像中心的矩形区域。Iizuka[2]等人和Yu[3]等人突破了中心矩形框的干扰假设提出对不规则图案进行修复。但此类算法往往需要依赖复杂的后处理。NVIDIA公司Liu[4]等人所提出的PConv(PartialConvolution,PConv)层使用传统的卷积网络,不依赖额外的后处理,通过不断学习缺失区域和原始照片,对不规则的干扰部分进行修复。
随着图像修复技术的进步,对文字图像的修复技术也逐渐得到发展。文字修复更倾向于从视觉特征的角度还原局部线条。文献[5]和[6]适用于表音文字。但不适用于汉字等结构复杂的表意文字。随后,一些方法尝试引入字形特征。张等人[7]提出了一种名为HAN的分层学习网络来提取分层特征来重建印刷汉字的损坏笔画。李等人[8]提出了一个结合上下文损失的生成对抗网络,以提高手写汉字的修复效果。然而,上述方法往往会生成一些由看似合理但实际上并不存在的笔画组成的伪汉字。由于文本图像中相邻字符之间缺乏交互,这些方法很可能产生模糊字符。
显然,仅仅依靠字形信息并不能得到准确的文字图像。近年来,视觉和语义信息的交互取得了很大进展。STEFANN[9]旨在在字符级别修改图像中的文本内容,它使用标签嵌入来表示和编辑每个字符。一些跨模态任务[10][11]尝试从单词图像和文本标签中学习特征嵌入,用于单词定位和识别任务。最近,SEED[12]的想法是使用来自预训练语言模型的词嵌入来弥补上下文语义信息的不足。在SNR[13]中,引入了全局语义推理模块来捕获全局语义上下文以进行准确的场景文本识别。这些研究表明,处理上下文语义信息的语义模块可以应用于包括文字修复在内的图像处理任务。
自从注意力机制被提出,它越来越多地被用于改善深度学习算法的性能。与其他基于神经网络的方法一样,注意机制试图模仿人脑来处理数据。人类视觉不会一次处理整个图像,它只关注具体部分。通过这种方式,可以在“高分辨率”下感知人类视野空间的聚焦部分,而周围环境处于“低分辨率”下。换句话说,它赋予相关部分更高的权重,同时最小化不相关的部分,赋予它们更低的权重。这使得大脑能够精确、高效地处理和专注于最重要的部分,而不是处理整个视图空间。它最初是在2014年为自然语言处理应用程序开发的[14],从那时起它已被广泛用于不同的应用程序[15],特别是计算机视觉任务[16][17]。它增强大多数基于CNN的方法的潜力已得到广泛关注[18]。此外,它已与循环神经网络模型和图神经网络结合使用。注意力机制背后的主要思想是对不同的信息赋予不同的权重。目前,注意力机制已经开始应用于图像修复领域并取得了较好地效果[19][20]。但是目前将注意力机制应用于文字修复领域的研究较少。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210573664.1/2.html,转载请声明来源钻瓜专利网。