[发明专利]改进FANnet生成网络的图像字符编辑方法有效

专利信息
申请号: 202110525020.0 申请日: 2021-05-12
公开(公告)号: CN113158977B 公开(公告)日: 2022-07-29
发明(设计)人: 刘尚旺;李名;刘国奇;袁培燕;孙林 申请(专利权)人: 河南师范大学
主分类号: G06V30/32 分类号: G06V30/32;G06V30/148;G06V10/56;G06V30/18;G06V10/82;G06N3/04;G06N3/08
代理公司: 河南大象律师事务所 41129 代理人: 王映朴
地址: 453000*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 改进 fannet 生成 网络 图像 字符 编辑 方法
【说明书】:

本申请提出一种改进FANnet生成网络的图像字符编辑方法。首先,利用基于HC显著性检测算法的改进自适应字符分割模型,准确提取出用户所界定的图像字符;然后,根据FANnet生成网络,生成与源字符字体一致的目标字符二值图;最后,通过提出的颜色复杂度判别的局部颜色迁移模型,迁移源字符颜色至目标字符;从而,生成与源字符字体结构和颜色变化均高度一致的目标编辑修改字符,达到字符编辑目的。实验结果表明本申请方法优于现有算法。针对字体结构和颜色渐变分布比较复杂的实际场景图像字符,本发明亦十分有效,这对图像重利用、图像字符计算机自动纠错和文本信息重存储等有一定的理论意义和应用前景。

技术领域

本发明属于图像识别技术领域,特别是涉及一种改进FANnet生成网络的图 像字符编辑方法。

背景技术

当今国际化社会,作为国际通用语言的英文字符出现在众多公共场合;与英 文字符具有相同几何结构特征的拼音字符也很重要。当这些字符出现在图像中, 尤其图像风格复杂时,难以直接对其进行编辑修改。字体风格迁移与文字生成是 人工智能的一个重要研究领域。不论是实景图还是电子效果图,总包含有大量文 字信息。这些文字信息可以帮助读者更好理解图像中的上下文语义和场景信息。 与文本中修改编辑文字不同,当一幅图像中的文字发生错误或需要修改时,直接 在原图中进行修改非常困难。例如,一幅图像包含的有限文字中,可以提取的视 觉信息数据不满足生成模型所需条件;在不同自然场景下,图像往往呈现出不同 特征:亮度、对比度、阴影、透视形变和背景复杂度等。文字字体设计要求数据 集内每一种文字的风格相同且具视觉一致性,建立这样的数据集往往需要消耗大 量的人力和物力。如何通过有限规模的字符集,使计算机自动生成与源字符具有 相同物理结构和视觉效果的其他字符是当前的研究热点。

研究人员对图像文字的研究主要集中于文字识别方向,2005年,杨志华等 人提出一种基于经验模式分解的汉字识别方法,通过对汉字常用笔画精简,做 EMD分析,从而提出特征识别汉字。2011年,易剑等人提出一种基于颜色聚类 和多帧融合的视频文字识别方法,2017年,丁明宇等人提出一种将深度学习和 OCR相融合的一种商品参数文字检测方法。而针对文字生成研究领域,最先采 用的是基于几何特征的文字合成算法。这种基于几何特征的算法只能用于特定的 字体拓扑结构,无法生成大量不同字体的文字。随着生成对抗网络(GANs)模 型的出现,文字生成问题主要采用基于生成对抗模型的相关算法来解决,即从一 个特定或随机的数据集中针对特定文字生成未知文字。然而,即使基于GANs 的相关算法可以预测目标文字,但是将其直接应用于实景图片依然面临着许多困 难。首先,大多数基于GANs的字体生成算法需要对一个确定的源文字进行精准 的识别。而在具有复杂背景的实景图中准确的文本申请字识别本身就极具挑战性。 而且,文字识别过程中的误差累积会直接影响后续目标文字生成的准确性。其次, 图像中的文本申请字往往融合了多种特征,例如:尺寸、颜色、结构等。受到光 线、角度等外部条件的影响,图像中的文字将经历不同程度的透视形变 (perspective distortion)。一些基于GANs的算法需要大量同一字体类型的观察 数据来提高生成数据的置信度,同时在生成算法前需要进行严格的透视消除步骤。 1998年,Shamir等提出了一种基于特征约束的字体设计算法。在这种方法中, 需要通过用户交互来进行文字特征提取,消耗时间成本;2010年,Suveeranont等 提出了一种基于实际图像文字的的相同文本字体生成算法,可以从用户自定义的 实例中自动生成新字体。然而这种方法只注重字体的几何特征,忽略了字体形变 等因素,从而生成的字体容易出现扭曲。随着深度学习技术的发展,研究人员开 始采用深度学习技术来解决字体生成问题,2014年Joshua B等提出的双线性映 射(bilinear factorization)可以将内容与风格特征进行分割并应用于字体生成。 2015年,Huy等人提出采用概率统计(statisticalmodels)的方法将少量的字体 集生成一套完整的字体。2016年,Baluja等人在成功地使用深度学习模型一小 组字母上来区分字体,并生成相同风格的其他字母。Bernhardsson等以公开收 集的5万字体作为训练集,通过调整隐变量(latent variable)的参数来产生不同的字体。但是这种通过少量样本生成的结果存在很大的误差,例如在生成字体时 遗漏了“Q”的尾部。2017年,Samaneh等提出了leave-one-out的训练方法,可以 完成通过少量字母生成其他字母。但在该方法中生成的字体更加关注整体字体风 格,对于文字内部颜色特征关注较少。2018年,Azadi等提出采用端到端的方式 从少量已有艺术字符通过GAN生成相同风格的其他字符。Project Naptha是一 款基于OCR的在线图像文字识别、提取、翻译、编辑、擦除的chrome插件。其 主要功能是文字识别和提取,针对于其编辑功能,只是简单的进行图像文字识别 和擦除后将修改文字替换上去,无法保证与原图像风格一致。2019年,吴亮通 过设计三个网络:前景文字迁移网络,背景擦除网络,前景背景融合网络来实现 实景图像文字编辑工作,但是在编辑过程中每一个网络中出现的差错都会在下一 个网络中累积,并大量消耗成本。2020年,Prasun Roy等人首次提出基于CNN 的文字生成网络(FANnet),实现了实景图像文字编辑的STEFFAN模型,但是 由于其在源文字提取阶段无法很好地识别字体结构或颜色特征复杂的实景图像 字符,因此FANnet准确率不高,无法很好地实现图像字符编辑工作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学,未经河南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110525020.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top