[发明专利]一种文本图像超分辨率方法有效
申请号: | 202110614954.1 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113256494B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 赵才荣;冯舒扬 | 申请(专利权)人: | 同济大学 |
主分类号: | G06T3/40 | 分类号: | G06T3/40;G06T7/10;G06T7/181;G06V10/77;G06V10/82;G06N3/04 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 分辨率 方法 | ||
一种文本图像超分辨率方法,包括以下步骤:1)图像预处理:由灰度图像均值将灰度图像二值化得到文字蒙版,将文字蒙版(M)叠加到图像上,得到RGBM的四通道低分辨率‑高分辨率图像对;2)模型训练:低分辨率RGBM被送入网络,首先经过文本矫正模块的处理;紧接着,利用矫正后的特征统一构建视觉上下文,这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成;然后,每个PCAB模块的输出被统一合并到一起,进一步在这些特征上构建正交纹理感知注意力,自适应加权那些对重建高频信息有较大影响的特征;最后,经过两倍上采样和一次卷积,得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像。
技术领域
本发明涉及计算机视觉领域。
背景技术
近年来,场景文本理解在计算机视觉任务中扮演着十分重要的角色。然而,自然环境下苛刻的成像条件(低分辨率、抖动等)往往阻碍了这些领域的进展。由于成像过程中景深变化较大,低分辨率文本图像比比皆是,同时低分辨率图像中文本的形状和轮廓经常是模糊的,这对场景文本理解无疑是巨大的挑战。
场景文本超分辨率可以有效地缓解上述问题,超分出来的图像可以显著的提升文字识别算法的准确率。现有的工作大多只是将通用超分辨率算法应用于文本超分任务,较少的针对文本图像的上下文特性提出新的解决方案。同一张图像中,前景文本字符之间通常具有相似的纹理、颜色以及笔画特性。文字的边缘轮廓信息是比较具有辨识力的高频信息。因此,有必要针对上述特点提出新的文本超分辨率算法。
如何找出一种方法高效的提取视觉特征的上下文信息,同时能够自适应的重建高频信息是一项较为值得研究的问题。而深度学习的动机恰恰在于编码特征空间,让网络自适应的寻找上述信息的最优解,用这样的机制来解释数据。因此使用深度学习的方法来进行文本图像超分辨率成为可能。
专利CN 110415176 A提出了一种基于深度学习的文本图像超分辨率方法。此方法的目标是针对文档图像进行超分辨率,使用深度空域特征转换生成对抗网络(SFTGAN)对文本前景进行超分辨率,使用增强超分生成对抗网络(ESRGAN)对文档背景进行超分辨率操作,最后再将二者进行融合得到文档图像的超分辨率结果。这种方法在场景图像上不具备通用性,并且没有针对文本的特点建模上下文关系,仅使用了现有的通用超分辨率模型,因此难以在真实场景上取得较好的效果。
发明内容
本发明目的在于克服上述现有技术存在的缺陷,提供了一种文本图像超分辨率方法。
技术方案
一种文本图像超分辨率方法,其特征在于,采用平行双分支结构捕捉视觉上下文信息,并且自适应加权特征重建文本高频信息;
包括以下步骤:
1)图像预处理:由灰度图像均值将灰度图像二值化得到文字蒙版,将文字蒙版(M)叠加到图像上,得到RGBM的四通道低分辨率-高分辨率图像对;
2)模型训练:低分辨率RGBM被送入网络,首先经过文本矫正模块的处理,这个模块为文字识别的通用模块,用在文本超分辨率上主要是为了调整像素之间的偏移,使得网络优化的时候能够自适应对齐;紧接着,矫正后的特征将统一构建视觉上下文,这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成,并行正交上下文注意力模块旨在捕获视觉特征之间垂直和水平两组正交方向上的特征依赖关系,从而促进模型生成具有辨识力的超清图像;构建完视觉上下文以后的特征,即每个PCAB模块的输出被统一合并到一起,进一步在这些特征上构建正交纹理感知注意力,旨在提升网络编码高频信息的能力,自适应加权那些对重建高频信息有较大影响的特征;最后,经过两倍上采样和一次卷积,得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像;针对网络的训练,本方法提出了用边缘引导损失函数(自研)辅助L2损失函数,以起到更好的图像超分辨率效果。
与现有技术相比,本发明具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110614954.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种罗汉果减糖甜味料及其制备方法
- 下一篇:一种可自由调节高度的配电柜支架
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序