[发明专利]一种文本图像超分辨率方法有效
申请号: | 202110614954.1 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113256494B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 赵才荣;冯舒扬 | 申请(专利权)人: | 同济大学 |
主分类号: | G06T3/40 | 分类号: | G06T3/40;G06T7/10;G06T7/181;G06V10/77;G06V10/82;G06N3/04 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 分辨率 方法 | ||
1.一种文本图像超分辨率方法,其特征在于,采用平行双分支结构捕捉视觉上下文信息,并且自适应加权特征重建文本高频信息;
包括以下步骤:
1)图像预处理:由灰度图像均值将灰度图像二值化得到文字蒙版,将文字蒙版(M)叠加到图像上,得到RGBM的四通道低分辨率-高分辨率图像对;
2)模型训练:低分辨率RGBM被送入网络,首先经过文本矫正模块的处理;紧接着,利用矫正后的特征统一构建视觉上下文,这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成;然后,每个PCAB模块的输出被统一合并到一起,进一步在这些特征上构建正交纹理感知注意力,自适应加权那些对重建高频信息有较大影响的特征;最后,经过两倍上采样和一次卷积,得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像;
所述的步骤2)中,将训练集图像输入网络中进行训练,具体包括以下步骤:
21)网络的第一个阶段是文本校正;使用STN网络实现了薄板样条插值函数(TPS)的操作;首先,输入图像为16*64尺寸的RGBM低分图像,经过TPS-STN网络生成校正采样以后的采样矩阵,再从输入图像上做相应的采样得到16*64的同尺寸输出;
22)网络的第二个阶段是构建视觉上下文;首先,经过一次卷积核大小为9*9,步长为1,边界填充为4的卷积操作,得到输出为64*16*64的特征层;将此特征以DenseNet稠密连接的模式送入五个并行正交上下文注意力模块(PCAB),提取视觉特征的上下文关系;每个并行上下文注意力特征提取模块的输入尺寸为(T*64)*16*64,T表示当前块的序号;PCAB模块将先进行通道降维,经过一次3*3卷积,将(T*64)*16*64输入特征通道降维成64*16*64,然后先在模块内的主干分支上经过一次3*3的同型卷积处理,然后变成双分支结构,上下支路分别进行一次3*3的同型卷积,以及一次GRU运算构建垂直或水平方向上的循环连接,最终将双分支特征按通道维度堆叠在一起,得到尺寸为128*16*64的特征,此特征在后阶段经过一次通道注意力加权,再经一次卷积得到PCAB模块的输出结果;GRU模块构建视觉特征上下文的计算方法如下:
Fout=fc(Concat(Oh,Ov))
其中,Ht表示GRU中的隐藏层,下标t表示GRU中的时间步,Xr,Xh,Xv分别表示主干特征、上分支特征、下分支特征,表示GRU定义的矩阵运算;Oh,Ov分别表示经由GRU处理以后的上下分支特征,Concat表示按照通道方向上堆叠特征,并由fc函数生成通道注意力权重对特征进行点乘加权,Fout表示通道加权以后的输出特征;
23)网络的第三个阶段是在层级特征之上构建正交纹理感知注意力,此模块的实现如下:首先,将上一阶段五个并行正交上下文注意力模块的输出特征堆叠到一起得到(5*64)*16*64的特征图;在此基础上构建正交纹理感知注意力,主干特征经过两次1*1同型卷积,然后分为垂直方向纹理感知和水平方向纹理感知双分支;双分支分别采用1*K、K*1卷积作为基础,K表示卷积核尺寸,采用K为3,结合不同大小的空洞系数dilation,空洞系数dilation为1、2、3,并且让同一类纹理感知的空洞卷积共享权重,降低参数量的同时扩大CNN的感知范围;将上下分支处理得到的特征通道堆叠得到尺寸为(6*5*64)*16*64的特征图;然后此特征经过一次通道加权、一次1*1同型卷积通道降维、一次尺寸为8*8步长为2的最大池化、一次卷积、一次上采样、一次卷积、一次Sigmoid特征归一化,得到空间注意力权重张量,并与此模块的输入特征进行按位点乘,乘完的特征作为模块的输出;
24)最后,文本图像超分辨率被建模成为一种回归问题;由前面步骤得到特征先进行两倍上采样,再经过一次卷积核尺寸为9*9、边界补零为4的卷积运算得到整个网络的输出结果;网络输出与高分辨率RGBM之间采用L2损失函数优化,同时使用边缘引导损失函数LEG进行辅助训练;网络的整体优化过程数学表达如下:
其中,L2损失函数是本领域已知的一种回归损失,Ey表示对y求期望,和y分别表示模型预测的超分辨率输出结果和高分辨率图像;f(x)函数用于显式地处理图像x上的垂直、水平纹理,得到一张边缘梯度响应图,Wh,Wv分别表示Sobel算子的水平、垂直方向上的滤波参数,实践过程中将其替换CNN的权重并且固定此权重,Conv(x,W)表示在输入为x的特征上进行参数为W的卷积运算,ε表示平滑系数,LEG表示边缘引导损失函数,它度量的是超分辨率图像和高清图像之间轮廓高频信息的差值,Ltotal是总的优化方程,λ1,λ2分别作为最终优化目标的权重因子。
2.如权利要求书1所述一种文本图像超分辨率方法,其特征在于,所述的步骤1)中,图像预处理具体包括以下步骤:
取灰度图像像素值的平均值作为阈值,得到二值化蒙版;将蒙版与RGB图像通道叠加,得到RGBM低分辨率-高分辨率图像对,为训练文本超分辨率网络做准备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110614954.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种罗汉果减糖甜味料及其制备方法
- 下一篇:一种可自由调节高度的配电柜支架
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序