[发明专利]文本页面图像还原方法及系统、电子设备和计算机可读介质在审
| 申请号: | 202110839252.3 | 申请日: | 2021-07-23 |
| 公开(公告)号: | CN113592735A | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 田宝亮;李霄鹏;吴哲楠;胡亚龙;郭彦宗;蔡红;黄宇飞;袁景伟;王岩 | 申请(专利权)人: | 作业帮教育科技(北京)有限公司 |
| 主分类号: | G06T5/00 | 分类号: | G06T5/00;G06T11/40;G06K9/00;G06K9/32;G06N3/04 |
| 代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 喻颖 |
| 地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 页面 图像 还原 方法 系统 电子设备 计算机 可读 介质 | ||
1.一种文本页面图像的还原方法,其特征在于,包括如下步骤:
对待还原的文本页面图像中的每一个像素提取扭曲系数,作为文本页面图像的还原处理的一个分支;对待还原的文本页面图像进行页面高端化和/或去除手写痕迹,作为另一分支;两个分支进行并行处理;
基于得到的所述扭曲系数,对并行处理得到的文本页面图像进行扭曲矫正,得到还原的文本页面图像。
2.根据权利要求1所述的方法,其特征在于,所述提取扭曲系数的步骤是通过一预先训练的人工智能模型实现;
其中,所述人工智能模型为带有空洞卷积结构的U-net模型,其输入为扭曲图像,输出为扭曲系数,即x方向偏移量和y方向偏移量;
其中,所述基于得到的扭曲系数,对并行处理得到的文本页面图像进行扭曲矫正的步骤,是基于编码器-解码器结构的深度学习模型来实现图像重建,其中编码器从输入图像中提取特征,解码器从提取的特征中还原出平整的图像。
3.根据权利要求2所述的方法,其特征在于,对于所述人工智能模型输出的扭曲系数,还采用高斯模糊进行局部平滑,消除局部的异常扭曲;
可选地,所述深度学习模型的损失函数通过如下方法计算:
基于获取的扭曲系数,计算所述深度学习模型输出的图像x方向上的偏移量和y方向上的偏移量,并将这两个方向的格点数据与扭曲图像生成时保存的真实x方向的偏移量与真实y方向上的偏移量进行均方差计算,作为网络的格点损失函数;计算所述深度学习模型输出的图像和真实平整图像之间的均方差损失函数;根据上述两个损失函数计算梯度,更新整个深度学习模型;
可选地,所述页面高端化的步骤至少包括去除污渍、水印和摩尔纹。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述去除手写痕迹的步骤包括:
采用预先训练好的人工智能模型对所述文本页面图像进行处理,输出去除了手写痕迹的文本页面图像;
其中,所述预先训练好的人工智能模型为高分辨率网络模型,所述人工智能模型输入图像,输出三部分信息:印刷轨迹、手写轨迹和去除手写轨迹后的图像;人工智能模型的训练样本包含四部分:含手写的原图、印刷轨迹、手写轨迹、不含手写的图。
5.根据权利要求4所述的方法,其特征在于,所述人工智能模型中使用反卷积和堆叠的方式构建特征图金字塔,最终形成multi-head结构的输出;
可选地,所述人工智能模型的输出包括:(1)w*h*2的印刷轨迹、(2)w*h*2的手写轨迹、(3)w*h*3的去除轨迹后图像;其中,w为输入图像的宽,h为输入图像的高;
可选地,所述人工智能模型采用dice损失和交叉熵损失融合的损失函数,dice损失和交叉熵损失分别由各自的手写和印刷两部分损失函数组成:
Lseg=αLdice+(1-α)Lce;
Ldice=βLdice_print+(1-β)Ldice_hw;
Lce=γLce_print+(1-γ)Lce_hw;
其中,Lseg、Ldice、Lce分别为分割损失函数、dice损失函数、交叉熵损失函数,α为dice损失和交叉熵损失的调节权重,β为dice损失内部印刷和手写的调节权重、γ为交叉熵损失内部印刷和手写的调节权重;
最终阶段网络的损失函数L如下所示:
L=δLseg+(1-δ)L1;
其中,L为图像分割修复的总损失函数,δ为分割损失函数和图像修复损失函数的调节权重;L1为图像修复损失函数。
6.根据权利要求1所述的方法,其特征在于,在执行并行处理步骤之前,还包括对待还原的文本页面图像进行调整文本页面图像的主体和/或调整文本页面图像的方向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于作业帮教育科技(北京)有限公司,未经作业帮教育科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110839252.3/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





