[发明专利]去除文档图像背面渗透字迹的方法在审

专利信息
申请号: 201610049126.7 申请日: 2016-01-25
公开(公告)号: CN105741272A 公开(公告)日: 2016-07-06
发明(设计)人: 刘鹭;黄赟 申请(专利权)人: 上海中信信息发展股份有限公司
主分类号: G06T7/00 分类号: G06T7/00;G06T7/40
代理公司: 上海京沪专利代理事务所(普通合伙) 31235 代理人: 周晓玲
地址: 200041 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 去除 文档 图像 背面 渗透 字迹 方法
【说明书】:

技术领域

本发明涉及电子文档处理领域,具体地说是一种去除文档图像背面渗透字迹的方法。

背景技术

参见图1,文档数字化加工时会遇到背面字迹渗透到正面的图像。原因有二:一、纸张太薄、质地不够紧密,导致反面的油墨逐渐的渗透到了正面;二、人为原因造成局部墨迹不均、印章部位油墨太多或者书写力度太大,会将反面的字迹渗透到正面。

为了使得图像更加美观,在加工过程中传统的做法是在纸张的背面垫上白纸,重新逐页扫描。这样能够解决一定问题,但无法使用高速扫描仪进行加工图像,造成工作量和加工成本的急剧上升。对于已产生的图像,若是不予重新扫描,常见的处理方法是使用Photoshop等图像处理软件,由人工一点一点抹除,这样加工时间被大大延长,并且对于页面颜色非纯白色的图像也比较难将目标区域处理的与周围区域做到趋于一致和自然。

因此出于保守考虑,常常只能维持原貌。这样图像成品质量自然不够好,直接影响页面美观和正常阅读;若后续图像尚需进行深加工,如对图像OCR提取文字内容,反面渗透的图像会对OCR字符识别产生很大的干扰,使得OCR识别率直线下降,不利于后续利用。

专利核心方法使用了OTSU(最大类间差)算法,目前关于该算法在用于去除文档图像反渗噪声的应用方面的还未检索到。比较接近的有两个专利,与本专利使用到的算法相同但应用方向不同。

其一是CN201410690319号中国专利,提供了一种基于背景密度估计的印章图像提取方法,首先对印章灰度图像用OTSU算法进行二值化,并对二值化后的图像进行去噪;其次计算四种二值图积分图像,自适应地计算分形维数窗口尺寸,计算背景密度能量图,估计印章位置,依据真实印章大小提取印章图像,即完成算法目标。该方法使印章作为低密度区域,非印章部分作为高密度区域,将待鉴定印章从简单背景中提取,提高了印章图像配准的准确率,使图像配准结果可以作为印章鉴定的依据。然而该专利使用OTSU算法对有印章的区域的二值图做背景去噪,此专利中图像被二值化丢失三通道信息,最终的效果是印章图案的配准而非图案本身的效果。

其二是CN200910109911号中国专利,公开一种彩色图像分割方法,其包括:将待分割图像处理成灰度图像;利用Otsu阈值分割法从灰度图像提取区域轮廓图,并确定最优阈值;以最优阈值作为Canny算子的高门限值,利用Canny算子从灰度图像提取边缘图;融合区域轮廓图和边缘图,输出彩色图像的分割结果。该技术使用OTSU算法在原图的灰度图像上提取区域轮廓用来在彩色图像上控制目标分割结果。

综上所述,上述两个采用相同核心算法的专利提供的技术方案所解决的问题与本专利完全不同,OTSU也仅仅是作为中间处理环节的算法被使用。本技术方案直接在彩色图像上使用OTSU算法,结合保留页面本身颜色的设置处理环节,应用目标则是为了提高图片整体外观的可读性以及提高后续OCR识别率,加工流程也从人工修图提升为批量处理,效果以及速度都有很大的提升。

发明内容

本专利主要用来解决纸质文档数字化加工时,对文档图像中反面渗透过来的字迹或印章进行消除的同时保留正面字迹或印章的一种去除文档图像背面渗透字迹的方法。

本发明的技术方案包括如下步骤:

a.指定地址读入三通道彩色图像;

b.按照红、绿、蓝三层将原图像分成三张单通道图像;

c.在单通道图像上计算划分前景字迹与背景反渗噪声的最佳阈值T;

d.在c基础上,从T到255计算在这些色度级别上每一级的像素点个数,像素点最多的级别值记为t;

e.在单通道图像上,0到T级别的所有像素点的值保持不变,T到255级别的像素点的值都置为t;

f.将红、绿、蓝三层合并为新的图像;

g.新图像写出到指定地址文件。

其中,步骤c、步骤d和步骤e在红、绿、蓝三层图像上都需要运算。

其中,d步骤中为在c基础上保留0到T之间所有像素的值不变。

其中,c步骤中使用OTSU算法在单通道图像上计算划分前景字迹与背景反渗噪声的最佳阈值T。

相对于现有技术,本发明提出彩色图像红绿蓝三通道OTSU及自适应策略计算出最优阈值,有效地解决了现有反渗处理因纸张特征不同产生的自动处理难题;本发明运算效率高,可在数字化加工领域批量应用,提高加工效率,节约人力成本;本发明对待处理图像背景的渗透程度限制小,适应性强;本发明不仅仅可以用于单纯的页面效果优化,而且加入OCR字符识别的初级预处理步骤后可以大大提高字迹辨识率,节省加工时间。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海中信信息发展股份有限公司,未经上海中信信息发展股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610049126.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top