[发明专利]一种用于OCR识别的基于关键点定位的票据矫正方法在审
申请号: | 201911224712.0 | 申请日: | 2019-12-04 |
公开(公告)号: | CN111126382A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 段强;李锐;金长新;王芳 | 申请(专利权)人: | 山东浪潮人工智能研究院有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/38;G07D7/20 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 ocr 识别 基于 关键 定位 票据 矫正 方法 | ||
本发明提供一种用于OCR识别的基于关键点定位的票据矫正方法,属于图像识别,目标检测,图像几何矫正技术领域,本发明通过综合两种关键定定位的方法,包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法,以及基于局部特征匹配PatchMatch的关键点定位方法。对图像做矫正可以保证文字的规范性,有助于提升后续文字识别的效果。
技术领域
本发明涉及图像识别,目标检测,图像几何矫正技术,尤其涉及一种用于OCR识别的基于关键点定位的票据矫正方法。
背景技术
目前用于OCR识别中的主流的图像矫正技术仍集中于提取图像中的感兴趣区域(ROI,region of interests)的边缘并做一系列直线拟合、模式识别等工作,找到四边形区域,并做矫正。这样做存在两个不足,一是处理不了没有明显边界或边界与背景区分度不足的图像,二是基于直线拟合的方法是从一个低阈值的结果中遍历可能存在的四边形模式,计算复杂且存在一定误差。
在人工智能发展的浪潮当中,将重复且机械的工作用机器替代人类是一个必然的趋势。在目前已有的人工智能应用中,文字识别已经非常成熟,而且不仅限于打印字体的识别,还包括手写体的识别。但是如果想做到更加智能化、自动化,在文字识别之前,还要有一步图像的规范化,如图像的视角矫正和去畸变。当图像中视角倾斜时,文字也会随之倾斜,而往往文字识别的训练数据中都是规范的文字。如果考虑倾斜的情况,训练集的大小可能会成倍的增加,训练时间和训练效果也会随之下降。
现有的技术存在如下劣势:
1、计算复杂,直线拟合需要遍历n^2次以求得最优解
2、不适用于没有明显边界的图像
因此,对图像做矫正可以保证文字的规范性,有助于提升后续文字识别的效果。
发明内容
为了解决以上技术问题,本发明提出了一种用于OCR识别的基于关键点定位的票据矫正方法,灵活使用现有技术,扬长避短,提出一种简洁可行且适用性较广的票据图像矫正方法,结果较为稳定可靠。
本方法中使用到的技术主要包括一些基本的图像处理操作,如图像的二值化,图像形态学处理,图像的连通域分析,生成最小矩形区域,局部特征匹配,图像的单应性变换(投影变换)等技术。
本发明的技术方案是:
一种用于OCR识别的基于关键点定位的票据矫正方法,通过综合两种关键定定位的方法(包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法,以及基于局部特征匹配PatchMatch的关键点定位方法)找到至少四个关键点,并定义出它们矫正后的坐标,通过投影变换将票据进行矫正。
得益于票据图像的规则排版和固定的边框位置,该方法可用性较强,效果普遍较好,不受制于边缘检测的准确度,且计算过程不复杂。该方法需要至少四个关键点的坐标,提供更多关键点且关键点分布的越均匀,矫正的效果越好。
给定一个已知的票据模板和需要矫正的图像,首先对图像进行二值化,得到一个便于进行处理的二值化图像,这里采用OpenCV的自适应二值化方法,调整合适的阈值对图像进行二值化。
由于这里综合采用两种关键点定位的方法,因此需要根据情况进行分别处理。
对于基于连通域分析和最小生成矩形的关键点定位方法
首先要对二值化图像进行图像形态学操作,例如膨胀/腐蚀,或开/闭操作。将二值化图像中所有元素在某个小区域内连成一整个连通域。
然后对二值图像做连通域分析,并使用寻找最小矩形区域的方法(如OpenCV中的minAreaRect)将各个连通域标注出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮人工智能研究院有限公司,未经山东浪潮人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911224712.0/2.html,转载请声明来源钻瓜专利网。