[发明专利]一种表单类型的识别方法有效
申请号: | 201210552859.4 | 申请日: | 2012-12-19 |
公开(公告)号: | CN103034848A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 胡希驰;史培培 | 申请(专利权)人: | 方正国际软件有限公司;方正国际软件(北京)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 215123 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表单 类型 识别 方法 | ||
技术领域
本发明涉及图像处理领域,具体涉及一种利用图像的表单类型的识别方法。
背景技术
在实际的应用中,有许多的表单需要自动识别内容、切分等工作。由计算机自动进行的内容识别、切分,能大大加快相关业务中的处理速度,减少人的干预。不但可以节约人力成本,提高效率,也有助于某些场合下的信息保密工作。整版文档的识别中,在每个字符进行OCR(Optical Character Recognition,光学字符识别)之前,还有一个重要的版面分析过程。即,需要让计算机知道,哪些区域是文字,哪些区域是图像;更进一步,可以分析出哪些区域识别出的内容,对应什么项目。版面分析本身是一个较稳复杂、困难的工作,且正确率有限,因为版面的样式多种多样。我们注意到,表单的识别中,表单的类型往往较为固定。如果能先识别表单类型,则很容易就能将待识别的表单需要识别的信息文字标记出来,方便后续的OCR工作。
在现有技术中,专注于表单类型识别的方法较少,大多技术集中于整体系统的设计、如何提高单张表单内的识别率、如何分配表单给更适合的人员等。较少涉及表单类型的识别。部分类似方法也只是针对银行的票据,主要有以下几种:
1.专利申请号为200710141024.9的中国专利申请,公开了“票据处理设备”,该设备虽然能够对多个面值混合的票据进行分类,但是该并未对表单类型识别方面有详细说明。
2.专利申请号为00124172.9的中国专利申请,公开了“票据处理系统”,该系统虽然能够对传票、支票、付款传单等各种金融机构票据的种类进行识别,但是对一般图像中的表单类型识别方面未由详细说明。
3.专利申请号为97100414.5的中国专利申请,公开了“光学扫描表单识别及更正方法:该方法主要涉及的是如何提高单张票据内的识别率,但对表单类型识别方面未有详细说明
4.专利申请号为201010596814.8的中国专利申请,公开了“票据处理系统”,该申请设计了一种根据录入人员特性,合理分配表单的系统,在进行票据数据输入处理之前,无需针对每个操作员预先登记表示擅长领域和/或能力的信息,即可对操作员分配最适合的应该处理的票据,即如何分配表单给更合适的人,并未涉及表单类型的识别。
5.专利申请号为96106616.4的中国专利申请,公开了“中英文表单的识别系统及识别方法”,该方法需要利用OCR信息,仅通过栏位信息进行区别。但在实际应用中,有许多不同类型的表单栏位完全相同,如前后联,该方法无法处理该情况。
6.专利申请号为201210236228.1的中国专利申请,公开了“一种票据自动录入系统及其应用方法”,该方法需要利用二维码,增加了识别系统的构建难度,降低了易用性。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种表单类型的识别方法,实现表单类型的快速识别。
为实现上述目的,本发明采用的技术方案如下:
一种表单类型的识别方法,包括以下步骤:
(1)根据已知表单类型提取各表单的特定特征,制作表单模板;所述表单的特定特征是指表单之间的差异特征;
(2)获取待识别表单的数字图像,并对数字图像进行预处理得到二值图像;
(3)对齐二值图像的表单顶点,将表单顶点作为二值图像的原点;所述的表单顶点是指表单中表格最左端的垂直线和最顶端的水平线的交点,对齐表单定点是指将表单顶点作为二值图像的原点;
(4)提取二值图像中待识别表单的特定特征,比对待识别表单的特定特征与各个表单模板的特定特征,统计各个表单模板的得票,得票最高的表单模板为待识别表单的类型。
进一步,如上所述的一种表单类型的识别方法,步骤(1)中,根据已知表单类型制作表单模板的具体方式为:
a.根据已有表单,分析已有表单之间的差异特征,提取出特定特征及特定特征的位置;
b.利用与各特定特征关联的已知算法计算特定特征的属性,并存储特定特征及其属性。
进一步,如上所述的一种表单类型的识别方法,所述的特定特征包括表单局部区域内的黑像素密度、表单内超过设定长度的线段以及超过设定长度的线段长度、LBP特征、梯度统计特征和边缘链码特征;所述的局部区域由用户指定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件有限公司;方正国际软件(北京)有限公司,未经方正国际软件有限公司;方正国际软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210552859.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低阻尼位移测量机构
- 下一篇:一种浓密机耙位监测装置