[发明专利]一种对固定格式文档的识别处理方法及处理系统有效

专利信息
申请号: 202010561793.X 申请日: 2020-06-18
公开(公告)号: CN111695566B 公开(公告)日: 2023-03-14
发明(设计)人: 郭纯一;郝天然;朱阿静;王俊淇;方俊;吕培;周兵 申请(专利权)人: 郑州大学
主分类号: G06V30/418 分类号: G06V30/418;G06V30/12
代理公司: 广东君龙律师事务所 44470 代理人: 金永刚
地址: 450001 *** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 固定 格式 文档 识别 处理 方法 系统
【说明书】:

发明公开了一种对固定格式文档的识别处理方法。本发明根据关键词将待识别图像迅速与固定格式文档进行匹配,提高识别效率和准确度,并且根据固定字符将待识别图像划分为多个独立的固定格式区,根据固定字符设定每个固定格式区内的内容属性和校正规则,对固定格式区内的待识别字符进行独立的识别校正,能够有效的提高识别效率和识别的准确度,由固定格式区中识别出的内容信息集合到一个整体,从而快速得出一个准确度高的识别处理结果。

技术领域

本发明涉及计算机信息处理领域的后处理技术领域,尤其涉及一种对固定格式文档的识别处理方法及处理系统。

背景技术

后处理是OCR(光学字符识别)技术应用的一个重要部分,目前OCR文字识别结果存在误识的问题,尤其是质量较低、字迹模糊、字符倾斜、手写字符的文本识别,后处理方法的应用在一定程度上提高了识别的准确率。

传统后处理方法采用人工校正,将识别后的字符进行一一检查,标记出误识字符,然后进行人工纠正。人工校正不能自动处理,对于批量处理识别结果需要依次校正,费时耗力,工作量巨大。

现有技术中后处理方法引入NLP(Natural Languange Process)技术,将识别结果进行词法切分和语法匹配,及对句子进行分词,然后以待识词为中心,通过与上下文进行语法匹配检查来识别待识字符。该方法能够完成自动的识别并一定程度上提高识别的准确率。但是在对固定格式文档进行识别时,每次识别均需要对固定格式文档中的内容进行全面识别,不能对固定格式文档类别进行匹配。并且在识别时不能对固定格式文档中固定格式区域内的字符进行独立的识别校正;而造成识别效率较低,容易出现识别错误的情况。

发明内容

本发明主要解决的技术问题是提供一种对固定格式文档的识别处理方法及处理系统,解决对固定格式文档的字符识别过程中不能准确识别文档类别,对固定区域的字符不能独立识别,以及缺乏文档纠偏校正的问题。

为解决上述技术问题,本发明采用的一个技术方案是提供一种对固定格式文档的识别处理方法,包括步骤:

建立模板标识,针对不同类型的固定格式文档,分别从中提取多个用于表征固定格式文档的关键词,用多个关键词作为固定格式文档的标识;

设定校正规则,对固定格式文档分成多个固定格式区,针对每一个固定格式区设定内容属性和校正规则,作为识别固定格式区中的字符的依据;

输入图像匹配,输入待识别图像,从待识别图像中识别出其中的字符,再从字符中筛选出关键词,通过对关键词检索分析,将待识别图像与对应的固定格式文档相匹配;

输出识别结果,根据固定格式文档中的每一个固定格式区对应设定的内容属性和校正规则,对待识别图像中识别出的字符对应进行校正,最终输出待识别图像的识别处理结果。

优选的,在建立模板标识步骤中,多个关键词离散分布在固定格式文档中的不同位置,并且多个关键词所在位置连线组成区域的面积大于或等于固定格式文档整体区域面积的二分之一。

优选的,多个关键词所在位置组成的几何拓扑结构也作为固定格式文档的标识。

优选的,在设定校正规则步骤中,内容属性包括字符类型、字符数量,校正规则包括相似校正、关联校正、选择校正。

优选的,在输入图像匹配步骤中,还包括对输入的待识别图像进行版面倾斜矫正,当待识别图像与对应的固定格式文档匹配后,根据待识别图像中的关键词的坐标位置与对应的固定格式文档中的关键词的坐标位置映射,矫正待识别图像的版面。

优选的,在输出识别结果步骤中,包括对固定格式文档中的固定字符进行匹配,以及对固定格式区中的待识别字符进行校正识别。

一种对固定格式文档的识别处理系统,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010561793.X/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top