[发明专利]基于OCR的表格版式恢复方法、装置及存储介质在审
申请号: | 202010076368.1 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111325110A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 何嘉欣;刘鹏;刘玉宇;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr 表格 版式 恢复 方法 装置 存储 介质 | ||
本发明涉及图像处理领域,揭露了一种基于OCR的表格版式恢复方法,该方法包括:接收用户发出的携带待恢复表格图片的指令;对待恢复表格图片进行OCR识别并确定行/列切割线后,生成目标表格结构;利用OCR识别结果依次填充目标表格结构的单元格,得到第一表格;识别并处理第一表格中的异常单元格生成目标表格,并将所述目标表格发送给所述用户。本发明还揭露了一种电子装置及计算机存储介质。利用本发明,可以提高表格版式恢复的准确性。
技术领域
本发明涉及图像识别领域,尤其涉及一种基于OCR的表格版式恢复方法、电子装置及计算机可读存储介质。
背景技术
随着办公中纸质表格使用的增加,随之而来的是大量需要处理与统计的表格数据,处理这些数据需要耗费大量人力。若通过计算机对扫描后的表格图像进行提取并还原成电子表格,就能够通过程序批量处理并分析表格的各项数据,提高办公效率。
在通用OCR识别的检测和识别准确率都很高的情况下,对于规范的段落文章和带表格线的表格已经有成熟的方法提取结构化数据,例如,使用深度学习方式从图像中直接提取表格特征的方法,但这种方式识别率不高;还可以利用形态学来检测表格的一些特征,如表格框线,但这种方式依赖表格框线的特性,若遇到无框线的表格,这种方法便失效。因此,对于无表格线的表格图片,在结构化时还有很大挑战,难度主要在于如何把单元格划分出来。
另外,相当一部分表格图片两列的文本距离并非通用识别检测可有效分离的,有时两列文本甚至会交叉。这种情况下仅靠通用识别和相关切割逻辑无法有效将合并在一起的文本框分离。因此,亟需提供一种更准确、适用范围更广的表格明细结构化提取方法。
发明内容
鉴于以上内容,本发明提供一种基于OCR的表格版式恢复方法、电子装置及计算机可读存储介质,其主要目的在于提高表格版式恢复的准确性。
为实现上述目的,本发明提供一种基于OCR的表格版式恢复方法,该方法包括:
接收步骤:接收用户发出的表格版式恢复指令,所述表格版式恢复指令包括待恢复表格图片及所述待恢复表格图片的图片类型;
识别步骤:对所述待恢复表格图片进行第一OCR识别得到第一识别结果,所述第一识别结果包括所述待恢复图片的多个文本框及所述多个文本框对应的文本信息;
切割步骤:基于所述第一识别结果及预设切割规则确定所述待恢复表格图片的切割线,并基于所述切割线确定目标表格结构;
第一恢复步骤:基于预设填充规则将所述多个文本框分别写入所述目标表格结构中的单元格,生成第一表格;
第二恢复步骤:基于预设识别规则从所述第一表格中识别异常单元格,截取所述异常单元格对应的异常区域,将所述异常区域发送至预设终端,并接收所述预设终端返回的所述异常区域对应的异常单元格信息,基于所述异常单元格信息更新所述第一表格,得到目标表格;及
反馈步骤:将所述目标表格反馈至所述用户。
此外,为实现上述目的,本发明还提供一种电子装置,该装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的基于OCR的表格版式恢复程序,所述基于OCR的表格版式恢复程序被所述处理器执行时可实现如上所述基于OCR的表格版式恢复方法中的任意步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于OCR的表格版式恢复程序,所述基于OCR的表格版式恢复程序被处理器执行时,可实现如上所述基于OCR的表格版式恢复方法中的任意步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010076368.1/2.html,转载请声明来源钻瓜专利网。