[发明专利]基于OCR的表格版式恢复方法、装置及存储介质在审
申请号: | 202010076368.1 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111325110A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 何嘉欣;刘鹏;刘玉宇;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr 表格 版式 恢复 方法 装置 存储 介质 | ||
1.一种基于OCR的表格版式恢复方法,适用于电子装置,其特征在于,该方法包括:
接收步骤:接收用户发出的表格版式恢复指令,所述表格版式恢复指令包括待恢复表格图片及所述待恢复表格图片的图片类型;
识别步骤:对所述待恢复表格图片进行第一OCR识别得到第一识别结果,所述第一识别结果包括所述待恢复图片的多个文本框及所述多个文本框对应的文本信息;
切割步骤:基于所述第一识别结果及预设切割规则确定所述待恢复表格图片的切割线,并基于所述切割线确定目标表格结构;
第一恢复步骤:基于预设填充规则将所述多个文本框分别写入所述目标表格结构中的单元格,生成第一表格;
第二恢复步骤:基于预设识别规则从所述第一表格中识别异常单元格,截取所述异常单元格对应的异常区域,将所述异常区域发送至预设终端,并接收所述预设终端返回的所述异常区域对应的异常单元格信息,基于所述异常单元格信息更新所述第一表格,得到目标表格;及
反馈步骤:将所述目标表格反馈至所述用户。
2.根据权利要求1所述的基于OCR的表格版式恢复方法,其特征在于,所述基于所述第一识别结果及预设切割规则确定所述待恢复表格图片的切割线,并基于所述切割线确定目标表格结构,包括:
基于所述第一识别结果及预设行切割规则对所述待恢复表格图片进行行切割,确定所述待恢复表格图片的行切割线;
根据所述图片类型确定所述待恢复表格图片对应的表头信息,基于所述表头信息及预设列切割规则对所述待恢复表格图片进行列切割,确定所述待恢复表格图片的列切割线;及
根据所述待恢复表格图片的行切割线及列切割线确定所述目标表格结构。
3.根据权利要求2所述的基于OCR的表格版式恢复方法,其特征在于,所述基于所述第一识别结果及预设行切割规则对所述待恢复表格图片进行行切割,确定所述待恢复表格图片的行切割线,包括:
按照多个预设角度对所述第一识别结果中的所述多个文本框进行旋转,对旋转后的所述多个文本框在y轴上进行投影,确定在y轴上所述多个预设角度对应的多个投影区间及多个重叠投影片段;
选择所述多个投影区间中投影区间最小,或者,选择所述多个重叠投影片段中重叠投影片段最多的预设角度作为目标角度,确定所述目标角度对应的重叠投影片段;
根据所述目标角度对应的重叠投影片段确定在所述目标角度下所述多个文本框的行切割线;及
根据所述目标角度下所述多个文本框的行切割线,确定每一行对应的文本框。
4.根据权利要求2所述的基于OCR的表格版式恢复方法,其特征在于,所述根据所述图片类型确定所述待恢复表格图片对应的表头信息,包括:
从预设存储路径获取预先确定的图片类型与表头关键词集合的映射数据,根据所述图片类型及所述映射数据确定所述待恢复表格图片对应的表头关键词集合;
根据所述行切割线确定所述待恢复表格图片中每一行的文本框的文本信息,将所述每一行的文本框的文本信息与所述关键词集合进行匹配;及
当存在与所述关键词集合匹配的文本信息时,将与所述关键词集合匹配的文本信息对应的一行文本框作为所述待恢复表格图片的表头信息。
5.根据权利要求2所述的基于OCR的表格版式恢复方法,其特征在于,所述基于所述表头信息及预设列切割规则对所述待恢复表格图片进行列切割,确定所述待恢复表格图片的列切割线,包括:
获取所述表头信息中的每一个表头元素,在所述每一个表头元素对应的文本框的最右方作垂直切割线;及
将所述垂直切割线作为所述待恢复表格图片的列切割线。
6.根据权利要求5所述的基于OCR的表格版式恢复方法,其特征在于,所述基于预设填充规则将所述多个文本框分别写入所述目标表格结构中的单元格,包括:
确定所述目标表格结构中每个单元格对应的多个交集文本框,分别计算所述多个交集文本框面积及所述多个交集文本框与所述单元格的重叠面积;及
当所述重叠面积与所述交集文本框面积的比例超过预设比例阈值时,判断所述交集文本框为所述单元格对应的目标文本框,将所述目标文本框的文本信息写入所述单元格中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010076368.1/1.html,转载请声明来源钻瓜专利网。