[发明专利]一种基于CRNN的图片表格提取方法在审

专利信息
申请号: 202110430702.3 申请日: 2021-04-21
公开(公告)号: CN113139457A 公开(公告)日: 2021-07-20
发明(设计)人: 励建科;许化;顾淼;陈再蝶;朱晓秋;樊伟东;章星星 申请(专利权)人: 浙江康旭科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20;G06K9/32;G06K9/46;G06N3/04;G06N3/08
代理公司: 杭州山泰专利代理事务所(普通合伙) 33438 代理人: 周玲
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 crnn 图片 表格 提取 方法
【说明书】:

发明公开了一种基于CRNN的图片表格提取方法,包括以下步骤:S1、对待检测图片做透视变换,校正图片;S2、使用深度神经网络对校正后的图片做表格骨架提取;S3、从表格骨架中获取单元格ROI;S4、通过OCR识别模型识别所有单元格ROI中的文本内容;S5、将文本内容通过步骤S2中的表格骨架排版还原到表格,从而将图片表格转换为数据表格,完成图片表格的提取。本发明中,对待识别图片做一次透视变换,校正图片角度,再使用深度神经网络模型提取整体表格骨架,克服现有技术当单元格边缘被手写字连笔的情况,或者图片中表格存在不清晰,图片光线、倾斜、模糊等问题,克服需要大量人为手动调参而费时费力的问题。

技术领域

本发明涉及图像表格提取技术领域,尤其涉及一种基于CRNN的图片表格提取方法。

背景技术

在人工智能时代,AI技术发展出两大最贴近人们生活的方向,自然语言处理和图像识别技术,其中图像识别技术尤其在各行各业崭露头角,产生十分重要的影响其中,表格是图像文字资料中非常重要的表达方式之一,是各种数据分析工具中的基础工具,表格表达方式在网络资料中十分常见,其中很多资料中的表格都是以图片的格式提供下载,比如各种扫描档案文件、PDF文件。

如果要将这些资料进行快速处理和分析,需要自动识别这些图像表格资料,从图片表格内容抽取并恢复排版的算法,在一套完整的图像表格提取算法实施流程中通常包含多个步骤,典型的步骤包括:图像预处理、提取表格骨架、切割表格单元格、对单元格做文本识别、将单元格排序合并,恢复排版。

然而,现有图像表格提取算法在实施过程中存在如下几个弊端:

(1)现有技术在图片表格骨架提取一般使用连通域分析,但在表格周围内容连笔到表格边缘的情况,或者图片中表格存在不清晰,图片光线、倾斜、模糊等都会影响连通域分析的结果,需要大量人为手动调参而费时费力;

(2)现有识别文本技术通常是构建单字符识别模型,单字符识别模型需要对单元格内字符序列进行切割,印刷体字体一般通过投影法,但在手写体出现连笔等,增加字符切割难度,字符切割算法设计复杂;

(3)手写体文本数字的识别准确率低。

发明内容

为了解决上述背景技术中所提到的问题,而提出的一种基于CRNN的图片表格提取方法。

为了实现上述目的,本发明采用了如下技术方案:

一种基于CRNN的图片表格提取方法,包括以下步骤:

S1、对待检测图片做透视变换,校正图片;

S2、使用深度神经网络对校正后的图片做表格骨架提取;

S3、从表格骨架中获取单元格ROI;

S31、从步骤S2提取的表格骨架中获取检测出表格骨架的所有横线和竖线;

S32、使用cv2.bitwise_and()求得横线和竖线的交点坐标,记录所有交点的横坐标xs和纵坐标ys;

S33、根据横坐标xs和纵坐标ys求得单元格行位置listy和列位置listx;

S34、手动设置最小单元格高度min_ceil_height,过滤横噪声框,手动设置最小单元格宽度min_ceil_width,过滤列噪声框;

S35、循环遍历每一行位置listy,找到对应的横轴坐标点x_list,判断两顶点中是否存在横线,如果存在,找到这条横线的下对边横线,求得单元格高度,从而获得单元格ROI,如果两顶点间不存在横线,则不存在单元格ROI;

S4、通过OCR识别模型识别所有单元格ROI中的文本内容;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江康旭科技有限公司,未经浙江康旭科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110430702.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top