[发明专利]融合多种文本特征及几何信息的表格识别方法及系统有效

专利信息
申请号: 202010663170.3 申请日: 2020-07-10
公开(公告)号: CN111860257B 公开(公告)日: 2022-11-11
发明(设计)人: 李一仁;黄征;周异;陈凯 申请(专利权)人: 上海交通大学
主分类号: G06V30/412 分类号: G06V30/412;G06V30/413;G06V20/62;G06V10/82;G06V30/10
代理公司: 上海段和段律师事务所 31334 代理人: 李佳俊;郭国中
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 多种 文本 特征 几何 信息 表格 识别 方法 系统
【说明书】:

发明提供了一种融合多种文本特征及几何信息的表格识别方法,包括:数据处理步骤:获取表格区域的图片,分别对获取的图片进行OCR识别与直线识别,获得关键特征信息;图卷积神经网络训练步骤:根据获得的关键特征信息,进行图卷积神经网络训练,构建表格结构识别模型;表格识别步骤:根据构建的表格结构识别模型,对图片格式的表格进行结构识别。本发明提出了一种融合多种文本特征及几何信息的表格识别方法,从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进,有效提升了表格识别的准确率,获得了更加准确的表格结构重建结果,相对现有基于传统规则的表格识别机制及基于图片的传统深度学习方法有了很大的提升效果。

技术领域

本发明涉及图片识别技术领域,具体地,涉及融合多种文本特征及几何信息的表格识别方法及系统。

背景技术

在信息时代,如何快速获取信息并从海量而复杂的信息中提取关键的知识是一个重要问题。而表格作为结构化数据的一种形式,具有简单与标准化的特性。对于用户来说,由于它的规范性,信息查询与比较较为简单;对于计算机来说,一旦数字化的表格结构被提供,所需要的数据也能快速地被提取。然而,许多表格在发布时被封装成了图片格式,从而丢失了结构化信息。因此,如何从图片格式的表格中重新识别表格结构成为了一个重要的问题。

现有的表格识别技术包括传统的规则方法,预定义的基于布局的方法,基于统计或优化的方法等,而这些方法无法对于表格图片中多样化的信息,例如图像信息、文本信息、位置信息等统一建模,因而本文提出了一套基于图卷积神经网络的表格识别方法,来充分融合这些可用的信息。

近年来使用规则方法和深度学习方法来解决表格识别问题的研究取得了一定进展,然而现有方法仍然难以准确地恢复相对复杂的表格的结构,图4给出了一个非常典型的例子。现有的难点包括:

(1)许多表格为了美观会省略表格的两侧框线,甚至流行的三线表仅包括表头部分的两条框线与表格底部的框线,给依靠框线识别表格结构的方法提出了很大的挑战。

(2)有些表格的表头包含多个合并单元格,以便于标识不同分类或时间阶段的数据,但是给表格识别增加了难度。

现有的方法大多只单独使用到图像信息或位置信息等,没有把所有可用的特征都结合起来,损失了原有的信息。而本文提出的基于图卷积神经网络的方法很好的解决了这个问题,通过融合图片信息、文本信息、位置信息等表格特征弥补现有方法的缺陷。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种融合多种文本特征及几何信息的表格识别方法及系统。

根据本发明提供的一种融合多种文本特征及几何信息的表格识别方法,包括:

数据处理步骤:获取表格区域的图片,分别对获取的图片进行OCR识别与直线识别,获得关键特征信息;

图卷积神经网络训练步骤:根据获得的关键特征信息,进行图卷积神经网络训练,构建表格结构识别模型;

表格识别步骤:根据构建的表格结构识别模型,对图片格式的表格进行结构识别。

优选地,所述数据处理步骤包括:

通过OCR识别,获得字符的具体信息,进一步可处理成文本框字符串,对于每一个文本框,可获得它的文本内容、文本字体、文本颜色、文本大小,同时也可计算得到每个文本框的矩形坐标,记为四点坐标;

通过直线识别,获得表格框线的起止点位置,通过直线位置信息,可以确定表格中单元格的位置,对于缺省框线的表格来说,省略直线识别步骤;

根据单元格位置和各个文本框的四点坐标,经过人工核实后,可以得到每个文本框的表格结构信息,作为真实标注值Ground Truth。

优选地,所述关键特征信息包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010663170.3/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top