[发明专利]一种从文档中提取表格的方法、系统和计算机设备有效

专利信息
申请号: 202310010871.0 申请日: 2023-01-05
公开(公告)号: CN115713775B 公开(公告)日: 2023-04-25
发明(设计)人: 高翔;李瀚清;杨慧宇;朱耀邦;曾丹梦;李巍豪;赵业辉;岳小龙;纪达麒;陈运文 申请(专利权)人: 达而观信息科技(上海)有限公司
主分类号: G06V30/412 分类号: G06V30/412;G06V20/70;G06V10/82;G06N20/00
代理公司: 上海智力专利商标事务所(普通合伙) 31105 代理人: 周涛
地址: 201203 上海市浦东新区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文档 提取 表格 方法 系统 计算机 设备
【说明书】:

本发明涉及到一种从文档中提取表格的方法,该方法包括离线处理环节和在线处理环节,所述离线处理环节通过标注数据并训练机器学习模型,以检测图像表格区域、图像表格类型和图像表格线条,输出对应检测模型至在线处理环节应用;所述在线处理环节用以实时提取文档中表格包括电子表格和图像表格,电子表格可以根据指定文档的格式协议编码进行解析,图像表格需要利用离线处理环节所训练的模型,业务上进行串联后进行提取,得到结构还原和内容填充后的电子表格文件;还包括提取表格的系统和计算机设备。本发明的方法、系统和设备将常见文档类型中的表格提取方式统一提供一站式提取文档中所有表格内容,对实际办公场景有很大的意义。

技术领域

本发明涉及到智能文本处理领域,特别涉及到一种从文档中提取表格的方法、系统和计算机设备。

背景技术

表格是一种重要的信息承载及展现方式,具有结构清晰、信息量大等特点,在日常办公、资料文件等各种文件中得到大量使用,常见的例如人员信息表、产品属性表及财务报表等。

在实际中,表格数据很少单独呈现,而是和段落、标题、图片等其他文档元素混合起来以文档资料形式呈现。常见的文档格式包括Word、PDF、图片等格式。对于Word中的表格,如果是电子表格协议,可以直接读出,但word中也有可能插入图像形式的表格。而对于PDF、图片等格式,其中的表格都是以图像的形式存储,处理起来较为困难。由于图像表格录入环境复杂、纸张平整度、打印清晰度等问题,导致录入系统的图像表格存在扭曲、透视、清晰度等问题,对图像表格的后续使用造成很大困难。如何从不同类型文档中自动提取所有类型的表格结构及内容,在实际生产工作中需求很大,挑战很大。由于文档中电子表格指的是可以直接编辑表格结构和内容的表格,例如word中表格对象可直接使用office或wps软件进行编辑。而图像表格指的是以图像形式存储的表格,不能编辑,例如pdf文档中的表格、图片文件中的表格等,而且word中也能以图片的方式插入表格,导致自动提取表格结构及内容造成困难,影响实际工作效率。

由于实际使用的表格样式本身比较复杂,按照线条的完整情况,一般可以划分为全线表格、少线表格和无线表格。其中,全线表格是最常见的表格,每个单元格四周都有线条环绕,表格结构清晰。而少线表格一般只有横线或者竖线划分大致结构,单元格划分需要配合文本对齐信息才能正确理解。而无线表格是没有任何线条的表格,智能通过文本对齐信息才能正确理解表格结构。

除了上述表格类型造成的困难外,图像表格在采集时由于打印质量、拍摄设备、纸张平整度等问题,造成采集的图像表格质量参差不齐,例如出现阴影、透视、线条扭曲、线条颜色过于暗淡等。本发明提出一种从文档中提取表格的方法和装置,目的是能够支持多种类型图像表格的解析,并将图像表格存储为xlsx、csv等独立的电子表格文件形式。

发明内容

本发明的目的在于克服上述现有技术存在的不足,提供一种从文档中提取表格的方法、系统和计算机设备。本发明的方法、系统和计算机设备要能够针对文档中所有表格的结构及内容解析提取,从文档中自动提取所有表格,自动找到文档中所有的表格结构和文字内容,并导出为xlsx、csv等电子形式表格,方便后续人工处理或系统自动化处理。

为了达到上述发明目的,本发明专利提供的技术方案如下:

本发明的方法主要分为离线系统和在线系统两部分。离线系统主要包括:1,图像表格区域检测模型训练;2,图像表格类型划分模型训练;3,图像表格线线检测模型训练。在线系统主要包括1,文档类型判断;2,表格类型判断;3,图像表格中文字内容检测与识别;2,图像表格区域检测;3,图像表格类型划分;4,图像表格线条检测;5,图像单元格构建;6,导出表格至电子表格文件。

所述离线系统通过标注一定量的相关数据,训练相关机器学习模型,用来检测图像表格区域、图像表格类型和图像表格线条,输出相关模型供在线系统使用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310010871.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top