[发明专利]隐性表格提取方法及装置有效
申请号: | 201710839286.6 | 申请日: | 2017-09-18 |
公开(公告)号: | CN107622041B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 于闪闪;张青;程剑华;蒋宏飞;晋耀红;杨凯程 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F40/12 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 江崇玉 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐性 表格 提取 方法 装置 | ||
本发明公开了一种隐性表格提取方法及装置,属于数据处理技术领域。所述方法包括:根据每个字符对应的坐标,将距离满足预设接近条件的字符确定为同一隐性表格中的字符,将同一隐性表格中的字符划分入同一字符集合;根据每个字符集合中的字符对应的字符坐标,确定每个字符集合对应的单元格范围;根据每个字符集合包含的字符、每个字符对应的坐标、以及每个字符集合对应的单元格范围,生成显性表格。解决现有的PDF文档的提取技术对于PDF文档的表格数据的提取,缺少相应的处理方式的问题;达到了根据目标文档中隐性表格中的字符的坐标确定隐性表格中的单元格范围,并根据确定出的单元格范围生成显性表格的效果。
技术领域
本发明涉及数据处理技术领域,特别涉及一种隐性表格提取方法及装置。
背景技术
随着计算机及互联网技术的快速发展,便携式文档格式(PortableDocumentFormat,PDF)的应用越来越广泛。
由于PDF最初的设计目的只是为了展示文档和打印文档,没有与其他计算机程序进行通讯与交互的功能。因此,PDF文档中所包含的数据,需通过相应的PDF文档的提取技术,才能被其他计算机程序使用。
PDF文档主要由图像、表格及字符等数据组成。现有的PDF文档的提取技术,基本上能够准确地提取出PDF文档中的字符数据,但对于PDF文档的表格数据的提取,则缺少相应的处理方式。
发明内容
为了解决现有的PDF文档的提取技术对于PDF文档的表格数据的提取,缺少相应的处理方式的问题,本发明实施例提供了一种隐性表格提取方法及装置。所述技术方案如下:
第一方面,提供了一种隐性表格提取方法,所述方法包括:
解析目标文档,得到所述目标文档中的每个字符和每个字符对应的坐标;
根据每个字符对应的坐标,将距离满足预设接近条件的字符划确定为同一隐性表格中的字符,将同一隐性表格中的字符分入同一字符集合;
根据每个字符集合中的字符对应的字符坐标,确定每个字符集合对应的单元格范围;
根据每个字符集合包含的字符、每个字符对应的坐标、以及每个字符集合对应的单元格范围,生成显性表格。
第二方面,提供了一种隐性表格提取装置,所述装置包括:
解析模块,用于解析目标文档,得到所述目标文档中的每个字符和每个字符对应的坐标;
第一划分模块,用于根据每个字符对应的坐标,将距离满足预设接近条件的字符确定为同一隐性表格中的字符,将同一隐性表格中的字符划分入同一字符集合;
第一确定模块,用于根据每个字符集合中的字符对应的字符坐标,确定每个字符集合对应的单元格范围;
生成模块,用于根据每个字符集合包含的字符、每个字符对应的坐标、以及每个字符集合对应的单元格范围,生成显性表格。
本发明实施例提供的技术方案带来的有益效果是:
通过根据目标文档中每个字符对应的坐标,确定字符集合以及该字符集合对应的单元格范围,生成显性表格,由于根据字符集合中字符对应的坐标能更为精准的确定单元格范围;因此解决现有的PDF文档的提取技术对于PDF文档的表格数据的提取,缺少相应的处理方式的问题;达到了根据目标文档中隐性表格中的字符的坐标确定隐性表格中的单元格范围,并根据确定出的单元格范围生成显性表格的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710839286.6/2.html,转载请声明来源钻瓜专利网。