[发明专利]一种基于位置的PDF表格文档的解析方法、装置及设备在审

申请号：	202010826082.0	申请日：	2020-08-17
公开（公告）号：	CN114077830A	公开（公告）日：	2022-02-22
发明（设计）人：	张青龙;陈强;蒋坡良;丁明;王泽枫	申请（专利权）人：	税友软件集团股份有限公司
主分类号：	G06F40/205	分类号：	G06F40/205
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	张春辉
地址：	310053 浙江省杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于位置 pdf 表格文档解析方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于位置的PDF表格文档的解析方法，由于PDF官方规范支持告诉表格文档中具体字符串的位置，该方法首先通过文本提取确定PDF表格文档中每个字符串的位置信息，然后根据位置信息确定字符串与表格中单元格的对应关系，最终进行字符串填充，实现了将PDF表格文档解析为便于进行数据分析处理的表格形式。此外，本申请还提供了一种基于位置的PDF表格文档的解析装置、设备及可读存储介质，其技术效果与上述方法相对应。

技术领域

本申请涉及计算机技术领域，特别涉及一种基于位置的PDF表格文档的解析方法、装置、设备及可读存储介质。

背景技术

PDF的官方规范是不支持表格的，在大量行业性PDF文档中，数据是以PDF文档中的表格式来提供的，例如财税领域的税务申报文档。PDF表格文档不方便进行数据的分析处理，而PDFBox、Tabula、Itext等技术方案，都是基于文本数据读取，对于表格数据的支持不是很好，无法完整解析表格行、列数据。

可见，如何解析PDF表格文档，是亟待本领域技术人员解决的技术问题。

发明内容

本申请的目的是提供一种基于位置的PDF表格文档的解析方法、装置、设备及可读存储介质，用以解决当前缺少对PDF表格文档的解析方案，导致PDF文档中的结构化数据较难进行分析处理的问题。其具体方案如下：

第一方面，本申请提供了一种基于位置的PDF表格文档的解析方法，包括：

根据PDF表格文档中结构化数据的属性，构建表格模型；

对所述PDF表格文档进行文本提取，得到字符串对象的集合，其中所述字符串对象包括字符串和字符串在所述PDF表格文档的位置信息；

根据所述位置信息，对所述字符串对象进行排列；

逐行处理排列后的字符串对象，确定字符串与所述表格模型中单元格的对应关系；