[发明专利]一种完整识别PDF文件页眉页脚的技术在审

申请号：	201910587311.5	申请日：	2019-06-28
公开（公告）号：	CN110543810A	公开（公告）日：	2019-12-06
发明（设计）人：	徐茂龙;杨鸿健;程晨	申请（专利权）人：	南京智录信息科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	210000 江苏省南京市江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	页眉页脚页面存储原始存储数据存储数据距离判断特征识别图片格式文本数据文档数据页面头部正文数据存储页行数据最底端多页页眉解析查找分类分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种PDF文件页眉页脚识别的方法：解析PDF，得到PDF原始存储数据，根据每一页进行拆分。根据PDF页面内存储数据的顺序来识别页眉页脚；具体特征：在没有页眉页脚的情况下，PDF文档的数据是从上往下，从左往右开始逐个存储的，但是当有页眉页脚的情况下，PDF文档是先存储页眉再存储页脚，然后是正文数据部分。根据文档数据顺序以及页面最底端行数据的位置来获取页眉页脚。根据文本数据的距离底端的距离判断，另外对于纯图片格式的PDF文件，根据特征识别获取页眉页脚。包括以下步骤：查找页面头部和尾部的页眉页脚特征，根据多页的特征情况进行分析，对于多种页眉页脚形式进行分类。

技术领域：

本发明涉及到PDF(便携式文档格式)的一种页眉页脚数据分离的处理方法。

背景技术：

1.目前几乎所有的教育论文，上市公司公告都是以PDF文件格式发布于知网，上交所，深交所等渠道，这个格式方便了大家跨越设备去阅读，但是对于想要通过文档获取数据来说，提取这部分数据较为复杂，如大海捞针，并且也没有结构化的数据；

2.对PDF文件结构化提取的都要做的处理是切割出页眉页脚区域以规避对原文主要内容的污染；

3.对于纯图片格式的PDF文件来说，需要对页面内容进行图像识别(OCR) 获取到所有框线与文本坐标数据，以及文本内容；

4.对于正常格式的PDF文件来说，使用pdf.js等开源软件可获取解析PDF 文件后的数据，进一步提取可以获取到页面内的框线的数据以及文本内容和坐标数据。

发明内容：

本申请提供了PDF文档的页眉页脚识别方法与装置，主要分为两种处理方式：

1.正常格式的PDF文件处理

(1)获取PDF文件的原始解析数据；

(2)根据解析数据的顺序以及其离页面底部的距离来判断是否属于页眉页脚；