[发明专利]一种PDF文件信息分析方法和装置在审
申请号: | 202110352500.1 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113033164A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 方政 | 申请(专利权)人: | 善诊(上海)信息技术有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06K9/00;G06K9/34 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 许曼;贾磊 |
地址: | 201203 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文件 信息 分析 方法 装置 | ||
本文提供了一种PDF文件信息分析方法和装置,其中方法包括:解析待处理的PDF文件,获得若干元素以及所述元素的位置信息和特征信息,所述元素包括字符元素和非字符元素;根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处。本文提供的一种PDF文件信息分析方法和装置,不仅能够识别PDF文件中的每个元素,还能将识别的各元素特征信息根据其位置信息插入到对应元素旁,使得文件的信息更加全面,有利于提高文件逻辑性和可读性。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种PDF文件信息分析方法和装置。
背景技术
PDF(Portable Document Format,可携带文档格式)文件是一种应用广泛的电子文件格式,可以将文字、字型、格式、颜色及图形图像等信息封装,具有存储空间少、便于传输、兼容性高、不易被篡改等优点。PDF文件主要用于在二维平面上表示(查看或打印)文档排版,而不是用来编辑(类似word)或者保存、传输结构化数据,其中的数据较难还原成原始的用于生产PDF文件的结构化数据。例如:PDF文件中的文本段落,在读者看来它是由一行一行的文字构成,而实际上这些文字都是独立地以字符结合二维坐标的形式定位在平面上,并没有句子、行、段落之类的概念;PDF中的表格也是由独立的每一个字符,和一些由起点、终点、粗细描述的线段等构成。现有技术中,通常是根据识别出的每个字符的坐标位置聚合形成段落,将PDF文件转为纯文本文件(TXT格式)。这种将PDF文件转换成纯文本的方法容易丢失了大量的格式信息(包括布局排版、字体、颜色等),丢失布局排版信息更导致格式错乱等问题。
有鉴于此,本文旨在提供一种PDF文件信息分析方法和装置。
发明内容
针对现有技术的上述问题,本文的目的在于,提供一种PDF文件信息分析方法和装置,以解决现有技术中在对PDF文件信息进行分析处理时,分析效率低且大量信息丢失的问题。
为了解决上述技术问题,本文的具体技术方案如下:
一方面,本文提供一种PDF文件信息分析方法,包括:
解析待处理的PDF文件,获得若干元素以及所述元素的位置信息和特征信息,所述元素包括字符元素和非字符元素;
根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处。
具体地,所述根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处,包括:
根据所述元素的位置信息,将所述字符元素的所述特征信息以备注的形式插入到所述字符元素处;
根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处。
具体地,所述位置信息包括:所述元素所在页码和所述元素所在页内的坐标信息;
所述特征信息:包括所述字符元素的字符特征以及所述非字符元素的边界信息。
进一步地,所述根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处,包括:
对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理得到划分区域信息;
根据所述元素的位置信息,将所述划分区域信息插入到所述PDF文件中相应的非字符元素处。
优选地,所述非字符元素包括线条元素、色块元素和图像元素;对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理,进一步为:
对所述线条元素的边界、所述色块元素的边界和所述图像元素的边界分别以不同的亮度进行高亮处理、和/或以不同的颜色进行着色处理、和/或以不同的比例进行放缩处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于善诊(上海)信息技术有限公司,未经善诊(上海)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110352500.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置