[发明专利]一种PDF文件信息分析方法和装置在审

专利信息
申请号: 202110352500.1 申请日: 2021-03-31
公开(公告)号: CN113033164A 公开(公告)日: 2021-06-25
发明(设计)人: 方政 申请(专利权)人: 善诊(上海)信息技术有限公司
主分类号: G06F40/166 分类号: G06F40/166;G06K9/00;G06K9/34
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 许曼;贾磊
地址: 201203 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 pdf 文件 信息 分析 方法 装置
【权利要求书】:

1.一种PDF文件信息分析方法,其特征在于,包括:

解析待处理的PDF文件,获得若干元素以及所述元素的位置信息和特征信息,所述元素包括字符元素和非字符元素;

根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处。

2.根据权利要求1所述的PDF文件信息分析方法,其特征在于,所述根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处,包括:

根据所述元素的位置信息,将所述字符元素的所述特征信息以备注的形式插入到所述字符元素处;

根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处。

3.根据权利要求2所述的PDF文件信息分析方法,其特征在于,

所述位置信息包括:所述元素所在页码和所述元素所在页内的坐标信息;

所述特征信息包括:所述字符元素的字符特征以及所述非字符元素的边界信息。

4.根据权利要求3所述的PDF文件信息分析方法,其特征在于,所述根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处,包括:

对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理得到划分区域信息;

根据所述元素的位置信息,将所述划分区域信息插入到所述PDF文件中相应的非字符元素处。

5.根据权利要求4所述的PDF文件信息分析方法,其特征在于,所述非字符元素包括线条元素、色块元素和图像元素;对所述非字符元素的边界进行高亮处理、和/或着色处理、和/或缩放处理,进一步为:

对所述线条元素的边界、所述色块元素的边界和所述图像元素的边界分别以不同的亮度进行高亮处理、和/或以不同的颜色进行着色处理、和/或以不同的比例进行放缩处理。

6.根据权利要求5所述的PDF文件信息分析方法,其特征在于,所述特征信息还包括所述非字符元素的填充信息;所述根据所述元素的位置信息,将所述非字符元素的所述特征信息以划分区域的形式插入到所述非字符元素处,包括:

对所述色块元素的边界进行缩放处理,根据所述填充信息对缩放后的边界进行着色处理,得到所述色块元素的划分区域信息;

根据所述元素的位置信息,将所述色块元素的划分区域信息插入到所述色块元素处。

7.根据权利要求6所述的PDF文件信息分析方法,其特征在于,所述方法还包括:根据预设提取规则,对所述元素进行提取;所述预设提取规则包括:

根据所述位置信息、和/或根据预设的关键字匹配算法、和/或根据所述特征信息提取元素。

8.根据权利要求7所述PDF文件信息分析方法,其特征在于,所述预设提取规则还包括:

综合多个元素的位置信息和/或特征信息,提取元素。

9.根据权利要求1所述的PDF文件信息分析方法,其特征在于,所述将所述特征信息插入到所述PDF文件的相应元素处之前,还包括:

根据所述元素的位置信息和特征信息,判断两个所述元素的类型是否相同且两个所述元素之间的距离是否小于或等于第一距离阈值;

若是,则将两个元素聚合为一个元素。

10.根据权利要求1所述的PDF文件信息分析方法,其特征在于,所述将所述特征信息插入到所述PDF文件的相应元素处之前,还包括:

根据所述特征信息判断两个元素是否相同;

若相同,则根据所述位置信息判断两个所述元素之间的距离是否大于预设的第二距离阈值;

若所述元素之间的距离大于所述第二距离阈值,则分别保留两个所述元素;

若所述元素之间的距离小于或等于所述第二距离阈值,则删除两个所述元素中的一个。

11.一种PDF文件信息分析装置,其特征在于,包括:

解析单元,用于解析待处理的PDF文件,获得若干元素以及所述元素的位置信息和特征信息,所述元素包括字符元素和非字符元素;

插入单元,用于根据所述元素的位置信息,将所述特征信息插入到所述PDF文件的相应元素处。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于善诊(上海)信息技术有限公司,未经善诊(上海)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110352500.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top