[发明专利]一种识别PDF文档中图表的方法在审

专利信息
申请号: 201710209497.1 申请日: 2017-03-31
公开(公告)号: CN107133566A 公开(公告)日: 2017-09-05
发明(设计)人: 常诚;何黎刚;陈浩 申请(专利权)人: 常诚
主分类号: G06K9/00 分类号: G06K9/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖南省长沙*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 识别 pdf 文档 图表 方法
【说明书】:

技术领域

发明属于PDF文件内容处理与分析的技术领域, 本发明涉及一种识别 PDF 文件中的图表的方法。

背景技术

财务报表、技术报告、学术期刊和各种论文等带有大量绘制图表信息的文档,经常采用 PDF 格式保存。PDF内容提取场景,如转换为其他格式(如EPUB、MOBI电子书格式)重新排版时避免图表文字混入正文,或针对图表数据做进一步分析处理,都需要识别图表信息。

造成图表与文字内容无法区分的原因很多,除原始文档特点和排版错误等不可控因素,PDF格式的特殊性是主因。首先,PDF格式标准中并没有“图表”图表的逻辑概念,仅仅根据指令在页面上画出对象,若干绘制对象(如路径)和文字对象组合才构成一副图表,比如坐标轴是由两条直线(路径)垂直组成,表格也是由路径围绕文字组成。其次,文字段落中也经常会出现绘制对象,最典型的就是包含分数线、根号的行内数学公式 。另外,绘制对象经常被用来作为排版元素,比如下划线、分割线等,也会干扰图表识别。综合以上,逻辑上正文与图表的组成元素相同,所以难以直接区别。

现有技术通常分为两类,一种是人工或模板标注,通过指定范围确定处理的边界,人工操作效率低,无法处理大规模的文档,而模板方式灵活性较差。另一种是通过简单提取绘制对象确定,但是会发生很多错误,原因上面已有阐述。一个简单的示例如图1,图文混排的PDF文件结构中包含若干文字和绘图对象,这里仅标注四处(101~104)。简单的对象类型不能作为判断图表的依据,在文字部分可能出现绘图对象如102,而图表部分也会出现文字对象如104。一般来说,出现大量图表的文档,也会在文字部分出现数字、公式等干扰识别。此外,图表区域下方的图注:Figure 1. A sample figure,从内容属性角度无法与之后的文字部分区别,但逻辑上属于图表的一部分,转换时会产生混乱。实际情况中的排版,比如多栏文本、跨栏图表可能会更复杂,因此传统方法经常会造成转换失误,干扰后续处理工作。

发明内容

本发明所要解决的技术问题是提供一种识别 PDF文件中的图表的方法, 能够解析页面上的图表内容并标识其所在位置 。

步骤1:遍历文件数据,记录PDF格式标准中所有文字和绘图 (路径、剪辑、位图)对象的区域信息,表示为该对象位置坐标及宽高参数构成的矩形。

步骤2:计算每个文字对象的字符密度(字符数除以矩形面积),统计所有文字对象的平均字符密度d 和方差v,最小字符宽w和高h。

步骤3:过滤不合规绘图对象,条件包括矩形超出页面内容边界或其他自定条件;如果矩形面积为零,则绘图区域水平和垂直方向各扩大w/2和h/2。

步骤4:遍历绘图对象,如果与其他对象(文字或绘图)矩形相交则合并区域为新绘图对象并记录字符数,直到所有范围不再变化。

步骤5:计算每个绘图对象的字符密度D,如果D值在 区间外,则判定该对象为图表,对应矩形范围即图表所在区域。

本发明的有益效果是: 通过遍历 PDF 文件,提取绘图对象和文本对象分别处理,对前者进行过滤、合并和识别,而后者提供重要参数——平均字符密度。原理是,文字对象所占区域大小与字符数成比例,字符越多所占面积也越大,反之亦然,即文档字符密度在一定范围内浮动,由平均值与方差表示 。相对而言,图表区域由于合并绘图对象,面积变大(或变少)而字符数不变,使得字符密度与文字区域产生差别,由此我们可以做出判断。文字区域掺入绘图对象也类似,合并后大量文字对象能够维持该区域的密度,因而避免排版元素、行内公式等因素引起误判,从而大大提高图表识别的准确率。

在上述技术方案的基础上,本发明还可以做如下扩展,用来识别题注、图注、表注文字:在所述步骤 5之后,还包括步骤 6:读取已识别图表绘图区域正上方或下方的文字,如果发现指定关键字,则确定该文字段落为题注、表注、图注,也属于图表的一部分。关键字视文档类型和语言而定,如“Figure”、“图”、“Table”、“表”等等。

附图说明

图 1 带有图表的PDF文档示意图。

图 2为本发明提出的识别 PDF文件中图表的方法的流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常诚,未经常诚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710209497.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top