[发明专利]一种识别PDF文档中图表的方法在审
申请号: | 201710209497.1 | 申请日: | 2017-03-31 |
公开(公告)号: | CN107133566A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 常诚;何黎刚;陈浩 | 申请(专利权)人: | 常诚 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 pdf 文档 图表 方法 | ||
技术领域
本发明属于PDF文件内容处理与分析的技术领域, 本发明涉及一种识别 PDF 文件中的图表的方法。
背景技术
财务报表、技术报告、学术期刊和各种论文等带有大量绘制图表信息的文档,经常采用 PDF 格式保存。PDF内容提取场景,如转换为其他格式(如EPUB、MOBI电子书格式)重新排版时避免图表文字混入正文,或针对图表数据做进一步分析处理,都需要识别图表信息。
造成图表与文字内容无法区分的原因很多,除原始文档特点和排版错误等不可控因素,PDF格式的特殊性是主因。首先,PDF格式标准中并没有“图表”图表的逻辑概念,仅仅根据指令在页面上画出对象,若干绘制对象(如路径)和文字对象组合才构成一副图表,比如坐标轴是由两条直线(路径)垂直组成,表格也是由路径围绕文字组成。其次,文字段落中也经常会出现绘制对象,最典型的就是包含分数线、根号的行内数学公式 。另外,绘制对象经常被用来作为排版元素,比如下划线、分割线等,也会干扰图表识别。综合以上,逻辑上正文与图表的组成元素相同,所以难以直接区别。
现有技术通常分为两类,一种是人工或模板标注,通过指定范围确定处理的边界,人工操作效率低,无法处理大规模的文档,而模板方式灵活性较差。另一种是通过简单提取绘制对象确定,但是会发生很多错误,原因上面已有阐述。一个简单的示例如图1,图文混排的PDF文件结构中包含若干文字和绘图对象,这里仅标注四处(101~104)。简单的对象类型不能作为判断图表的依据,在文字部分可能出现绘图对象如102,而图表部分也会出现文字对象如104。一般来说,出现大量图表的文档,也会在文字部分出现数字、公式等干扰识别。此外,图表区域下方的图注:Figure 1. A sample figure,从内容属性角度无法与之后的文字部分区别,但逻辑上属于图表的一部分,转换时会产生混乱。实际情况中的排版,比如多栏文本、跨栏图表可能会更复杂,因此传统方法经常会造成转换失误,干扰后续处理工作。
发明内容
本发明所要解决的技术问题是提供一种识别 PDF文件中的图表的方法, 能够解析页面上的图表内容并标识其所在位置 。
步骤1:遍历文件数据,记录PDF格式标准中所有文字和绘图 (路径、剪辑、位图)对象的区域信息,表示为该对象位置坐标及宽高参数构成的矩形。
步骤2:计算每个文字对象的字符密度(字符数除以矩形面积),统计所有文字对象的平均字符密度d 和方差v,最小字符宽w和高h。
步骤3:过滤不合规绘图对象,条件包括矩形超出页面内容边界或其他自定条件;如果矩形面积为零,则绘图区域水平和垂直方向各扩大w/2和h/2。
步骤4:遍历绘图对象,如果与其他对象(文字或绘图)矩形相交则合并区域为新绘图对象并记录字符数,直到所有范围不再变化。
步骤5:计算每个绘图对象的字符密度D,如果D值在 区间外,则判定该对象为图表,对应矩形范围即图表所在区域。
本发明的有益效果是: 通过遍历 PDF 文件,提取绘图对象和文本对象分别处理,对前者进行过滤、合并和识别,而后者提供重要参数——平均字符密度。原理是,文字对象所占区域大小与字符数成比例,字符越多所占面积也越大,反之亦然,即文档字符密度在一定范围内浮动,由平均值与方差表示 。相对而言,图表区域由于合并绘图对象,面积变大(或变少)而字符数不变,使得字符密度与文字区域产生差别,由此我们可以做出判断。文字区域掺入绘图对象也类似,合并后大量文字对象能够维持该区域的密度,因而避免排版元素、行内公式等因素引起误判,从而大大提高图表识别的准确率。
在上述技术方案的基础上,本发明还可以做如下扩展,用来识别题注、图注、表注文字:在所述步骤 5之后,还包括步骤 6:读取已识别图表绘图区域正上方或下方的文字,如果发现指定关键字,则确定该文字段落为题注、表注、图注,也属于图表的一部分。关键字视文档类型和语言而定,如“Figure”、“图”、“Table”、“表”等等。
附图说明
图 1 带有图表的PDF文档示意图。
图 2为本发明提出的识别 PDF文件中图表的方法的流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常诚,未经常诚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710209497.1/2.html,转载请声明来源钻瓜专利网。