[发明专利]一种从PDF格式文件页面中提取图像的方法及系统无效
| 申请号: | 201110243119.8 | 申请日: | 2011-08-23 |
| 公开(公告)号: | CN102306294A | 公开(公告)日: | 2012-01-04 |
| 发明(设计)人: | 晏检平 | 申请(专利权)人: | 深圳市万兴软件有限公司 |
| 主分类号: | G06K9/46 | 分类号: | G06K9/46 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 彭愿洁;李文红 |
| 地址: | 518110 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 pdf 格式文件 页面 提取 图像 方法 系统 | ||
技术领域
本发明涉及文档处理领域,特别是涉及一种从PDF格式文件页面中提取图像的方法及系统。
背景技术
PDF是Portable Document Format(便携文件格式)的缩写,是一种电子文件格式。PDF文件格式以其卓越的特性成为在互联网上进行电子文档发行和格式化信息传播的理想文件格式。当前,在互联网上发布的科技论文大部分以PDF格式提交。但是,PDF格式文件的着重点在于描述文档的打印格式,而没有描述原始文档内的数据结构,并且不易编辑。因此,如果需要将PDF格式文件转换为其它格式的文件,是比较困难的。尤其是PDF格式文件中的图像,是PDF格式文件转换中最难解决的问题。
现有技术中,在将PDF格式文件转换为其它格式的文件时,对于图像的提取主要有两种方式:
一种是将PDF格式文件中的所有图像元素(一幅图片可能由大量的图像元素构成)原封不动的提取出来。该方式提取出的图像元素,往往有成千上万个。由于该方式提取出的是大量的图像元素,同时并没有明确哪些图像元素构成一幅图像。因此,该方式提取出的图像,只能对图像元素进行编辑而无法对图像整体进行编辑。
还有一种是直接将PDF格式文件中的整个页面作为一个图片提取出来。该方式提取出的图像,同样存在不易编辑的问题。
发明内容
本发明的目的是提供一种从PDF格式文件页面中提取图像的方法及系统,能够使得提取出的图像易于编辑,同时具有较高的提取效率。
为实现上述目的,本发明提供了如下方案:
一种从PDF格式文件页面中提取图像的方法,包括:
获取PDF格式文件页面中每个图像元素的位置信息;
根据所述位置信息,将页面中的全部图像元素划分为不同的集合;
将每个集合中的全部图像元素作为整体进行图像提取。
优选的,所述获取PDF格式文件页面中每个图像元素的位置信息包括:
获取PDF格式文件页面中每个图像元素的左上角顶点位置坐标信息,并记录所述坐标信息作为该图像元素的基准点。
优选的,所述根据所述位置信息,将页面中的全部图像元素划分为不同的集合,包括:
对所述图像元素进行水平方向的划分,得到一个或多个行集合;
对所述行集合中的图像元素进行垂直方向的划分,得到行列集合。
优选的,所述对所述图像元素进行水平方向的划分,得到一个或多个行集合,包括:
A、按照图像元素的基准点的纵坐标,对全部图像元素进行排序;
B、按照纵坐标的排序结果,将第一个图像元素划分至第一个行集合;
C、判断下一个图像元素与刚划分的图像元素的纵坐标范围是否相交;
D、如果是,则将所述下一个图像元素划分至所述刚划分的图像元素所在的行集合;否则,将所述下一个图像元素划分至新的行集合,返回步骤C。
优选的,所述对所述行集合中的图像元素进行垂直方向的划分,得到行列集合,包括:
E、对于每个行集合,按照所述图像元素的基准点的横坐标,对行集合中的图像元素进行排序;
F、按照横坐标的排序结果,将行集合中的第一个图像元素划分至第一个列集合;所述列集合为对应于整个页面的行列集合;
G、判断下一个图像元素与刚划分的图像元素在横坐标方向是否相交;
H、如果是,则将所述下一个图像元素划分至所述刚划分的图像元素所在的列集合;否则,将所述下一个图像元素划分至新的列集合,返回步骤G。
优选的,所述将每个行列集合中的全部图像元素作为整体进行图像提取,包括:
获取每个行列集合的外围轮廓;
按照所述外围轮廓,将所述行列集合中的全部图像元素作为一幅图片进行提取。
优选的,所述获取每个行列集合的外围轮廓;按照所述外围轮廓,将所述行列集合中的全部图像元素作为一幅图片进行提取,包括:
获取每个行列集合的外围矩形;
根据该外围矩形对该行列集合中的全部图像元素作为整体进行截图提取。
一种从PDF格式文件页面中提取图像的系统,包括:
位置信息获取模块,用于获取PDF格式文件页面中每个图像元素的位置信息;
集合划分模块,用于根据所述位置信息,将页面中的全部图像元素划分为不同的集合;
提取模块,用于将每个集合中的全部图像元素作为整体进行图像提取。
优选的,所述位置信息获取模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市万兴软件有限公司,未经深圳市万兴软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110243119.8/2.html,转载请声明来源钻瓜专利网。





