[发明专利]一种PDF文档逻辑图识别的方法有效
申请号: | 201610887631.9 | 申请日: | 2016-10-11 |
公开(公告)号: | CN106446863B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 邹季英;袁仁慧;梁洵 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种PDF文档逻辑图识别的方法,包括:获取页面字符集、路径集和点阵图集;将字符合并成行,建立行集合;检测行内补字图和转曲字,并入相应行;检测并剔除无效路径、底纹路径和底纹图;从行集合中检测疑似图标题;若存在疑似图标题,则用基于图标题的区域生长法识别逻辑图;无图标的区域生长法识别逻辑图;输出页面逻辑图识别结果。本发明集中页面所有元素(字符、路径、点阵图)建立生长池,采用区域并行生长的思想,能在图文混排的复杂版面中准确定位图标题及其对应的逻辑图。 | ||
搜索关键词: | 一种 pdf 文档 逻辑 识别 方法 | ||
【主权项】:
1.一种PDF文档逻辑图识别的方法,其特征在于,所述方法包括:获取页面字符集、路径集和点阵图集;将字符合并成行,建立行集合;检测行内补字图和转曲字,并入相应行;检测并剔除无效路径、底纹路径和底纹图;从行集合中检测疑似图标题;若存在疑似图标题,则用基于图标题的区域生长法识别逻辑图;无图标的区域生长法识别逻辑图;输出页面逻辑图识别结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610887631.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种人脸检测方法及系统
- 下一篇:一种可行道路的检测方法