[发明专利]一种混合PDF图书目录自动抽取算法无效
申请号: | 201210404052.6 | 申请日: | 2012-10-23 |
公开(公告)号: | CN103778141A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 刘才华;刘杰;黄亚楼;陈佳俊;张啸丰 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种混合PDF图书目录自动抽取方法,涉及信息抽取领域,XML数据的抽取分析任务,目录抽取问题。通过本发明,PDF图书目录不但被更准确的识别,而且相对目前现有的基于目录页内容分析的目录抽取方法,具有处理无目录页图书的目录的能力,而且通过获得的目录项的分析,完成了目录项的定位导航功能,并对目录项进行分级的操作,方便用户更好的理解图书的层级结构,完成了PDF图书的目录抽取建立任务,提升了用户的浏览体验。 | ||
搜索关键词: | 一种 混合 pdf 图书目录 自动 抽取 算法 | ||
【主权项】:
一种混合PDF图书自动目录抽取方法,其包括:针对有目录页图书的基于规则的目录项抽取方法,以及针对无目录页图书借助有目录页图书的基于机器学习的目录想抽取算法,以及完成目录项抽取之后,针对目录项进行的定位目录项任务以及目录项分级整理任务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210404052.6/,转载请声明来源钻瓜专利网。