[发明专利]版式电子文档的页眉页脚识别方法及装置在审
申请号: | 201410117009.0 | 申请日: | 2014-03-26 |
公开(公告)号: | CN104951429A | 公开(公告)日: | 2015-09-30 |
发明(设计)人: | 吴运俊 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/20 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 版式 电子 文档 页眉 识别 方法 装置 | ||
技术领域
本申请涉及文档识别技术领域,具体涉及版式电子文档的页眉页脚识别方法及装置。
背景技术
随着手持式终端设备的普及,人们对在手持终端设备上进行阅读的需求越来越多,而作为内容载体,目前电子文档大部分都是从排版工具和排版文件转化过来的以PDF格式为主的版式电子文件,这种文件的页面通常较大,不适合在手持终端上或者在小屏幕设备上阅读。而目前较适合在手持设备上阅读的文件格式是以流式为主的文件格式,如epub(Electronic Publication,电子出版)格式文件。在这种文件格式下,阅读时会打乱文档的页数和布局,阅读器还需要自动过滤掉文档的页眉页脚,让读者能够连续的阅读文档获得更好的阅读体验。而为了实现该过滤页眉页脚的操作,如何自动从版式文档文件中识别出页眉页脚程序需要解决的问题。
目前对于页眉页脚的识别有几种比较常见的方法。如可以利用页面顶部的水平线来发现和识别页眉页脚;另外还有一种方法是根据页面上文字块的布局来发现页眉页脚,例如,若页面顶部和底部各出现一个小块而且中间有一个大块的布局,则认为顶部和底部的块为页眉页脚区域。通过以上这两个方法对文档的页眉页脚进行识别时,对文档的特征值要求非常高,如果文档没有对应的特征值则识别的准确性很难保证。如根据页面顶端的水平线来确定页眉页脚的方法只适合满足这一种特征的文档,根据页面布局识别的方法只能对页眉页脚与正文之间的间距不同,并且只能对页眉页脚出现在文档的上下位置上的文档有用。因此,迫切需要本领域技术人员解决的技术问题就在于,如何更加准确地识别版式电子文档中页眉页脚等内容,以更准确地区分和显示版式电子文档的内容。
发明内容
本申请提供了版式电子文档的页眉页脚识别方法及装置,对于目前文档的覆盖率大大增加,具有很高的识别准确率。
本申请提供了如下方案:
一种版式电子文档的页眉页脚识别方法,包括:
分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;
遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的特征;
根据判断结果确定页眉页脚所在的文本行。
一种版式电子文档的页眉页脚识别方法,包括:
分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本列的文本内容;
遍历各个页内的各个文本列的文本内容,判断各个文本列是否满足页眉页脚的特征;
根据判断结果确定页眉页脚所在的文本列。
一种版式电子文档的页眉页脚识别装置,包括:
文档解析单元,用于分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;
文本行特征判断单元,用于遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的特征;
页眉页脚确定单元,用于根据判断结果确定页眉页脚所在的文本行。
一种版式电子文档的页眉页脚识别装置,包括:
文档解析单元,用于分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本列的文本内容;
文本列特征判断单元,用于遍历各个页内的各个文本列的文本内容,判断各个文本列是否满足页眉页脚的特征;
页眉页脚确定单元,用于根据判断结果确定页眉页脚所在的文本列。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以在显示版式电子文档时,分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的文本特征;根据判断结果确定页眉页脚所在的文本行。利用页眉页脚文本行的文本特征,来对版式电子文档内的页眉页脚进行有效的识别。通过本申请中的方法,可以结合多页内容在某一行上的相似性,和基于这种相似性出来的页面反推识别文档中的某一行是否是页眉页脚内容,这种方法对于页眉页脚的特征值和位置没有单纯的定义,对于目前文档的覆盖率大大增加,具有很高的识别准确率。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410117009.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索方法及装置
- 下一篇:一种实现服务器显示管理的系统及方法