[发明专利]一种多页面版式文档的版心识别及对齐方法在审
| 申请号: | 201910743323.2 | 申请日: | 2019-08-13 |
| 公开(公告)号: | CN110705224A | 公开(公告)日: | 2020-01-17 |
| 发明(设计)人: | 王磊;徐剑波;张诗玉 | 申请(专利权)人: | 北京众信博雅科技有限公司 |
| 主分类号: | G06F40/169 | 分类号: | G06F40/169 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 对齐 文档 版式文件 多页面 奇偶 矩阵 版式文档 偏移计算 统计数据 中文字 逐页 解析 页面 包围 检查 | ||
本发明涉及一种多页面版式文档的版心识别及对齐方法,包括以下步骤:步骤一:解析版式文件,逐页获取页面中文字内容的包围矩阵;步骤二:根据版心的统计数据,对文档进行划分;步骤三:对文档进行奇偶页检查,进行奇偶页偏移计算;步骤四:最后对整个文档的对齐调整,最终形成一个版心对齐的多页面版式文件。
技术领域
本发明涉及版式文档信息提取领域,尤其涉及一种多页面版式文档的版心识别及对齐方法。
背景技术
版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。常见的版式文档格式有PDF、CEBX、OFD等。版式文档格式定义了多个页面的版面呈现数据、各个页面内部对象(文字、图像、图形等)在版面内的呈现位置、颜色、字体字号等信息,从而使得解析器、阅读器能够逐页按版式来呈现文档内容,便于人的阅读。一个文档中,交叉引用(例如脚注,参考文献,图表)用于标注并进一步解释它们对应的实体。一个交叉引用包括两个部分:引用与实体。例如,对于脚注而言,引用是指正文中通常以上标形式出现的引用,实体是指位于页面底端或者文后的用于进一步解释说明正文对应引用位置的文本。作为交叉引用中的一种,识别脚注对于文档结构理解的核心任务——页面元素类型标注起着重要作用。脚注本身包含的内容信息以及链接对应信息对于文档内容理解也有所帮助。但版式文档中并没有描述这种引用关系,在对版式文档进行结构化时,有必要还原这种引用关系,即需要识别脚注并提取与实体。现有技术中,用于从文档中提取脚注的研究并不多:Anjewierden描述了一个名为AIDAS的文档分析系统,采用一种递增式自底向上抽取文档逻辑结构(包括脚注、图标题等)的方法,但是系统使用的语法依赖于特定文档类型。Marinai等人在进行PDF到 EPUB格式的转换过程中抽取了脚注。他们将字体大小小于主体字一定比例的数字识别为脚注的引用。在这样的假设下,非数字引用无法被正确识别,同时公式上标可能被误识别为脚注的引用。同时,他们将以数字开头且主体字小于文档主体字的段落识别为脚注的实体。但是并非所有类型的脚注的字体大小都小于文档主体字大小,同时该方法可能将有序列表和目录误识别为脚注。专利文献“一种版式文档中脚注识别方法及脚注与脚注引用关联方法(申请号CN102015000342271)”描述了一种基于特征聚类的脚注识别方法,通过特征聚类的方式得到文档中脚注的风格特征,从而不依赖于特定的特征与规则,使得识别过程可以适应不同样式的文档,然后将脚注与脚注引用进行关联。但由于排版风格的多样性,可能存在列表与脚注干扰,导致不能有效聚类使得脚注区域不能正常识别。另外,该发明假设了脚注一定位于页面尾部,现实中有大量的文档的脚注位于整篇文章的尾部,该发明无法处理脚注位于整篇文章尾部的情况。因此,要自动从版式文档中提取脚注,适应不同的排版风格,及脚注区域可能位于页面底部或文章尾部等情况,提高脚注提取的正确率,对于多页面版式文档的版心识别及对齐,是一个从文档整体分析到逐页调整对齐的过程。现有技术中:专利文献“文本版心识别方法、电子设备及计算机存储(申请号CN107169486 A)”描述了一种文本版心识别方法、电子设备及计算机存储介质,仅仅适用于电子书在移动终端的阅读,成果不能作为多页面版式文件的结构化分析的寄出;而且对于多页面版式文件中不同部分有不同的排版方式并不能进行有效处理。因此,对多页版式文档要识别版心,根据版心格式信息,对文档进行划分;在每一个划分内部,如果有奇偶页的排版等现象,进行奇偶页偏移的计算;最后对整个文档的对齐调整;最终形成一个版心对齐的多页版式文件。这是多页面版式文件终端阅读、结构化分析亟待解决的问题。
发明内容
为了解决现有技术存在的问题,为达到以上目的,本发明采用的技术方案是:一种多页面版式文档的版心识别及对齐方法。
本发明采用的技术方案是:一种多页面版式文档的版心识别及对齐方法,其特征是,包括以下步骤:步骤一、解析版式文件,逐页获取页面中文字内容的包围矩阵;步骤二、根据版心的统计数据,对文档进行划分;步骤三、对文档进行奇偶页检查,进行奇偶页偏移计算;步骤四、最后对整个文档的对齐调整;最终形成一个版心对齐的多页版式文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京众信博雅科技有限公司,未经北京众信博雅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743323.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多页面版式文档的脚注识别和提取方法
- 下一篇:一种合同标注方法及装置





