[发明专利]一种版式文档中的含线表格信息提取方法在审
| 申请号: | 201910743582.5 | 申请日: | 2019-08-13 |
| 公开(公告)号: | CN110688825A | 公开(公告)日: | 2020-01-14 |
| 发明(设计)人: | 张诗玉;徐剑波;王磊 | 申请(专利权)人: | 北京众信博雅科技有限公司 |
| 主分类号: | G06F40/177 | 分类号: | G06F40/177;G06F40/18 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 版式文档 直线信息 拼接 页面 解析 组织结构分析 表格单元格 单元格内容 版式文件 表格信息 页面信息 不规则 表格线 文字块 逐页 字块 排版 虚拟 合并 转换 中文 | ||
本发明涉及本发明涉及一种版式文档中的含线表格信息提取方法,包括以下步骤:步骤一、解析版式文档,逐页获取页面信息及页面中文字块和直线信息;步骤二、对各页的直线进行合并;步骤三、连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页;步骤四、提取表格所在位置和表格中直线信息;步骤五、结合文字块和表格线提取表格中各单元格内容和位置信息;步骤六、表格单元格的组织结构分析,本发明能有效提高表格的识别效果,尤其是不规则表格,减少了版式文档排版识别、转换的困难,有助于提高版式文档解析的效率和效果。
技术领域
本发明涉及版式文档信息提取领域,尤其涉及一种版式文档中的含线表格信息提取方法。
背景技术
版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。常见的版式文档格式有PDF、OFD、CEBX等。版式文档中存储的是非结构化的数据,没有记录文档的逻辑结构,没有段落、大纲、表格等元素,不利于信息再利用。为了版式文档进行分析理解,表格的提取和解析对版式文档的是重要的。但是版式文档中并不存在表格结构,它是分别以文字块和直线、矩形等对象显示的,由于其互相之间不存在逻辑关系,当包含表格的版式文档转换为其他类型文档时,其排版、编辑效果都很差。
对于多页面版式文档的表格信息识别,现有技术中:
专利文献“一种文档转换中的表格处理方法及装置(申请号CN101866335 A)”描述了一种根据表格线段划分表格逻辑单元区域的提取表格结构信息的方法,但是基于线段划分查找逻辑单元区域的计算代价较高,且并未处理不同逻辑单元区域之间的位置关系。
专利文献“一种识别文档中数据表格的方法及装置”(申请号CN101976232 A)描述的方法仅基于版式文档中的文字块信息,未使用文档中的直线对象,由于使用信息不充分,对于较为复杂的表格结构,识别效果会受到较大限制。
专利文献“基于PDF文件的表格提取方法和装置”(申请号CN105988979A),更侧重单元格的组织,且需依赖表格内的文字内容构建关键词属性表,对于新领域未建立词表的文件处理效果会受限。
已有的专利文献中,表格的提取都仅以忠实地提取原表格结构为目标,所以主要以表格的直线为出发点提取,对表格内容的组织和便于理解方面,仍有欠缺。
发明内容
为了解决现有技术存在的问题,为达到以上目的,本发明提供一种版式文档中的含线表格信息提取方法。
本发明采用的技术方案是:本发明采用的技术方案是:一种版式文档中的含线表格信息提取方法,包括以下步骤:步骤一、解析版式文档,逐页获取页面信息及页面中文字块和直线信息;步骤二、对各页的直线进行合并;步骤三、连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页;步骤四、提取表格所在位置和表格中直线信息;步骤五、结合文字块和表格线提取表格中各单元格内容和位置信息;步骤六、表格单元格的组织结构分析。
优选步骤二的具体步骤如下:对水平直线按垂直高度排序,竖直直线按水平方向排序;以水平直线的合并为例,根据两条相邻水平直线的垂直位置和水平距离判断是否处于同一直线,若两者纵轴位置之差和水平距离均小于给定的允许误差范围,则合并该两端线段;经过上述合并,得到新的line_objs集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京众信博雅科技有限公司,未经北京众信博雅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743582.5/2.html,转载请声明来源钻瓜专利网。





