[发明专利]一种版式文档中的含线表格信息提取方法在审
| 申请号: | 201910743582.5 | 申请日: | 2019-08-13 |
| 公开(公告)号: | CN110688825A | 公开(公告)日: | 2020-01-14 |
| 发明(设计)人: | 张诗玉;徐剑波;王磊 | 申请(专利权)人: | 北京众信博雅科技有限公司 |
| 主分类号: | G06F40/177 | 分类号: | G06F40/177;G06F40/18 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 版式文档 直线信息 拼接 页面 解析 组织结构分析 表格单元格 单元格内容 版式文件 表格信息 页面信息 不规则 表格线 文字块 逐页 字块 排版 虚拟 合并 转换 中文 | ||
1.一种版式文档中的含线表格信息提取方法,包括以下步骤:步骤一、解析版式文档,逐页获取页面信息及页面中文字块和直线信息;步骤二、对各页的直线进行合并;步骤三、连续页拼接,将所有页面拼接,最终整个版式文件获得一个虚拟页;步骤四、提取表格所在位置和表格中直线信息;步骤五、结合文字块和表格线提取表格中各单元格内容和位置信息;步骤六、表格单元格的组织结构分析。
2.根据权利要求1所述一种版式文档中的含线表格信息提取方法,其特征是;所述步骤二的具体步骤如下:对水平直线按垂直高度排序,竖直直线按水平方向排序;以水平直线的合并为例,根据两条相邻水平直线的垂直位置和水平距离判断是否处于同一直线,若两者纵轴位置之差和水平距离均小于给定的允许误差范围,则合并该两端线段;经过上述合并,得到新的line_objs集合。
3.根据权利要求1所述一种版式文档中的含线表格信息提取方法,其特征是;所述步骤四的具体步骤如下:定位表格可能的所在位置,具体步骤如下:对合并的虚拟页中采用各页内部的直线合并相同的策略进行直线合并,对文章中水平直线和竖直直线分别按从上到下从左到右的顺序排序,查找各表格所在区域,遍历页面内水平直线,寻找与其共顶点的左边垂直线left_line和右边垂直线right_line,若查找到,在水平直线集合中查找与left_line和right_line均共顶点的直线,若查找到满足条件的直线,则根据4条直线位置确定表格所在矩形区域;其次,将获得的表格边界线所构成的矩形区域内的所有直线都提取出来,若可取到包围表格线内存在直线,则获得表格的边界直线,和所有内部分割线,该直线的集合记为table_line_objs;否则认为第一步获得的表格边界线并不构成一个表格。
4.根据权利要求1所述一种版式文档中的含线表格信息提取方法,其特征是;步骤五的具体步骤如下:提取所有与表格所在矩形区域存在重叠的文字块,记为table_text_objs,以聚类的思路获得各文字块组成的表格单元格。
5.根据权利要求1所述一种版式文档中的含线表格信息提取方法,其特征是;所述步骤六的具体步骤如下:从上到下查找表格内部首个非表格外包围直线的水平贯穿直线,获得其上方的所有表格单元格;对上一步获得的表格单元格,从左到右依次搜索贯穿该区域的垂直切分线,若不存在则当前当前行仅一个cell,记录为首行结点;若存在垂直切分线,对垂直切分线切分得到的非首个区域重复如上步骤,若每个块均不存在横向切分线则记录当前行结构;每个横向贯穿水平线切分的行解析的结果进行列对齐;若输出的表格结构为标准的m×n表格,直接以标准表格结构输出;若存在一列对多行的结构,则首列单独输出,其对应的多行表格以标准表格结构输出。
6.根据权利要求4所述一种版式文档中的含线表格信息提取方法,其特征是,以聚类的思路获得各文字块组成的表格单元格的步骤;依次遍历表格中的文字块,首个文字块首先构成一个单元格,记为cell0,其后的每个文字块,对当前已构成的所有单元格cell0,cell1,……,celln-1,查找是否存在一个单元格中的文字块与当前文字块之间不存在表格线切分,若存在k使得cellk中的文字块与当前文字块之间无表格线切分,则将当前块加入cellk中,否则,当前文字块构成新的单元格cell,依次遍历表格中的文字块,首个文字块首先构成一个单元格,记为cell0,对每个cell,查找其上下左右四个方向最近的表格直线,以此确定每个cell的包围矩形。
7.根据权利要求6所述一种版式文档中的含线表格信息提取方法,其特征是,查找最近的表格直线步骤如下:对表格中的水平直线包含顶端和底端的表格线从上到下排序,依次遍历,对首个在当前cell文字块下方且和当前的文字块有水平位置重叠的直线记录为当前表格cell的下方包围直线,上一和当前的文字块有水平位置重叠的直线记为当前表格cell的上方包围直线;对包含表格边界线的所有垂直直线从左到右排序,依次遍历,对首个在当前cell文字块右方且和当前文字块有垂直重叠的直线记录为当前表格cell的右端包围直线,上一和当前文字块有垂直位置重叠的直线记为当前表格cell的左端包围直线,为了提高查找效率,边界线的集合可以取查找块分割直线时查找到的所有分割直线加上整个表格的外边界线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京众信博雅科技有限公司,未经北京众信博雅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743582.5/1.html,转载请声明来源钻瓜专利网。





