[发明专利]表格语义化解析系统技术在审
申请号: | 201910587279.0 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110321530A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 徐茂龙;杨鸿健;程晨 | 申请(专利权)人: | 南京智录信息科技有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/24 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格数据 标题信息 层次关系 方便检索 获取数据 解析系统 数据语义 语义化 文档 分解 | ||
本发明涉及到表格数据提取的相关技术,涉及到文档的表格相关数据语义化提取的处理方法。主要是解决表格数据的层次关系较为复杂,无法正确分解提取表格数据的问题。所要达到的技术目的是:将表格数据分为标题和数据,获取数据的全部标题信息,也就是获取到了这个数据的具体含义,以方便检索数据用。
技术领域
本发明涉及到文档的表格相关数据语义化提取的处理方法。
背景技术
由于很多学术论文以及公告文件等都是用PDF或者WORD格式存储或者直接使用网页传播。但是对于这部分文档里的表格数据,目前只有表格是无法快速处理数据的,需要提炼表格数据,以方便快速检索。
由于表格数据的层次关系较为复杂,如何将多个矩阵类型的表格提取出成一个个独立的数据目前并没有一个通用的方案。以及表格外部的相关数据也并没有与表格关联。
发明内容
本申请针对表格内外部数据做进一步的处理划分的方法,以更有效率的提取表格相关数据,以方便更多的应用。
首先对于表格前的文本内容进行分析,找到表格前的附注内容,包括以下内容
找出表格前的居中(包含连续的)和居右的文本
如果没有居中文本则找出表格前的以冒号结尾的自然段落
如果没有冒号结尾的自然段落或者居中文本,那么找到离表格最近的非居中和非居右的文本段落
然后针对表格内的数据进行分类:表格列标题,表格行标题,表格分块行,表格内容。
然后针对同一列的列标题进行融合,得到这一列的列标题,然后将这些列标题分配给这一列的具体的数据。
对于行标题也做相似的处理。将纵向区域有重合的单元格的列标题名称进行融合,将融合后的行标题名称分配给这一行的其他表格内容。
具体实施方法
有一个表格如图1所示
然后根据以下条件去判定:
表格前附注:表格前的居中(包含连续的)和居右的文本,表格前的以冒号结尾的自然段落,离表格最近的非居中和非居右的文本段落,优先级逐渐降低。
表格列标题:表格每一列的具体数据名称
表格行标题:在没有列标题情况下,表格可能是横向的数据结构关系,一般左侧的为行标题,即行标题是这一行剩余的单元格的数据名称
表格分块行:表格内一个单元格占据一行的数据
表格内容:表格内其他正常数据
结果如图2所示
然后针对同一列的列标题进行融合,得到这一列的列标题,然后将这些列标题分配给这一列的具体的数据,如图3。这里的同一列的定义是:列标题在横向的范围与此列有相交且这些列标题是连续的。
对于行标题也做相似的处理。将纵向区域有重合的单元格的列标题名称进行融合,将融合后的行标题名称分配给这一行的其他表格内容。
如果表格内存在表格分块行,那么表格分块行的内容也加入到列标题或者行标题前,
但是分块行不切断表格的列标题。分块行之后的数据可以继续继承之前的行标题,如图4。
附图说明
图1是一个正常的含有多层结构的表格,以及表格前的文字内容。
图2是划分完表格前附注,表格分块行,表格列标题,表格内容的结果。
图3是以某一列举例,这一列的列标题的具体情况。
图4是以某一行的数据距离,这一行的数据语义化后的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京智录信息科技有限公司,未经南京智录信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910587279.0/2.html,转载请声明来源钻瓜专利网。