[发明专利]基于领域知识模版的表格结构化提取方法在审
申请号: | 201810289621.4 | 申请日: | 2018-04-03 |
公开(公告)号: | CN110347982A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 王博远;陈前力;淡强强;吴雪军 | 申请(专利权)人: | 鼎复数据科技(北京)有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/27 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 范国锋;刘冬梅 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域知识 目标表格 模版 表格结构 可视化编辑 表格信息 表格形式 表述形式 快速识别 实时调整 依次读取 抽取 关联 期望 | ||
本发明公开了一种基于领域知识模版的表格结构化提取方法,该方法中通过编辑多个领域知识模板,分别用以处理不同类型的待处理表格,在所述领域知识模版中设置有目标表格,即期望抽取处理得到的表格形式;该方法中依次读取待处理表格信息,具体确定处理每个表格所用的领域知识模板;在领域知识模板中还记载有与目标表格相关联的词典,以使得能够快速识别出待处理表格不同表述形式的内容,使之与目标表格相对应;特别地,该领域知识模板是可以可视化编辑,操作者能够实时调整其中的目标表格结构和词典,逐步完善领域知识模板,逐步提高该方法的适应性和准确性。
技术领域
本发明涉及表格结构化提取方法,具体涉及一种基于领域知识模版的表格结构化提取方法。
背景技术
在现代金融领域数据分析中,表格类型数据处理是一个频繁且繁重的工作。表格数据可以来源自Web网页、PDF、Doc、Excel等文件,涵盖了公司财务数据、行业数据、宏观数据等多个大领域及其下更多小领域的非结构化信息。表格通常以二维表的形式在其承载媒介中体现,在得到原始结构表格以后,数据分析者通常需要将其转换为标准结构化数据,用以支持规范存储、查询、计算、各个维度数据对比等进一步工作。
在这个过程中有3个主要问题导致数据分析者需要花费很大精力进行数据整理:1、表格二维结构不规范,经常会存在单元格跨行、跨列合并和多表合并等情况;2、表格结构的多样性,同一种数据在不同表格中有不同的表现形式,具体可以体现为在结构、顺序、字段等方面存在差异;3、表格中的数据不能完全满足结构化需求,其他存在于标题目录、上下文、单位说明等内容中的信息也需要进行抽取整合。这些问题给数据分析者带来了很大的困难,导致表格数据结构化成为一个迫切需要研究并给出高效解决方案的热点问题。
目前业内的表格数据结构化方法并不常见,基本上都是针对特定领域甚至特定一类数据的定向抽取工具,不同类型数据抽取方案存在很大不同,通用性和可扩展能力较差。在抽取效率方面,特定数据的抽取方法一般运行速度较快,但是对每个数据形式定制抽取方案的时间和人力成本都比较高,不能满足多领域、多类型研究的大规模数据抽取需求;
由于上述原因,本发明人对现有的表格数据结构化方法做了深入研究,设计出一种能够解决上述问题的基于领域知识模版的表格结构化提取方法。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种基于领域知识模版的表格结构化提取方法,该方法中通过编辑多个领域知识模板,分别用以处理不同类型的待处理表格,在所述领域知识模版中设置有目标表格,即期望抽取处理得到的表格形式;该方法中依次读取待处理表格信息,具体确定处理每个表格所用的领域知识模板;在领域知识模板中还记载有与目标表格相关联的词典,以使得能够快速识别出待处理表格不同表述形式的内容,使之与目标表格相对应;特别地,该领域知识模板是可以可视化编辑,操作者能够实时调整其中的目标表格结构和词典,逐步完善领域知识模板,逐步提高该方法的适应性和准确性,从而完成本发明。
具体来说,本发明的目的在于提供基于领域知识模版的表格结构化提取方法,该方法包括:
步骤1,编辑领域知识模板,在所述领域知识模版中设置有目标表格;
步骤2,识别文档中各个待处理表格的种类,并分别调取用于处理各个待处理表格的领域知识模板;
步骤3,调整/转换待处理表格的结构,使之与目标表格的结构相匹配;
步骤4,根据目标表格归一化待处理表格中的数据。
其中,步骤1中,编辑多个领域知识模板,所述多个领域知识模板分别用于处理多种类型的数据表格;
在各个领域知识模板中都分别记载有识别标志信息,用以在多种待处理表格中定位到该模版所针对/处理的特定待处理表格。
其中,在所述步骤1的领域知识模板中,所述目标表格的结构可编辑,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎复数据科技(北京)有限公司,未经鼎复数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810289621.4/2.html,转载请声明来源钻瓜专利网。