[发明专利]基于领域知识模版的表格结构化提取方法在审
申请号: | 201810289621.4 | 申请日: | 2018-04-03 |
公开(公告)号: | CN110347982A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 王博远;陈前力;淡强强;吴雪军 | 申请(专利权)人: | 鼎复数据科技(北京)有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/27 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 范国锋;刘冬梅 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域知识 目标表格 模版 表格结构 可视化编辑 表格信息 表格形式 表述形式 快速识别 实时调整 依次读取 抽取 关联 期望 | ||
1.一种基于领域知识模版的表格结构化提取方法,其特征在于,该方法包括:
步骤1,编辑领域知识模板,在所述领域知识模版中设置有目标表格;
步骤2,识别文档中各个待处理表格的种类,并分别调取用于处理各个待处理表格的领域知识模板;
步骤3,调整/转换待处理表格的结构,使之与目标表格的结构相匹配;
步骤4,根据目标表格归一化待处理表格中的数据。
2.根据权利要求1所述的基于领域知识模版的表格结构化提取方法,其特征在于,
步骤1中,编辑多个领域知识模板,所述多个领域知识模板分别用于处理多种类型的数据表格;
在各个领域知识模板中都分别记载有识别标志信息,用以在多种待处理表格中定位到该模版所针对/处理的特定待处理表格。
3.根据权利要求1所述的基于领域知识模版的表格结构化提取方法,其特征在于,
在所述步骤1的领域知识模板中,所述目标表格的结构可编辑,
目标表格中包括表头、指标项和数据项;
优选地,所述指标项和数据项都具有层次结构。
4.根据权利要求1所述的基于领域知识模版的表格结构化提取方法,其特征在于,
领域知识模板中还存储有可编辑的词典,该词典中记载有目标表格中各个表头的同义词和指标项的同义词。
5.根据权利要求2所述的基于领域知识模版的表格结构化提取方法,其特征在于,
所述领域知识模板中的识别标志信息包括关键字/关键词;
步骤2中,识别文档中各个待处理表格的种类,包括:读取待处理表格的目录、标题、附注,从中找到代表该表格内容的关键字/关键词,
通过待处理表格的关键字/关键词与领域知识模板中识别标志信息之间的匹配程度,选择用于处理待处理表格的领域知识模板。
6.根据权利要求1所述的基于领域知识模版的表格结构化提取方法,其特征在于,
在步骤2中,将由多个子表格合并而成的复合表格切分为多个子表格。
7.根据权利要求1所述的基于领域知识模版的表格结构化提取方法,其特征在于,
在步骤3中,调整/转换待处理表格的结构,包括
子步骤1,对待处理表格中合并单元格、结构性单元格和内嵌表格做拉平、转换或展开处理,进而将待处理表格调整为标准的n*m结构;
子步骤2,调整待处理表格中各个列的前后顺序,使得待处理表格中各个列的前后顺序与目标表格中各个列的前后顺序一致;
子步骤3,调整待处理表格中各个行的上下顺序,使得待处理表格中各个行的上下顺序与目标表格中各个行的上下顺序一致。
8.根据权利要求7所述的基于领域知识模版的表格结构化提取方法,其特征在于,
子步骤2中,通过比较表头和指标项内容,来判断待处理表格中的列和目标表格中的列是否一致。
9.根据权利要求7所述的基于领域知识模版的表格结构化提取方法,其特征在于,
子步骤3中,通过比较指标项及其同义词,来判断待处理表格中的行和目标表格中的行是否一致。
10.根据权利要求4所述的基于领域知识模版的表格结构化提取方法,其特征在于,
在步骤4中,根据目标表格归一化待处理表格中的数据,包括,
子步骤a,根据目标表格和词典,将待处理表格中指标项名称改写为标准名称,
子步骤b,将待处理表格中的数值改为标准格式,并调整为统一标准单位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎复数据科技(北京)有限公司,未经鼎复数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810289621.4/1.html,转载请声明来源钻瓜专利网。