[发明专利]基于领域知识模版的表格结构化提取方法在审
申请号: | 201810289621.4 | 申请日: | 2018-04-03 |
公开(公告)号: | CN110347982A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 王博远;陈前力;淡强强;吴雪军 | 申请(专利权)人: | 鼎复数据科技(北京)有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/27 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 范国锋;刘冬梅 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于领域知识模版的表格结构化提取方法,该方法中通过编辑多个领域知识模板,分别用以处理不同类型的待处理表格,在所述领域知识模版中设置有目标表格,即期望抽取处理得到的表格形式;该方法中依次读取待处理表格信息,具体确定处理每个表格所用的领域知识模板;在领域知识模板中还记载有与目标表格相关联的词典,以使得能够快速识别出待处理表格不同表述形式的内容,使之与目标表格相对应;特别地,该领域知识模板是可以可视化编辑,操作者能够实时调整其中的目标表格结构和词典,逐步完善领域知识模板,逐步提高该方法的适应性和准确性。 | ||
搜索关键词: | 领域知识 目标表格 模版 表格结构 可视化编辑 表格信息 表格形式 表述形式 快速识别 实时调整 依次读取 抽取 关联 期望 | ||
【主权项】:
1.一种基于领域知识模版的表格结构化提取方法,其特征在于,该方法包括:步骤1,编辑领域知识模板,在所述领域知识模版中设置有目标表格;步骤2,识别文档中各个待处理表格的种类,并分别调取用于处理各个待处理表格的领域知识模板;步骤3,调整/转换待处理表格的结构,使之与目标表格的结构相匹配;步骤4,根据目标表格归一化待处理表格中的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎复数据科技(北京)有限公司,未经鼎复数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810289621.4/,转载请声明来源钻瓜专利网。