[发明专利]一种知识抽取方法及装置有效
申请号: | 201910585762.5 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110275966B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 李直旭;宋晓兆;陈志刚 | 申请(专利权)人: | 科大讯飞(苏州)科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张小娜 |
地址: | 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 抽取 方法 装置 | ||
本申请公开了一种知识抽取方法及装置,在获取第一表格集合后,对该第一表格集合进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格,并基于该各个第一目标表格的表格布局特征,从各个第一目标表格中抽取能够用于补全目标知识图谱的知识信息,以便利用知识信息自动补全目标知识图谱,如此实现知识图谱的自动补全。其中,由于自动补全过程中无需人工参与,因而,降低人工成本开销,减少人力资源的浪费。另外,由于表格布局特征能够影响知识信息的抽取效果,因而,当基于各个半结构化的第一目标表格的表格布局特征对各个第一目标表格中知识信息进行抽取时,能够较快地抽取到知识信息,提高了知识信息的抽取效果。
技术领域
本申请涉及计算机技术领域,尤其涉及一种知识抽取方法及装置。
背景技术
目前,由于知识的不断更新,需要在原有知识图谱的基础上,利用新知识对原有知识图谱进行知识补全。
一种补全方法是采用众包的方法抽取三元组以补全知识图谱,但这种方式会浪费大量的人力,人工成本开销较大;另一种补全方法是智能的从非结构化文本中抽取三元组以补全知识图谱,但处理非结构化文本的难度大、精度低,使得三元组抽取结果不够理想,知识抽取效果较差。
发明内容
本申请实施例的主要目的在于提供一种知识抽取方法及装置,能够提升知识抽取效果。
本申请实施例提供了一种知识抽取方法,包括:
获取第一表格集合,所述第一表格集合中的每一表格为带有知识的表格;
对所述第一表格集合中的表格进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格;
基于所述各个第一目标表格的表格布局特征,从所述各个第一目标表格中抽取知识信息,所述知识信息用于补全目标知识图谱。
本申请实施例还提供了一种知识抽取装置,包括:
获取单元,用于获取第一表格集合,所述第一表格集合中的每一表格为带有知识的表格;
识别单元,用于对所述第一表格集合中的表格进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格;
抽取单元,用于基于所述各个第一目标表格的表格布局特征,从所述各个第一目标表格中抽取知识信息,所述知识信息用于补全目标知识图谱。
本申请实施例还提供了一种知识抽取设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述提供的知识抽取方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利上述提供的知识抽取方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述提供的知识抽取方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞(苏州)科技有限公司,未经科大讯飞(苏州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910585762.5/2.html,转载请声明来源钻瓜专利网。