[发明专利]基于知识图谱的数据处理方法、装置、电子设备和介质有效

申请号：	202110831497.1	申请日：	2021-07-22
公开（公告）号：	CN113656592B	公开（公告）日：	2022-09-27
发明（设计）人：	顾楠希	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/36	分类号：	G06F16/36;G06F40/284
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张梦瑶
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于知识图谱数据处理方法装置电子设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了基于知识图谱的数据处理方法、装置、电子设备和介质，涉及计算机技术领域，尤其涉及自然语言处理、知识图谱等人工智能领域。方案为：获取待处理表格及对应的表名；对表格进行识别，以获取表格中每个单元格内容；根据每个单元格内容与预设表格词库中分词之间的匹配度，确定每个单元格内容对应的行属性和列属性；根据表名、每个单元格内容对应的行属性和列属性，确定表格对应的四元组列表。由此，用四元组概括表格的布局信息，保留表格的行列关系，使表格上下文信息更加完整。

技术领域

本申请涉及计算机技术领域，尤其涉及自然语言处理、知识图谱等人工智能领域，具体涉及基于知识图谱的数据处理方法、装置、电子设备和存储介质。

背景技术

文档中包含的复杂表格的信息抽取和挖掘是信息检索领域中的常见的难题。基于文档的实体抽取、文档分类、知识生产、检索、推荐、问答等通常依赖于多源文档信息的抽取，而表格作为文档中一种常见的数据归纳格式，行列合并关系多样，且内容和样式互相绑定，单纯抽取表格值域，会丢失布局信息，影响非结构化内容理解的准确性。

因此，如何提高表格抽取内容的完整性是亟待解决的问题。

发明内容

本申请提供了一种基于知识图谱的数据处理方法、装置、电子设备和存储介质。

根据本申请的一方面，提供了一种基于知识图谱的数据处理方法，包括：

获取待处理表格及对应的表名；

对所述表格进行识别，以获取所述表格中每个单元格内容；

根据每个所述单元格内容与预设表格词库中分词之间的匹配度，确定每个所述单元格内容对应的行属性和列属性；

根据所述表名、每个所述单元格内容对应的行属性和列属性，确定所述表格对应的四元组列表，其中，所述四元组列表中每个四元组包括所述表名、行属性、列属性及对应的属性值。