[发明专利]一种基于最大区域网格的语义数据存储与检索的方法及装置在审
申请号: | 202010889901.6 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112148830A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 李彭伟;李亚钊;冯燕来;李子;欧阳慈;阚凌志;李文强;陈娜;卢丹;周兆昕 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/36;G06F40/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最大 区域 网格 语义 数据 存储 检索 方法 装置 | ||
本发明实施例公开了一种基于最大区域网格的语义数据存储与检索的方法及装置,涉及数据库技术领域,能够提升基于语义的查询效率。本发明包括:从待处理的语义数据中提取语义实体,并对语义实体进行数据编码,得到语义图;利用所得到的语义图进行最大网格搜索挖掘,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引;对最大区域网格内的实体顶点进行聚类处理,其中,聚类结果中包括:构建簇间关系表、簇描述表和簇中心顶点表;利用所述聚类结果,处理检索请求。本发明适用于语义数据查询。
技术领域
本发明涉及数据库技术领域,尤其涉及一种基于最大区域网格的语义数据存储与检索的方法及装置。
背景技术
在传统的关系型数据库中,存在语义数据存放方面存在字段多、高耦合、关联复杂、冗余度高和查询检索负责等缺点。而知识图谱是一种高效的信息关系组织与管理方法,其具备注重语义表达、机器可理解、关联清晰、冗余度低、查询高效和数据模式可动态变化等优势,易于将结构化、非结构化、半结构化多源异构信息解除孤岛并有机融合在一起,不仅提升了满足实际需要的应用效能,而且还能获得更多的增值能力。其中具体包括了语义理解、智能搜索、关联关系和趋势分析等。而资源描述框架(Resource DescriptionFramework,RDF)是知识图谱的一种典型数据组织形式,RDF主要是将数据的组织关系描述为“实体-关系-实体”的信息三元组,再将自然语言转换计算机可理解和表达的“主体-谓词-客体”描述。
随着知识图谱相关技术发展,目前的RDF方案中的语义数据规模不断扩大,而采用传统方式执行查询往往造成数据整体查询效率严重降低的问题。因此,在过去十年中出现了大量的RDF数据管理系统,如Jena、Hexastore、RDF-3X、gStore、HadoopRDF和Sesame等,这些平台通过构建不同的数据编码方法、信息检索机制以及查询访问接口,各自具备独特的数据存储访问特点和优势。
但随着语义数据在体量上的急剧增加,基于语义的查询效率依旧有待提高。
发明内容
本发明的实施例提供一种基于最大区域网格的语义数据存储与检索的方法及装置,能够提升基于语义的查询效率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供的方法,包括:
步骤一、从待处理的语义数据中提取语义实体,并对语义实体进行数据编码,得到语义图;
步骤二、利用所得到的语义图进行最大网格搜索挖掘,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引;
步骤三、对最大区域网格内的实体顶点进行聚类处理,其中,聚类结果中包括:构建簇间关系表、簇描述表和簇中心顶点表;
步骤四、利用所述聚类结果,处理检索请求。
第二方面,本发明的实施例提供的装置,包括:
预处理模块,用于从待处理的语义数据中提取语义实体,并对语义实体进行数据编码,得到语义图;
索引维护模块,用于利用所得到的语义图进行最大网格搜索挖掘,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引;
聚类模块,用于对最大区域网格内的实体顶点进行聚类处理,其中,聚类结果中包括:构建簇间关系表、簇描述表和簇中心顶点表;
检索处理模块,用于利用所述聚类结果,处理检索请求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010889901.6/2.html,转载请声明来源钻瓜专利网。