[发明专利]基于分布式键值库的大规模知识图谱存储方法有效
申请号: | 202110383862.7 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113094449B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王鑫;李思卓 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/27;G06F16/242;G06F16/22 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 吴学颖 |
地址: | 300350 天津市津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 键值 大规模 知识 图谱 存储 方法 | ||
本发明公开了一种基于分布式键值库的大规模知识图谱存储方案,采用“KG over SQL”统一存储方案或“KG over KV”统一存储方案;“KG over SQL”统一存储方案:读取知识图谱数据;提取知识图谱中的元数据,并生成相应SQL语句;提取知识图谱中的数据存储在数据结构中,并生成相应SQL语句;通过CockroachDB数据库对外SQL接口,执行SQL语句,建立关系表;利用CockroachDB数据库中原有的数据编码映射方案将上述关系表中的数据映射为键值对的形式,存储在CockroachDB底层;“KG over KV”统一存储方案:读取知识图谱数据,将知识图谱转化为含有索引节点的图,将索引节点图数据存储在数据结构中,利用优化的数据编码映射方案将数据映射为键值对的形式,存储在CockroachDB底层。本发明能实现兼容RDF图模型和属性图模型的高效数据存储。
技术领域
本发明涉及知识图谱存储方案领域,更具体的说,是涉及一种基于分布式键值库的大规模知识图谱存储方法。
背景技术
知识图谱(Knowledge Graph)已经成为新一代认知型人工智能的基石。随着人工智能的广泛应用,越来越多的领域开始以知识图谱的形式组织发布其领域知识。知识图谱不仅可以描述现实世界中的实体和概念,还可以描述这些实体和概念之间的联系。
目前有两种主流的知识图谱数据模型:RDF图模型和属性图模型。RDF的全称为资源描述框架(Resource Description Framework),是万维网联盟制定的在语义网上表示和交换机器可理解信息的标准数据模型。资源描述框架通过资源、属性、值三个对象类型来描述网络资源的特性以及资源与资源之间的关系。所有可以用RDF来描述的事物都可以被称为资源,例如一个网页、文件、抽象概念或字符串,该术语与RDF语义规范中使用的“实体”同义。属性用于描述资源的特定特征或资源与资源之间的关系。RDF陈述可以采用三元组的形式,其中分别代表语义数据中的主语(subject)、谓语(predicate)和宾语(object),主语表示资源,谓语表示资源属性或者表示主语和宾语之间的一个关系,宾语表示与该资源的属性值或相连资源,即宾语可以是一个字符串或者是一个资源。RDF图是三元组的有限集合。另一种主流的知识图谱数据模型是属性图模型。属性图由一组顶点和有向边组成,每个节点和边都有自己的标签以声明其类型。每个顶点或边还可以另外分配多个表示属性的键值对,因此属性图模型对于顶点属性和边属性具备内置的支持。目前属性图模型已经被图数据库业界广泛采用。
现阶段,由各个领域的学者建立或从大型文本语料库中提取的可用知识已经达到了空前的规模。链接开放数据于2018年8月发布的LOD云图中很多知识图谱数据集的规模超过10亿个三元组。例如,地理信息知识图谱LinkedGeoData含有30亿个三元组,维基百科知识图谱DBpedia含有130亿个三元组等等。与此同时,业界涌现出一批图数据库,包括Neo4j、TigerGraph、OrientDB等,用于大规模属性图数据的管理。知识图谱数据规模的急剧增长,使得集中式的数据存储已经不能满足当前需求。适用于大规模知识图谱的分布式存储方案已经成为一个迫切需要深入研究的课题。
目前,国内外已经提出了多种分布式存储方案。H2RDF是一个分布式RDF存储系统,它基于HBase和Hadoop框架构建多重索引。H2RDF在HBase存储上创建三个RDF索引,包括SPO、POS和OSP。H2RDF+在H2RDF原有框架的基础下实现六重索引架构,从而支持对关联索引进行一次索引扫描就能有效地处理所有SPARQL查询。
除此之外,涌现了基于Spark项目的分布式知识图谱数据管理系统,S2RDF(SPARQLon Spark for RDF)引入了一种名为ExtVP的基于关系划分的方案用于存储RDF数据,这种存储方案实际上是在垂直划分(Vertical Partitioning)的存储方案上进行扩展,通过考虑RDF数据的基础编码表与连接索引之间可能存在的连接相关性,使用基于半连接的预处理有效地最小化查询输入大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110383862.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向三维交互输入的智能指环及其交互方法
- 下一篇:一种新型人工关节假体