[发明专利]基于分布式键值库的大规模知识图谱存储方法有效
申请号: | 202110383862.7 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113094449B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王鑫;李思卓 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/27;G06F16/242;G06F16/22 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 吴学颖 |
地址: | 300350 天津市津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 键值 大规模 知识 图谱 存储 方法 | ||
1.一种基于分布式键值库的大规模知识图谱存储方法,其特征在于,采用“KG overKV”统一存储方案,具体过程:读取知识图谱数据,将知识图谱转化为含有索引节点的图,将索引节点图数据存储在数据结构中,利用优化的数据编码映射方案将数据映射为键值对的形式,存储在CockroachDB底层;
其中,所述知识图谱为RDF图或属性图,将其转化为含有索引节点的图,图中有三种节点,分别为字面量节点、索引节点和普通节点,所述字面量节点用于存储RDF图中的字面量信息或属性图中的属性值,所述索引节点包括关系索引节点和类型索引节点,其余均为普通节点;其中,关系索引节点用于维护知识图谱中实体与实体的某种特定关系或实体与属性值的某种特定关系,类型索引节点用于维护知识图谱中实体与类型的特定关系;
其中,所述优化的数据编码映射方案具体为:
1)对所有普通节点进行编码,存储在vid列表中,注意vid列表中的编号0被预留给索引节点;
2)对所有索引节点进行编码,存储在r/tid列表中,注意r/tid列表中的编号0被预留给关系索引节点,编号1被预留给类型索引节点;
3)对所有的字面量节点进行编码,存储在lid列表中;
4)当存储RDF图时,抽取RDF图中所蕴含的本体层次关系,使用ORDPATH编码技术对本体进行编码,本体编码被存储在oid列表中;对于属性图,其不存在本体信息,所有节点的oid都会被设置为0;
5)d列表中0表示入边,1表示出边;
在优化的数据编码映射方案中,Key由三部分组成,包括oid:vid、r/tid和d,Value为oid:vid或r/tid或lid;
对于普通节点,oid:vid部分记录了它的本体编码以及节点编码,r/tid部分表示节点的关系或类型,当r/tid值为特殊值0或1时,Value信息存储在r/tid列表中,其余情况下Value信息存储在oid:vid或lid列表中;
对于索引节点,oid:vid部分为特殊值0,r/tid部分表示索引的关系或类型,Value中保存着相应的实体信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110383862.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向三维交互输入的智能指环及其交互方法
- 下一篇:一种新型人工关节假体