[发明专利]图计算的类别型变量存储方法、装置、设备及存储介质在审
申请号: | 201910663277.5 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110516117A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 邓强;张娟;屠宁;赵之砚;施奕明 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F3/06 |
代理公司: | 11321 北京市京大律师事务所 | 代理人: | 刘挽澜<国际申请>=<国际公布>=<进入 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预置 节点属性 正整数 存储 变量存储 比特数 图计算 读取 存储介质 存储类别 存储资源 顺序读取 预置算法 比特位 大数据 检测 统计 | ||
本发明涉及大数据技术领域,公开了图计算的类别型变量存储方法、装置、设备及存储介质。图计算的类别型变量存储方法包括:获取节点属性的多个预置的类别型变量,预置的类别型变量的取值为整数;对多个预置的类别型变量进行统计,得到类别型变量的总个数N,N为正整数;根据预置算法计算每个预置的类别型变量的存储比特数Ki,K为大于0的正整数,i的取值范围为小于等于N的正整数;根据每个预置的类别型变量的存储比特数Ki和预置顺序对每个预置的类别型变量的取值进行存储;当检测到读取节点属性的至少一个预置的类别型变量时,按照预置顺序读取至少一个预置的类别型变量的取值。本发明通过比特位存储类别型变量,提高了节点属性的存储资源利用率。
技术领域
本发明涉及节点存储领域,尤其涉及一种图计算的类别型变量存储方法、装置、设备及存储介质。
背景技术
图数据挖掘是关系挖掘和群体画像中的重要方法。图数据由节点和边组成,图中的节点用于表示发生连接的主体,边用来表示主体之间的关联,边越密集,边权重越大,表示关联越强。图数据主要由节点属性和边属性构成,在图计算中涉及大量节点属性的数据存储。
节点属性的数据存储包括大量类别型变量,例如,判定节点属于哪一种特定类别,其类别从1到n,n为大于1的正整数,类别型变量的取值一般以整数的形式来表示。在典型的图计算环境中,对于分布式图处理框架GraphX或者Giraph,通常以int32类型或者int64类型方式对节点属性的类别型变量进行存储,也就是单个类别型变量占用32比特或者64比特的内存空间。
目前大规模图数据往往包含亿级节点,采用现有技术中存储节点属性的算法会耗费大量内存,因此,如何减少存储节点属性导致消耗大量存储资源,是大规模图计算需要解决的关键问题。
发明内容
本发明的主要目的在于解决了大规模图计算中采用整型存储节点属性的类别型变量导致消耗大量存储资源的技术问题。
为实现上述目的,本发明第一方面提供了一种图计算的类别型变量存储方法,包括:获取节点属性的多个预置的类别型变量,所述预置的类别型变量的取值为整数;对多个预置的类别型变量进行统计,得到所述预置的类别型变量的总个数N,所述N为正整数;根据预置算法计算每个预置的类别型变量的存储比特数Ki,所述Ki为正整数,i的取值范围为小于等于所述N的正整数;根据每个预置的类别型变量的存储比特数Ki和预置顺序对每个预置的类别型变量的取值进行存储;当检测到读取所述节点属性的至少一个预置的类别型变量时,按照所述预置顺序读取至少一个预置的类别型变量的取值。
可选的,在本发明第一方面的第一种实现方式中,所述根据预置算法计算每个预置的类别型变量的存储比特数Ki,所述Ki为正整数,i的取值范围为小于等于所述N的正整数包括:确定每个预置的类别型变量指示的预置类别总数量n,n为正整数,所述预置类别包括至少一个整数值;根据比特数计算公式对每个预置的类别型变量进行计算,得到每个预置的类别型变量的存储比特数Ki,所述Ki为正整数,i的取值范围为小于等于所述N的正整数,所述比特数计算公式如下:Ki=ceil(log2n),其中,log2n表示以2为底n的对数,ceil表示向上取整。
可选的,在本发明第一方面的第二种实现方式中,所述根据每个预置的类别型变量的存储比特数Ki和预置顺序对每个预置的类别型变量的取值进行存储包括:读取节点标签数据存储空间,所述节点标签数据存储空间用于存储所述节点属性的多个预置类型变量的取值,所述预置类型变量包括类别型变量;根据每个预置的类别型变量的存储比特数Ki对所述节点标签数据存储空间按照预置顺序进行划分,得到划定的存储比特位区间;将多个预置的类别型变量的取值按照所述预置顺序写入到所述划定的存储比特位区间上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910663277.5/2.html,转载请声明来源钻瓜专利网。