[发明专利]数据处理方法和系统在审
申请号: | 202110653899.7 | 申请日: | 2021-06-11 |
公开(公告)号: | CN115470376A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 冯冠宇;朱晓伟;陈文光 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F16/23 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 陈金林 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 系统 | ||
一种数据处理方法、系统。该数据处理方法包括:获取待处理的图的数据;以及以嵌套动态数组的方式存储图的数据,其中,嵌套动态数组的每个条目包括对应于所述图的一个顶点的边信息动态数组,边信息动态数组的每个条目存储对应于一个顶点的一条出边的边信息,嵌套动态数组的至少一个条目包括索引查找表,索引查找表关联地存储至少一个条目对应的顶点的每个出边的标识与表示对应出边的边信息在存储对应出边的边信息动态数组中的存储位置的索引,并且索引查找表中存储每个出边的标识的位置与对应出边的标识之间存在对应关系。该数据处理方法维护边的索引以避免冗余扫描,从而实现相比最新的技术几个数量级的性能提升。
技术领域
本公开的实施例涉及一种数据处理方法和系统,特别是涉及基于动态数组的数据处理方法和系统。
背景技术
图(graph)是一种数据格式,可以用于表示社交网络、通信网络、蛋白分子网络等,图中的节点表示网络中的个体,连边表示个体之间的连接关系。图数据处理被越来越多地应用于学术界和工业界。在实际应用中,对应于诸如涉及动态交易的大数据的图通常是进化图(evolving graph),例如社交网络图、金融交易图等。现实世界中的进化图是大规模的且连续变化的,例如每秒钟可能有成千上万的更新。
进化图数据处理,例如单调性算法(例如,广度优先搜索算法、最短路径算法、可达性分析算法等)通常要求扫描图中大量的节点或边,甚至扫描整个图。增量计算(incremental computing)可以通过利用先前的结果来减少冗余计算,从而加速进化图数据处理算法。近年来,提出了若干种增量图数据处理系统,这些系统包括KickStarter、差分数据流(Differential Dataflow)。
发明内容
本公开的至少一实施例提供一种数据处理方法,包括:获取待处理的数据;以及以嵌套动态数组的方式将所述数据存储为图,其中,所述嵌套动态数组的每个条目包括对应于所述图的一个顶点的边信息动态数组,所述边信息动态数组的每个条目存储对应于所述一个顶点的一条出边的边信息;所述嵌套动态数组的至少一个条目包括索引查找表,所述索引查找表关联地存储所述至少一个条目对应的顶点的每个出边的标识与表示对应出边的边信息在存储所述对应出边的边信息动态数组中的存储位置的索引;并且所述索引查找表中存储每个出边的标识的位置与对应出边的标识之间存在对应关系。
例如,本公开的至少一实施例提供的数据处理方法还包括:在所述嵌套动态数组中查找目标边,其中,如果所述目标边的起始顶点具有对应的索引查找表,则在所述嵌套动态数组中查找目标边包括:根据所述目标边的标识,利用所述索引查找表中存储每个出边的标识的位置与对应出边的标识之间的对应关系,确定所述目标边的标识存储在所述索引查找表中的位置;根据所述目标边的标识存储在所述索引查找表中的位置,获得表示所述目标边的边信息在其对应的边信息动态数组中的存储位置的索引;以及根据所获得的索引从对应的边信息动态数组中查找所述目标边。
例如,本公开的至少一实施例提供的数据处理方法还包括:从所述嵌套动态数组中删除目标边,其中,如果所述目标边的起始顶点具有对应的索引查找表,则在所述嵌套动态数组中删除目标边包括:根据所述目标边的标识,利用所述索引查找表中存储每个出边的标识的位置与对应出边的标识之间的对应关系,确定所述目标边的标识存储在所述索引查找表中的位置;根据所述目标边的标识存储在所述索引查找表中的位置,获得表示所述目标边的边信息在其对应的边信息动态数组中的存储位置的索引;以及根据所获得的索引将对应的边信息动态数组中所述目标边的重复数减1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110653899.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗幽门螺旋杆菌活性的化合物及应用
- 下一篇:一种数据处理方法、装置以及设备