[发明专利]一种基于二跳图的超图迭代方法及其应用在审
申请号: | 201910345024.3 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110110157A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 谷峪;于凯强;姚硕 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公共顶点 迭代处理 迭代 构建 分配 顶点信息 可扩展性 消息获取 信息步骤 学习算法 保存 高效性 数据集 条边 应用 验证 更新 通信 分析 | ||
本发明提供了一种基于二跳图的超图迭代方法及其应用,通过构建二跳图,使超边之间直接进行通信并完成超边的更新,从而加快超图任务的迭代处理速度。构建二跳图步骤:在含有公共顶点的超边之间搭建一条边,超边保存其度的大小和分配的顶点信息;顶点分配步骤:分配仅被一条超边包含的顶点,再配超边的公共顶点;获取公共顶点信息步骤:分析不同的超图任务,确定适用于二跳图的消息值公式和超边值公式,确定每条超边要保存的公共顶点信息;将基于二跳图进行迭代处理分别与基于Push和Pull的消息获取机制结合本发明在多个数据集和超图学习算法上进行实验,实验结果验证了其高效性和可扩展性。
技术领域
本发明属于计算机大规模图数据处理领域,尤其涉及一种基于二跳图的超图迭代方法及其应用。
背景技术
在机器学习问题的设定中,通常假设对象之间的关系是二元的,所以可以很自然地使用图模型对这样的二元关系进行建模,图中的每个顶点代表一个对象,每条边代表两个对象之间的关系。这样的图可以是有向的或者是无向的,取决于对象之间的二元关系是否为对称的。例如,一个社区中的好友关系可以组成一个无向图。至于有向图,一个众所周知的实例就是万维网。网页中的一个超链接可以被看作是一条有向边,因为假设网页A有一个超链接到网页B,网页B可能不会有一个超链接到网页A,也就是说,基于超链接的关系是不对称的。
然而,在许多实际的应用中,使用有向图或无向图往往不能完全地表达对象之间复杂的关系。解决上述方法中信息缺失问题的一个自然的方式是用超图来组织数据,对象间的复杂的关系可以使用超图模型完整地呈现。超图作为一种数据模型,已经被广泛地应用在不同的机器学习任务中。超图可以被应用在推荐系统、文本检索、图像检索、多媒体以及生物信息学等许多数据挖掘和信息检索的任务中。在这些应用中,超图学习算法都能展现出很高的有效性。这样的有效性是因为每个超边可以连接多个顶点,完美地捕获了高阶关系。因为许多实际的计算问题都与超图有关,许多超图算法在不同的应用中都展现出很高的有效性,所以研究面向大规模超图数据的高效迭代方法具有重要的意义。
在大数据时代,随着超图数据规模的不断增加,现有的集中式算法和系统无法满足存储和计算性能的需求,采用分布式的框架进行高效的数据处理成为了必然的选择。虽然分布式图迭代处理技术已经得到了广泛的研究,但超图数据具有多元异构、偏斜分布以及结构多态等特点,导致现有的分布式图处理系统在处理超图分析任务时效率低下且功能受限,这为研究新的超图数据迭代处理技术带来了机遇和挑战。特别地,为了提高分布式超图迭代处理系统的性能,面临着以下三个方面的典型挑战。
挑战一:超图数据的规模膨胀。通过星扩展方法将超图转化成二分图或者通过团扩展方法将超图转化成团扩展图,转化后图的规模可能会膨胀几个数量级。因此,为了解决超图数据的海量性和规模膨胀带来的存储和迭代处理问题,需要研究针对超图数据的存储压缩方法、减少迭代次数的迭代处理方法以及避免水桶效应的负载均衡策略。此外,由于转化后的图中存在大量的边,超图任务迭代处理过程中沿图中的边传递的消息数据规模宏大,为了减少顶点和超边之间收发的消息数量,降低通信开销,研究消息的剪枝策略是十分必要的。进一步,超图数据量和迭代过程中产生的消息数据量急剧增加时,需要考虑磁盘驻留的情况,研究I/O高效的超图迭代处理技术是解决这一问题的必要手段。
挑战二:超图结构的异质多态。超图结构复杂多样,不同的超图数据的规模、超边和顶点的相对数量、超边和顶点的度分布都大不相同,顶点和超边都可能存在着偏斜分布。此外,超图中每个超边是顶点集合的非空子集,使得超边之间存在大量的相交关系和包含关系。同理,顶点之间同样存在相交关系和包含关系。因此,超图数据中的结构关系是复杂多态的,除了常见的顶点与超边的相关关系,还包括顶点和顶点之间、超边和超边之间的相交关系与包含关系。由于超图数据含有异构的两种地位相同的实体、偏斜更加严重,并且超图数据中的关系复杂多态,因此与普通图模型相比,超图数据的划分与迭代处理更加复杂。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910345024.3/2.html,转载请声明来源钻瓜专利网。