[发明专利]一种基于博弈论的增量式异构图聚类方法有效
申请号: | 201810271526.1 | 申请日: | 2018-03-29 |
公开(公告)号: | CN108399268B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 高云君;陈璐;浦世亮;张远亮 | 申请(专利权)人: | 浙江大学;杭州海康威视数字技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 博弈论 增量 构图 方法 | ||
本发明公开了一种基于博弈论的增量式异构图聚类方法。本发明利用Personalized Pagerank作为统一的距离度量方式;利用增量式计算提高Personalized Pagerank得分的计算效率;基于DBSCAN算法并且利用博弈论的方法对聚类结果进行调整;利用熵以及边权重更新的方式来平衡结构信息和属性信息之间的重要性。本方法使用Personalized Pagerank来度量图结构中任意两个结点之间的相似性,利用增量式计算方式计算结点之间的Personalized Pagerank得分;采用DBSCAN算法得到初步的聚类结果并根据博弈论来对聚类结果进行调整;根据聚类结果计算熵,更新不同类型的边的权重。本发明同时考虑异构图结点的结构相似性和属性相似性,提高了Personalized Pagerank得分的计算效率并对聚类结果进行优化,提出了一种效率高,聚类质量好的异构图聚类方法。
技术领域
本发明涉及异构图上的聚类技术,特别涉及一种基于博弈论的增量式异构图聚类方法。
背景技术
随着社交媒体和移动互联网的发展,现实生活中存在着大量的具有不同类型并且相互关联的对象的集合,可以通过一个异构图模型来表示,例如DBLP和Flickr。通过对异构图中的对象结点进行聚类,可以将彼此相似并且联系紧密的对象划分到一起,可广泛应用于社区检测和推荐系统等领域。异构图上的聚类算法一直以来都是数据库、数据挖掘和机器学习领域的研究热点。
目前主流的异构图聚类算法往往只考虑了异构图中的属性特征或者结构特征,因此丢失了大量的有用的信息;某些方法虽然同时考虑了异构图的属性信息和结构信息,但其方法需要进行大量的矩阵运算,并且计算过程需要将数据全部放在内存中处理,因此存在巨大的时间开销和存储开销,也制约了方法的扩展性。此外,传统的聚类算法常存在对部分对象聚类效果欠佳的情况,有必要对聚类后的结果再进行优化,以提高整体的聚类质量。所以,设计一种高效,拓展性强,能同时考虑异构图结构和属性信息,并且能够对聚类结果进行更深层次优化的异构图聚类算法为了学术界与工业界的迫切需求。
发明内容
针对上述不足,本发明提供一种基于博弈论的增量式异构图聚类方法。该方法在构建完DBLP的异构图模型后,采用Personalized Pagerank增量计算的方式计算任意两个论文结点之间的Personalized Pagerank得分,基于传统的DBSCAN算法进行聚类,并且利用博弈论方法对聚类结果进行调整,然后迭代进行边权重更新直至收敛,完成聚类,得到所有的论文结点的聚类结果。
为了达到上述目的,本发明所采用技术方案如下:一种基于博弈论的增量式异构图聚类方法,该方法包括如下步骤:
步骤(1):对DBLP数据集进行预处理,构建异构图模型;
步骤(2):对异构图模型中的每一个论文结点,基于Personalized Pagerank算法进行回退时,只处理主类结点,即论文结点,然后将所有结点的残留值和储存值保存在外存中,用于步骤(3)的更新使用;
步骤(3):根据当前边的权重,对异构图模型中的每一个论文结点,重新计算转移概率矩阵,读取步骤(2)保存的残留值和储存值,对所有结点进行回退操作,计算出每个论文结点到图结构中其他论文结点的Personalized Pagerank得分;
步骤(4):对任意两个论文结点之间的两个Personalized Pagerank得分,取两者之间的较小值作为两个结点的相似性度量;
步骤(5):基于DBSCAN算法对所有论文结点进行聚类;
步骤(6):基于博弈论对步骤(5)的聚类结果进行调整,得到新的聚类结果;
步骤(7):基于步骤(6)获得的新的聚类结果的信息熵对论文与其他属性结点之间的边权重进行更新,如果当前边权重和上一轮边权重的均方误差小于设定的误差限,则得到最终聚类结果,否则返回步骤(3)重复迭代计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;杭州海康威视数字技术股份有限公司,未经浙江大学;杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810271526.1/2.html,转载请声明来源钻瓜专利网。