[发明专利]一种基于隐式关联的多标签传播方法及系统有效
申请号: | 201910270828.1 | 申请日: | 2019-04-04 |
公开(公告)号: | CN110136016B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 周薇;卫玲蔚;文杰;韩冀中;虎嵩林 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F16/901 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 标签 传播 方法 系统 | ||
本发明涉及一种基于隐式关联的多标签传播方法及系统。该方法包括:对给定的网络构建局部网络结构图,其中部分节点的标签信息已知,并计算概率转移矩阵;基于标签共现方法挖掘多标签之间的隐式关联信息;生成节点‑标签矩阵并初始化未知节点的标签信息;根据概率转移矩阵以及隐式关联信息对每一个未知节点的标签进行更新;基于节点‑标签矩阵计算更新停止条件;反复执行上述更新步骤直到满足更新停止条件或者达到给定的迭代次数;根据节点‑标签矩阵生成网络中未知标签信息的节点的标签信息。本发明能够更好的挖掘标签之间的关联关系,加速方法的收敛速度,从而更准确全面的分析大型网络用户的标签信息。
技术领域
本发明属于社交网络应用技术领域,具体涉及一种基于隐式关联的多标签传播方法及系统。
背景技术
在现实世界中,用户之间存在着普遍的联系和彼此的依赖,现有许多的大型网络中,大量节点标签信息缺失,人们只能通过少量节点标签信息进行估计。随着计算机相关技术的发展,越来越多的方法将复杂的大型网络进行建模,探索不同节点之间的关联关系和潜在规律,从而更好地预测节点的未知标签信息。自然语言处理(NLP)技术的出现对挖掘标签之间显式关联关系提供了有利的工具。
迄今为止,人们提出许多多标签传播算法。标签传播算法最早是由Zhu于2002年提出,其基本思想是用已标记节点的标签信息去预测未标记节点的标签信息,是多标签传播算法重要的里程碑。该算法的优势在于计算过程简单,方法速度快,但缺点是算法的稳定性较差,每次结果很不相同,同时,现实世界标签之间关系错综复杂,但该方法并未考虑标签之间的关联关系,因此,实际运用价值不高。随着NLP技术的发展,人们应用NLP工具挖掘标签之间的显式信息,提高了结果的准确性,但现实世界中,标签之间仍存在未知的隐式关联,因此,现有的多标签传播方法仍存在较大的提升空间。
发明内容
本发明针对主要的技术问题是如何进一步挖掘多标签之间的关联关系,从而预测节点的未知标签信息。本发明提供一种基于隐式关联的多标签传播方法和系统,用以进一步挖掘多标签之间的隐式关联,基于此类隐式关联,提高多标签传播方法的性能。
为实现上述目的,本发明提供的技术方案是一种基于隐式关联的多标签传播的方法,所述方法包括以下步骤:
步骤A:对给定的网络(如大型网络)构建局部网络结构图,该局部网络结构图中节点的标签集合记为I,其中部分节点(可以是少数节点)的标签信息已知;计算节点之间的概率转移矩阵T;
步骤B:对给定的局部网络结构图,基于标签共现方法,挖掘多标签之间的隐式关联信息;
步骤C:基于部分节点的已知标签信息生成节点-标签矩阵F,并初始化未知节点的标签信息;
步骤D:对每一个未知节点的标签进行更新,更新原则是根据步骤A得到的概率转移矩阵T以及步骤B获取的隐式关联信息生成;
步骤E:对每一个未知节点的标签的一次更新结束后,基于步骤A给定的部分节点标签信息更新节点-标签矩阵F;
步骤F:基于节点-标签矩阵F,计算更新停止条件;
步骤G:反复执行步骤D-F,直到满足更新停止条件或者达到给定的迭代次数,停止更新;
步骤H:根据节点-标签矩阵F生成网络中未知标签信息节点的标签信息。
进一步地,上述步骤B,具体包括,基于标签共现关系挖掘多标签之间的隐式关联信息,作为上述方法的先验知识,先验知识P的定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910270828.1/2.html,转载请声明来源钻瓜专利网。