[发明专利]一种统一化融合内容信息的半监督社团检测方法在审

专利信息
申请号: 202210104815.9 申请日: 2022-01-28
公开(公告)号: CN114491293A 公开(公告)日: 2022-05-13
发明(设计)人: 许伟忠;曹金鑫;张晓峰;丁卫平;鞠小林;鞠恒荣;黄嘉爽;程纯 申请(专利权)人: 南通大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06Q50/00;G06K9/62
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 王毅
地址: 226019 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 统一化 融合 内容 信息 监督 社团 检测 方法
【权利要求书】:

1.一种统一化融合内容信息的半监督社团检测方法,其特征在于,包括以下步骤:

S1、带有节点内容信息的网络可描述为G=(V,E,F),其中V={v1,v2,…,vn}表示网络中节点的集合,E={e1,e2,…,em}表示网络中链接的集合,F={f1,f2,…,fl}表示网络中节点内容的集合;

S2、对网络G的拓扑信息和内容信息进行形式化;

S3、利用拓扑信息基于标准NMF和SNMF构建拓扑子模型,运用网络中节点拓扑信息构造must-link的先验信息,对节点社团隶属度调节以构建融合先验信息拓扑子模型,使用节点内容信息基于NMF构建内容子模型;

S4、运用生成框架将步骤S3中融合先验信息的拓扑子模型和内容子模型融合为一个统一化半监督社团检测模型,将该模型行于真实网络数据,并使用标准化互信息熵NMI和调整兰德系数ARI对同一框架下不同模型的性能进行量化评估。

2.根据权利要求1所述的统一化融合内容信息的半监督社团检测方法,其特征在于,所述步骤S2具体过程如下:

S2.1、形式化拓扑信息的具体操作如下:使用邻接矩阵A={aij}∈Rn×n来表示网络拓扑信息,若节点vi和vj之间存在链接则aij=1,否则aij=0;

S2.2、形式化内容信息的具体操作如下:使用内容矩阵B={bij}∈Rn×l来表示节点内容信息,若节点vi含有第j个内容则bij=1,否则bij=0。

3.根据权利要求2所述的统一化融合内容信息的半监督社团检测方法,其特征在于,所述步骤S3具体过程如下:

S3.1、构建融合先验信息拓扑子模型:

(一)首先,使用矩阵X∈Rn×k描述节点社团隶属度分布,则整个网络k个社团中vi和vj之间的链接期望数表示为:

其中,xij表示节点vi属于第j个社团的倾向,网络中节点之间的链接取决于这两个节点属于同一个社团的概率,xitxjt表示社团t中节点vi和vj之间生成的链接数量;以此构建期望邻接矩阵即以拟合邻接矩阵A;

因此,拓扑子模型的损失函数为:

基于非负矩阵分解的数据降维思想可将原数据映射到低维空间中来捕捉拓扑信息中蕴含的社团结构信息,从而构建基于标准NMF的拓扑子模型,其损失函数为:

其中,W∈Rn×k称为基矩阵,X称为表征矩阵;

(二)然后,利用节点拓扑结构相似性构造must-link先验信息,利用节点所处的邻域来对节点的拓扑结构进行描述,则节点vi和vj基于拓扑的结构相似度定义为:

其中,邻域D(i)={vj∈V|(vi,vj)∈E}∪{vi}用以表示节点vi的拓扑结构;

利用公式(4)可计算网络中任意两个节点之间的结构相似度,并构建相似度矩阵S={sij}∈Rn×n,基于以下思想构建先验信息:若网络中两个节点之间存在链接且结构相似度很高,那么这两个节点之间存在must-link关系,则将它们划入同一个社团中,因此约束矩阵Ω={ωij}∈Rn×n可定义为:

其中,ε为调节must-link数量的邻域超参数;计算约束矩阵Ω中的连通分量P={p1,p2,…,pq},则每个连通分量中的节点之间都满足must-link关系,即同一个连通分量的节点应被划入同一个社团;那么节点社团隶属度矩阵X表示为:

X=CY (6)

其中,C∈Rn×q为指示矩阵,记录每个节点所属的连通分量以表示先验信息;Y∈Rq×k为引入的一个非负的辅助矩阵;

由公式(6)可知,若节点vi和vj之间存在must-link,则ci.=cj.,从而xi.=ci.Y=cj.Y=xj.,即具有相同的隶属度分布节点vi和vj必被划入同一个社团中;

(三)最后,由公式(6)可知,社团隶属度矩阵X可由指示矩阵C和辅助矩阵Y进行重构,从而实现先验信息融入,融入先验信息的拓扑子模型之损失函数可进一步修改为:

其中,X表示社团隶属度矩阵,C表示指示矩阵,Y表示辅助矩阵;

S3.2、内容子模型构建:借鉴pLSA主题模型的思想来构建内容子模型,将网络中的每个节点视为一篇文档,社团就对应于文档集中的主题,节点内容的属性对应文档的单词;则节点vi与第j个特征之间的关系表示为:

其中,hjt表示社团t包含第j个单词的倾向,xithjt表示节点vi属于第t个社团同时该社团包含第j个单词的倾向;

利用公式(9)生成期望内容矩阵即以拟合内容矩阵B,则内容子模型的损失函数为:

其中,表示期望内容矩阵,B表示内容矩阵。

4.根据权利要求3所述的统一化融合内容信息的半监督社团检测方法,其特征在于,所述步骤S4具体过程如下:

S4.1、对于S3中所述的融合先验信息拓扑子模型和内容子模型,分别使用平衡因子α、β来实现两种子模型的整合以构建统一框架下不同模型,不同模型的最终目标函数分别为:

其中,α、β用以控制模型中内容信息所占比重;

S4.2、基于目标函数最小化和Oja学习规则更新模型参数W、Y、H,直至目标函数的值达到收敛;

S4.3、基于矩阵X聚类以进行社团检测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210104815.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top