[发明专利]一种学术异构信息网络中作者合作关系预测的方法在审

专利信息
申请号: 201611242612.7 申请日: 2016-12-29
公开(公告)号: CN106778894A 公开(公告)日: 2017-05-31
发明(设计)人: 夏锋;刘鑫童;宁兆龙;张舒虹;王伟 申请(专利权)人: 大连理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 大连理工大学专利中心21200 代理人: 温福雪,侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种学术异构信息网络中作者合作关系预测的方法,利用更贴近现实世界的异构信息网络解决作者合作关系预测问题。根据构建的学术异构信息网络中元路径的不同度量得到网络的拓扑属性,并引入时间动态、传递相似性和作者属性的概念得到网络的内容信息,结合拓扑属性和内容信息得到基于元路径和内容信息的特征空间,根据得到的特征属性集,利用逻辑回归算法找到每个特征属性的最适权重来进行作者合作关系预测。本发明能够利用学术大数据挖掘出学者潜在的合作关系,帮助学者更高效的进行科研合作以及了解学者所在学术圈子,尤其对高产学者以及高频率合作关系有十分好的预测效果。
搜索关键词: 一种 学术 信息网络 作者 合作关系 预测 方法
【主权项】:
一种学术异构信息网络中作者合作关系预测的方法,其特征在于,步骤如下:1)模型训练阶段,选出在过去时间段没有合作过的作者对,收集其在过去时间段内相关的基于元路径和内容信息的特征属性,并记录他们在未来时间段中是否建立合作关系本方法提出的预测模型采用基于逻辑回归的有监督学习算法,在学术异构信息网络G=<V,E>中,V代表信息网络中的节点,E代表节点之间的交互,任意连边e=<x,y>∈E表示节点x和y之间在某一特定时间t(e)的交互,并用平行边记录节点对之间的多重交互及其潜在时间戳信息;对于任意两个时间节点t<t',用G[t,t']表示包含时间段t到t'之间所有连边的子图,链路预测问题的具体描述如下:选择四个时间戳t0<t'0<t1<t′1,链路预测就是预测在G[t0,t'0]中没有出现而将在G[t1,t′1]中出现的连边,并用T0=[t0,t'0]表示过去时间段,T1=[t1,t′1]表示未来时间段;本方法选出核心节点集合,即节点既存在于过去时间段的子图G[t0,t'0]中,也存在于未来时间段的子图G[t1,t′1]中,然后预测在核心节点集合中的节点之间产生新连边的可能性;在模型训练阶段,首先选出在T0时间段没有合作过的作者对,收集其在T0时间段相关的基于元路径和内容信息的特征属性,根据真实网络情况,查看并记录他们在未来时间段T1中是否建立合作关系;2)建立训练模型,通过最大化合作关系的可能性学习与每个特征属性相关的最佳权重系数2.1)计算基于时间动态的路径数:学术异构信息网络是随时间变化的,学术异构信息网络中学术主体之间形成的路径也是具有时变性的,本方法通过对这些路径设置不同权重来实现对在不同时间戳形成的路径进行影响力区分;综合考虑学术异构信息网络中的时间动态特性和基于元路径的路径数度量,得到基于时间动态的路径数属性;一个元路径由很多短的子元路径连接而成,而且学术异构信息网络中的路径通常是事件发生的结果;为区分不同元路径的影响力,首先将元路径分解为很多事件子元路径,再根据这些事件子元路径建立的时间参考衰减函数为其设置不同权重;给定一个元路径P=(A1A2L Al),它的交换矩阵表示为:MP=MP1tMP2t...MPit...MPgt]]>其中,矩阵MP中的元素是依据元路径P的节点之间基于时间动态的路径数,表示元路径Pi包含时间信息的交换矩阵;用l(Pi)表示元路径Pi的长度,并且Pi表示某一事件子元路径,即在特定时间戳发生的某一事件的元路径通过如下公式计算:MPit=MPi·TPi]]>其中,是元路径Pi的交换矩阵,描述了依据该元路径的节点之间的路径数,是元路径Pi的时间矩阵,矩阵中的元素表示起始节点x∈As(Pi)和终止节点y∈Ae(Pi)之间路径的权重,As(Pi)和Ae(Pi)分别表示元路径Pi的起始节点类型和终止节点类型;时间矩阵中的权重根据路径建立的时间,采用公式t0≤t≤t1,定义的时间衰减函数来设定,其中的变量α,0<α<1,调节时间函数衰减的速度;2.2)计算基于传递相似性的归一化路径数:学术领域中,相似的作者易发生合作行为,而且,两个作者与相似的作者合作也更容易发生合作行为,也就是在本方法构建的学术异构信息网络中,包含更多相似作者的路径中的端作者在未来时间发生合作关系的可能性更大;本方法通过对这些路径设置不同权重,对包含与端节点类型相同的相似节点的路径进行影响力区分,本方法中元路径的起始节点类型都为作者,涉及到的也都是作者之间的相似性传递;综合考虑作者之间的传递相似性和基于元路径的归一化路径数度量,得到基于传递相似性的归一化路径数属性;给定一个元路径Q=(B1B2…Bl),其中起始节点B1和终止节点Bl具有相同类型且都是作者;Bm是与端节点B1和Bl类型相同的中间节点集合,即Bm=(Bm1,Bm2,…Bmd),其中d为Bm集的势;因此,元路径Q由许多短的子元路径Qi(i=1,…,d+1)连接而成,如下所示:依据子元路径Qi的起始节点和终止节点之间的传递相似性分配不同权重,本方法在具有不同语义信息的不同元路径上采用PathSim度量计算传递相似性;由于PathSim是定义在对称元路径上的相似性度量方法,所以,对于分解得到的子元路径Qi都要求是对称的;对于元路径Q,它的交换矩阵表示为:NQ=NQ1SNQ2S...NQiS...NQd+1S]]>其中,矩阵NQ中的元素是依据元路径Q的节点之间基于传递相似性的路径数,表示对称子元路径Qi包含传递相似性信息的交换矩阵;用l(Qi)表示元路径Qi的长度,并且Qi是端节点具有传递相似性的元路径,通过如下公式计算:NQiS=NQi·SQi]]>其中,是元路径Qi描述节点之间路径数的交换矩阵,是元路径Qi的传递相似性矩阵,矩阵中的元素表示路径起始节点x∈Bs(Qi)和终止节点y∈Be(Qi)之间的相似性,Bs(Qi)和Be(Qi)分别表示元路径Qi的起始节点类型和终止节点类型;传递相似性矩阵中的值采用基于元路径的相似性度量PathSim计算得到根据公式改进归一化路径数度量,将公式中原始的路径数替换为上文中得到的基于传递相似性的路径数,进而得到基于传递相似性的归一化路径数度量;其中,NPCR(ai,aj)表示归一化路径数,R是该元路径所描述的关系,R‑1表示R的逆关系,PCR(ai,aj)表示依照关系R以ai为起始节点aj为终止节点的路径总数,表示依照关系R‑1以ai为起始节点aj为终止节点的路径总数,PCR(ai,·)表示依照关系R以ai为起始节点的所有路径总数,PCR(·,aj)表示依照关系R以aj为终止节点的所有路径总数,PCR(ai,·)和PCR(·,aj)也可以被看作网络中依照关系R的节点ai的度和依照关系R‑1的节点aj的度;2.3)计算基于作者属性的对称随机游走:作者属性在某种程度上反映了一个作者与他人建立合作关系的可能性,活跃度、影响力和合作倾向三种作者固有属性与作者之间发生合作关系都是正相关;本方法综合考虑学术异构信息网络中的作者属性和基于元路径的对称随机游走度量,得到基于作者属性的对称随机游走属性;给定一个元路径I,其描述的关系为其上基于作者属性的对称随机游走属性定义如下所示:SRWAAR‾(x,y)=RWR‾(x,y)*AAx+RWR‾-1(y,x)*AAy]]>其中,表示依据元路径I的关系中起始节点x和终止节点y之间基于作者属性的对称随机游走属性值,表示依照关系R起始节点x和终止节点y的随机游走度量,表示依照关系终止节点y和起始节点x的随机游走度量,AAx和AAy表示起始作者节点和终止作者节点的属性值,是作者活跃度、影响力和合作倾向属性三元组向量的模;通过遍历网络模式得到长度限制的元路径集合以及基于元路径和内容信息的属性集合,则基于元路径和内容信息的特征空间F可以定义为这两个集合的笛卡尔乘积,如下公式所示:F=I×M其中,I表示遍历网络模式得到的长度限制的元路径集合,M表示基于元路径和内容信息的属性;3)模型测试阶段,将学习到的权重系数应用到测试作者对的特征属性上,得出预测结果对训练模型进行测试,将学习到的权重系数应用到测试作者对的特征属性上,得出预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611242612.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top