[发明专利]一种基于元结构的无监督异质网络表示学习方法有效
申请号: | 201911327882.1 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111091005B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 冯春燕;楚云霏;郭彩丽;贺同泽 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 监督 网络 表示 学习方法 | ||
1.一种基于元结构的无监督异质网络表示学习方法,具体步骤包括:
步骤一、构建针对事件数据的异质网络模型;
将事件数据定义为实体通过参与事件产生的数据,用事件的集合ε={e}表示,其中e表示事件,ε表示事件集合;
事件e属于某个事件类型,记为其中函数τ(·)为事件类型映射函数,表示事件类型的集合,具体事件类型为作者发表了包含某关键词的论文和两个作者发表在相同场所的论文有引用关系两类;
事件e描述了参与其中的实体节点的关联关系,定义为e={Ve,Re},其中Ve为参与事件e的节点集合,Re为事件e包含的关系集合,具体节点类型为关键词、论文、作者和场所四类,关联类型为包含、著作、引用和发表于四类;
给定事件数据ε,构建异质网络Gε={V,E}来建模节点间关联,其中V=∪e∈εVe表示节点集合,R=∪e∈εRe表示关系集合,其中∪符号表示并集操作,节点和关系有各自的类型映射函数,即节点类型映射函数和关系映射函数ψ:它们分别指明节点和关系所属的类型,其中为节点类型的集合,为关系类型的集合;
步骤二、基于元结构的邻居节点采样;
给定建模后的异质网络Gε={V,E},所述方法采用元结构来描述事件数据中基于事件的关联关系类型;
元结构被定义为类型层面上的子图其中和分别表示子图的节点集合和关系集合;
基于元结构的邻居节点采样方法包含元结构分解、元结构子图匹配及实例采样三个步骤,具体步骤如下:
步骤201、将给定的元结构分解为多个元结构子图,记为{Ml},其中Ml为第l个元结构子图,分解后使得复杂的元结构可表示成多个简单的元结构子图连结的序列,即其中。为子图连结操作,L为元结构子图总个数;
步骤202、为分解后的各个元结构子图Ml找到所有匹配的实例子图其中表示元结构子图Ml的实例集合;该步骤可采用任何常用的子图匹配算法,所述方法采用了一种高效的元结构图匹配算法SubMatch工具;
步骤203、根据元结构定义起始节点类型;
从类型为起始节点类型的节点集合中,采样一个节点作为起始节点nstart,采样概率为其中|·|为取集合元素个数的运算,为起始节点类型的节点集合;
给定起始节点nstart和即将采样的元结构子图M1,所述方法采用随机均匀采样,则采样到子图实例S的概率为其中表示起始节点nstart的符合元结构子图M1的邻居子图;
取采样得到的元结构子图的终止节点,作为当下元结构子图与下个即将采样的元结构子图的连结节点;
给定第l个连结节点nl和即将采样的元结构子图Ml,所述方法采用随机均匀采样,则采样到子图实例S的概率为其中表示连结节点nl的符合元结构子图Ml的邻居子图;
实例采样的概率用如下公式计算:
其中L为分解的元结构子图个数,第一个连结节点n1定义为起始节点nstart;
将采样的各个元结构子图实例用连结节点连结起来得到最终属于元结构的实例及相应节点集合VS;
给定某个节点v,得到基于元结构的邻居节点集合NS(v)=VS\{v},其中表示元结构子图的实例集合,NS(v)表示节点v在子图S下的邻居节点集合,\为取集合差集操作;
步骤三、基于元结构邻近度的网络表示学习模型;
提出基于元结构的邻近度:给定元结构及异质网络中一组节点对(vi,vj),如果存在包含这两个节点的元结构的实例,那么它们存在基于元结构的邻近度,否则它们基于元结构的邻近度为O;
为捕捉基于元结构的邻近度,设计一个给定元结构预测该元结构下邻居节点的目标函数:
其中表示元结构子图的实例集合,NS(v)表示节点v在子图S下的邻居节点集合;P(NS(v)|v;z)表示给定节点v及其表示z预测其邻居节点集合NS(v)的条件概率,其计算方式如下:
P(c|v;z)为预测邻居节点c的条件概率,用如下softmax函数计算:
其中zv、zc和zu分别为节点v、节点c和节点u的表示;
反映单视角关联关系的网络表示学习模型的目标函数为:
步骤四、融合多视角关联关系的网络表示学习模型;
每个元结构表示一种视角下的关联关系,给定不同的元结构k=1,...,K,其中参数K为融合多视角关联关系的网络表示学习模型的元结构的总个数,采样他们各自的邻居节点集合,通过如下的目标函数实现多视角关联关系的融合:
步骤五、所述方法采用负采样方法对上述模型做近似改写,对于每一对节点-邻居样本对(v,c),采样N个负样本对(v,un),其中un为节点v对应的负样本节点,改写后的模型为:
Pn为采样负样本的概率分布;为sigmoid函数;为负样本节点un的表示;
采用随机梯度下降法对模型进行训练,训练步骤如下所示:
(1)从给定的元结构集合中随机均匀采样一个元结构
(2)按照上述基于元结构的邻居节点采样,采样出一个属于元结构的实例子图S;
(3)随机初始化所有节点的表示向量zv,v∈V;
(4)对于子图S的节点集合VS,选取任意一对节点(v,c);
(5)更新zc,即α为学习率;
(6)从概率分布Pn中随机采样负样本节点un,更新即α为学习率;重复N次;
(7)更新zv,即α为学习率;N为负样本个数;
(8)返回步骤(4),直至VS内节点对遍历完毕;
(9)返回步骤(1),直至达到预设迭代次数;
(10)返回所有节点的表示向量zv,v∈V。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911327882.1/1.html,转载请声明来源钻瓜专利网。