[发明专利]大规模异构图节点表示的高效学习方法及装置有效
申请号: | 202110652830.2 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113326884B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 罗翠铃;张吉;高军 | 申请(专利权)人: | 之江实验室;北京大学 |
主分类号: | G06F18/2415 | 分类号: | G06F18/2415;G06N3/0464;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 311121 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 构图 节点 表示 高效 学习方法 装置 | ||
1.一种大规模学术网络异构图节点分类方法,其特征在于,所述学术网络异构图中节点的类型包括论文、作者、会议、研究领域,该方法包括以下步骤:
在训练阶段,利用大规模学术网络异构图节点表示的高效学习方法学习得到学术网络异构图中节点i的邻居的向量表示,并输入异构图节点分类模型,得到学术网络异构图中节点i的类别预测结果z,其中节点i是论文节点、作者节点、会议节点、或研究领域节点;将预测结果z与真实标签y的交叉熵作为损失函数,通过后向传播和随机梯度下降,更新优化模型的参数;对学术网络异构图中一个节点i的类别预测结果,由其各topk邻居的带有类型信息的属性表示,根据ppr向量π(∈)所代表的PageRank重要性分数,加权聚合而来,即:
其中,zi为对学术网络异构图中节点i的类别预测结果,Nk(i)为π(∈)(i)中前k大的非零值对应的邻居集合,即学术网络异构图中节点i的topk邻居;
其中,所述大规模学术网络异构图节点表示的高效学习方法,包括以下步骤:
计算学术网络异构图中节点的邻居的重要性,根据重要性对节点的邻居进行采样;
根据学术网络异构图中节点的类型信息,学习节点的类型嵌入向量;
将邻居的类型嵌入向量和属性特征进行融合,得到邻居的向量表示;
在推理阶段,对待分类的节点计算其邻居的重要性,并根据重要性对该节点的邻居进行采样,然后直接利用训练阶段已学习到的类型嵌入向量,通过训练好参数的异构图节点分类模型,预测出该节点的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述计算异构图中节点的邻居的重要性,根据重要性对节点的邻居进行采样,包括:
基于个性化PageRank算法计算邻居的重要性,通过求解ppr矩阵来对节点的邻居进行采样;ppr矩阵的每一行为对应节点的ppr向量,代表随机游走收敛时节点到达图上其余各节点的概率,概率越高表明邻居对节点越重要;通过选取ppr向量前k大的值来采样最重要的topk个邻居。
3.根据权利要求2所述的方法,其特征在于,对所述ppr矩阵进行近似计算以规避矩阵求逆,并对所述ppr矩阵进行预计算以缩短训练时间。
4.根据权利要求1所述的方法,其特征在于,所述根据异构图中节点的类型信息,学习节点的类型嵌入向量,包括:
对图中节点执行随机游走,以生成节点类型序列;
运行Skip-gram算法,根据随机游走中生成的节点类型序列,学习每个节点的类型嵌入。
5.根据权利要求1所述的方法,其特征在于,所述将采样的邻居的类型嵌入向量和属性特征进行融合,得到邻居的向量表示,包括:
对不同类型的异构邻居j,先将不同维度的属性向量Xj经过线性层转换为同一维度di的向量其中di为源节点属性向量Xi的维度,再将统一维度后的属性向量与节点类型嵌入向量融合得到邻居的向量表示Hj,Hj的维度也是di。
6.根据权利要求1所述的方法,其特征在于,所述异构图节点分类模型为MLP模型或神经网络模型。
7.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~6中任一权利要求所述方法的指令。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~6中任一权利要求所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;北京大学,未经之江实验室;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110652830.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油气处理系统及工艺
- 下一篇:一种妇科用用于治疗高度宫颈糜烂的仪器