[发明专利]基于路径邻域聚合和难负样本挖掘的关系推理方法在审
申请号: | 202310592502.7 | 申请日: | 2023-05-23 |
公开(公告)号: | CN116578638A | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 张勇东;毛震东;靳国庆;郭俊波;李家昂 | 申请(专利权)人: | 人民网股份有限公司;中国科学技术大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/28;G06F18/214;G06F18/22;G06N3/0464;G06N3/08 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 谢中用 |
地址: | 100733 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 路径 邻域 聚合 样本 挖掘 关系 推理 方法 | ||
1.一种基于路径邻域聚合和难负样本挖掘的关系推理方法,通过归纳式关系推理模型,对包含新实体的知识图谱中的任意两个实体之间存在的各类关系的概率进行预测,具体包括以下步骤:
步骤一,邻域编码:将两层Transformer网络与池化层拼接作为邻域编码器,将每个实体i的关系集合的向量表示输入至邻域编码器,得到实体i的实体表示ei;其中T为每个实体的关系类别数量;根据待预测关系两端实体ei,ej的实体表示创建实体对表示pairij,ej为实体j的实体表示;i≤N,N为知识图谱中的实体总量,为与实体i相连的第t类关系的向量表示,的取值范围为{r1,…,rs,…,rS},rs为知识图谱中第s类关系的向量表示,S为知识图谱中关系类别总量;
步骤二,负样本筛选:基于实体表示,通过计算余弦相似度的方式,为每个实体筛选出匹配的负样本实体集合;对于数据集中每一个三元组形式的正样本,将正样本中的实体替换为匹配的负样本实体集合中的实体,从而构造出三元组形式的难负样本;
步骤三,路径选择:将待预测关系两端实体之间的路径转换为路径特征表示计算路径特征表示与实体对表示pairij之间的相似度,选择相似度最高的前l条路径的路径特征表示组成路径特征集合{pij}l;k≤K,K为待预测关系两端实体之间的路径总数,l为设定值;
步骤四,路径-邻域聚合:采用多层全连接网络将实体对表示pairij与路径特征集合{pij}l进行聚合,将聚合结果与知识图谱中的每一类关系的向量表示rs进行配对,得到实体对ei,ej之间存在各类关系的概率;
步骤五,基于正样本和构造的难负样本,通过交叉熵函数计算归纳式关系推理模型的损失,并通过梯度下降优化器,优化归纳式关系推离模型的参数。
2.根据权利要求1所述的基于路径邻域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤二中,通过以下方式得到每个实体i的关系集合:
设定关系集合尺寸的阈值为T;
对于一个与n类关系直接相连的实体:如果n大于T,基于关系在知识图谱中出现的频率进行采样,优先选择出现频率高的关系,直至采样出的关系个数达到T;如果n小于或等于T,则采样所有关系,并用(T-n)个占位符进行补充;进而得到关系类别数量为T的每个实体的关系集合。
3.根据权利要求1所述的基于路径邻域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤一中通过邻域编码器得到实体i的实体表示ei时:
mean(·)代表平均池化函数,Encoder(·)代表由两层Transformer网络组成的编码器。
4.根据权利要求1所述的基于路径邻域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤一中,根据待预测关系两端实体ei,ej的实体表示创建实体对表示pairij时:
pairij=MLP(ei+h1,ej+h2);
MLP(·)表示两层全连接网络,h1,h2∈Rd为可学习的向量,d表示向量维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民网股份有限公司;中国科学技术大学,未经人民网股份有限公司;中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310592502.7/1.html,转载请声明来源钻瓜专利网。