[发明专利]一种基于双边路径质量评估的强化学习知识图谱推理方法在审
| 申请号: | 202210244258.0 | 申请日: | 2022-03-14 |
| 公开(公告)号: | CN114626530A | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 贾海涛;乔磊崖;王云;李家伟;高源;陈泓秀 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/04;G06N3/08;G06F40/30;G06F16/36 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 双边 路径 质量 评估 强化 学习 知识 图谱 推理 方法 | ||
1.一种基于双边路径质量评估的强化学习知识图谱推理方法,包括以下步骤:
步骤1:根据表示学习方法Trans系列在事实预测任务的原始评分,选择相应表征能力更强的表示学习方法来表示强化学习环境,嵌入方法在数据集上的原始推理结果可以直接反应此表示方法与数据集的适配程度,评分越高,推理效果越好,即表明此方法能够更多更完善地获取数据原本的语义信息,算法环境具有更强的表征能力;基于此,本文选择TransD做为NELL-995的表示方法,选择TransH作为FB15K-237的表示方法;
步骤2:使用专家数据进行预训练,在预训练过程中采用双边BFS来寻找实体之间的正确路径,对于监督学习,算法给每一个成功的游走+1的奖励,得到形如式的奖励公式并更新策略网络;
步骤3:通过爬取维基百科语料获得外部辅助信息,爬取知识图谱中每个头尾实体的描述信息集合,将初始语料进行分词、停用词等预处理使其可被后续使用,运用基于BERT预训练模型的关键词提取方法提取每个实体描述信息的关键词集合;
步骤4:该步骤是专利核心内容:记录每次成功游走时智能体经过的路径实体集Ep={e1,e2,...,en},在所有头尾实体描述信息关键词集合中提取此时头实体es与尾实体et分别对应的关键词集合Ws={word1,word2,...,wordh}与Wt={words1,words2,...,wordsk},分别对路径实体集Ep中的每个实体与Ws和Wt做语义相似度计算,以头实体es描述信息关键词集合中的关键词word1和路径实体集合为例,根据Word2Vec表示模型与余弦相似度的语义计算方法,计算word1和路径实体集合中每个词语所对应的cosine距离,可得出头实体es的关键词word1与路径实体集合的语义相似度X11如下式所示:
式中所指皆为向量,同理可得尾实体et描述信息关键词集合与路径实体集合的语义相似度矩阵Wij(i=1,2,...,n;j=1,2,...,k),另外,以头实体es举例,将矩阵Xij中的每一行提取出来,例如提取第i行得到{Xi1,Xi2,...,Xih},其中分别对应路径实体ei与头实体es描述信息关键词集合中的每个词{word1,word2,...,wordh}的语义相似度,即为Xi,如式所示:
将其加权取平均,则可得出路径实体ei与头实体的近似语义相似度Simi如式所示:
经过以上处理,得到每个路径实体ei(i=1,2,...,n)与头实体描述信息每个关键词的相似度集合Simi={Sim1,Sim2,...,Simn}(i=1,2,...,n),随着路径的不断增加,路径实体ei与头实体e1描述信息关键词的相似度对整个路径的反映程度不同,随着i的不断增加,Simi对整体路径质量的影响应该不断缩减,为此,对每个路径实体的相似度赋予不同权重,尽量保证路径质量能被更有说服力的相似度评估,同时也顾及到了较遥远的相似度对整体路径质量不可忽略的影响,
设置路径实体相似度权重wi为如式所示:
离头实体es最近的路径实体e1的相似度权重为1/2,随着路径长度不断增加,权重以指数倍数下降,当路径长度为n时,到达路径实体集中的最后一个实体en,也为距离头实体最远的路径实体,为了使整体权重之和为1,取en处的相似度权重与en-1处的权重相等,则可得头实体描述信息关键词集合与路径实体集的最终语义相似度Sims如式所示:
Sims的取值范围同余弦相似度的取值范围为[0,1];Sims的值即可表示此次游走得到的路径质量,值越接近1则表示路径质量越好,反之亦然;
同理可得尾实体描述信息关键词集合与路径实体集的最终语义相似度Simt如式所示:
在奖励再训练的过程中,使用双边路径质量评估模块替换原先人为设定的奖励函数,在之前的强化学习知识图谱推理算法中,奖励只存在两种情况:一为智能体无法到达目标顶点,则奖励为0;二为智能体成功到达目标顶点,奖励为1,这种人为设置的奖励函数无疑没有考虑到路径是否正确和路径的好坏程度,在基于双边路径质量评估的强化学习知识图谱推理算法中,使用双边路径质量评估模块替代原先的奖励函数,将得到的双边路径质量作为奖励模块的输出,反馈给智能体,其中包含三个部分:头实体描述信息关键词集合与路径实体集的相似度(路径质量评估)得分与尾实体描述信息关键词集合与路径实体集的相似度(路径质量评估)得分以及路径长度奖励,具体奖励得分如式所示:
其中,Rlength为路径长度奖励,是为路径长度的倒数,即路径越长路径长度奖励越小;α与β为人工设定的奖励权重,将在实验时根据模型结果进行相应调整,取值范围为[0,1]且满足α+β=1,当智能体成功到达目标实体et时,将获得值为Rtotal的奖励;若智能体无法到达目标实体,则奖励为0;
步骤5:以步骤4的输出为奖励,使用式更新策略网络;
步骤6:结果分析,对于链接预测实验,在NELL-995上,RLKGR-BPQA(本实验)在各链接预测任务上总体结果都优于其他实验,在NELL-995上,本实验的MAP指标相比较与TransE、TransR、PRA和DeepPath分别增长了6.7%,1.6%,12.8%,0.8%,在FB15K-237上,本实验的MAP指标相比较与TransE、TransR、PRA和DeepPath分别增长了10.5%,9.8%,9.6%,6.5%,更深层的分析,在NELL-995数据集上,本实验对比DeepPath在结果指标Hits@1,Hits@3,MRR和MAP值上分别增长了0.4%,1.3%,0.5%,0.8%,在FB15K-237数据集上,本实验对比DeepPath在结果指标Hits@1,Hits@3,MRR和MAP值上分别增长了7.4%,7.5%,5.7%,6.5%;对于事实预测实验,在NELL-995数据集中,本实验的MAP值比TransE、TransR、TransD、TransH分别增长了10.8%,10.2%,8.5%,7.8%;但对于DeepPath,本实验的MAP值分别下降了0.2%,在FB15K-237数据集中,本实验的MAP值比TransE、TransR、TransD、TransH、和DeepPath分别增长了4.5%,1.3%,2.0%,1.9%,1.1%;通过对DeepPath与RLKGR-BPQA(本实验)的奖励函数进行分析,本实验中Rlength所占总奖励权重相比较与之前实验有所降低,这说明模型没有之前那么“偏爱”于短路径(路径奖励为路径长度的倒数),故在长路径更多的FB15K-237中获得了更好的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210244258.0/1.html,转载请声明来源钻瓜专利网。





