[发明专利]一种基于双边路径质量评估的强化学习知识图谱推理方法在审

申请号：	202210244258.0	申请日：	2022-03-14
公开（公告）号：	CN114626530A	公开（公告）日：	2022-06-14
发明（设计）人：	贾海涛;乔磊崖;王云;李家伟;高源;陈泓秀	申请（专利权）人：	电子科技大学
主分类号：	G06N5/04	分类号：	G06N5/04;G06N3/04;G06N3/08;G06F40/30;G06F16/36
代理公司：	暂无信息	代理人：	暂无信息
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于双边路径质量评估强化学习知识图谱推理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双边路径质量评估的强化学习知识图谱推理方法，包括以下步骤：

步骤1：根据表示学习方法Trans系列在事实预测任务的原始评分，选择相应表征能力更强的表示学习方法来表示强化学习环境，嵌入方法在数据集上的原始推理结果可以直接反应此表示方法与数据集的适配程度，评分越高，推理效果越好，即表明此方法能够更多更完善地获取数据原本的语义信息，算法环境具有更强的表征能力；基于此，本文选择TransD做为NELL-995的表示方法，选择TransH作为FB15K-237的表示方法；

步骤2：使用专家数据进行预训练，在预训练过程中采用双边BFS来寻找实体之间的正确路径，对于监督学习，算法给每一个成功的游走+1的奖励，得到形如式的奖励公式并更新策略网络；

步骤3：通过爬取维基百科语料获得外部辅助信息，爬取知识图谱中每个头尾实体的描述信息集合，将初始语料进行分词、停用词等预处理使其可被后续使用，运用基于BERT预训练模型的关键词提取方法提取每个实体描述信息的关键词集合；

步骤4：该步骤是专利核心内容：记录每次成功游走时智能体经过的路径实体集E_p＝{e₁，e₂，...，e_n}，在所有头尾实体描述信息关键词集合中提取此时头实体e_s与尾实体e_t分别对应的关键词集合W_s＝{word₁，word₂，...，word_h}与Wt＝{words₁，words₂，...，words_k}，分别对路径实体集E_p中的每个实体与W_s和W_t做语义相似度计算，以头实体e_s描述信息关键词集合中的关键词word₁和路径实体集合为例，根据Word2Vec表示模型与余弦相似度的语义计算方法，计算word₁和路径实体集合中每个词语所对应的cosine距离，可得出头实体e_s的关键词word₁与路径实体集合的语义相似度X₁₁如下式所示：

式中所指皆为向量，同理可得尾实体e_t描述信息关键词集合与路径实体集合的语义相似度矩阵W_ij(i＝1,2,...,n；j＝1,2,...,k)，另外，以头实体e_s举例，将矩阵X_ij中的每一行提取出来，例如提取第i行得到{X_i1，X_i2，...，X_ih}，其中分别对应路径实体e_i与头实体e_s描述信息关键词集合中的每个词{word₁，word₂，...，word_h}的语义相似度，即为X_i，如式所示：

将其加权取平均，则可得出路径实体e_i与头实体的近似语义相似度Sim_i如式所示：

经过以上处理，得到每个路径实体e_i(i＝1,2,...,n)与头实体描述信息每个关键词的相似度集合Sim_i＝{Sim₁，Sim₂，...，Sim_n}(i＝1,2,...,n)，随着路径的不断增加，路径实体e_i与头实体e₁描述信息关键词的相似度对整个路径的反映程度不同，随着i的不断增加，Sim_i对整体路径质量的影响应该不断缩减，为此，对每个路径实体的相似度赋予不同权重，尽量保证路径质量能被更有说服力的相似度评估，同时也顾及到了较遥远的相似度对整体路径质量不可忽略的影响，

设置路径实体相似度权重w_i为如式所示：

离头实体e_s最近的路径实体e₁的相似度权重为1/2，随着路径长度不断增加，权重以指数倍数下降，当路径长度为n时，到达路径实体集中的最后一个实体e_n，也为距离头实体最远的路径实体，为了使整体权重之和为1，取e_n处的相似度权重与e_n-1处的权重相等，则可得头实体描述信息关键词集合与路径实体集的最终语义相似度Sim_s如式所示：

Sim_s的取值范围同余弦相似度的取值范围为[0,1]；Sim_s的值即可表示此次游走得到的路径质量，值越接近1则表示路径质量越好，反之亦然；

同理可得尾实体描述信息关键词集合与路径实体集的最终语义相似度Sim_t如式所示：

在奖励再训练的过程中，使用双边路径质量评估模块替换原先人为设定的奖励函数，在之前的强化学习知识图谱推理算法中，奖励只存在两种情况：一为智能体无法到达目标顶点，则奖励为0；二为智能体成功到达目标顶点，奖励为1，这种人为设置的奖励函数无疑没有考虑到路径是否正确和路径的好坏程度，在基于双边路径质量评估的强化学习知识图谱推理算法中，使用双边路径质量评估模块替代原先的奖励函数，将得到的双边路径质量作为奖励模块的输出，反馈给智能体，其中包含三个部分：头实体描述信息关键词集合与路径实体集的相似度(路径质量评估)得分与尾实体描述信息关键词集合与路径实体集的相似度(路径质量评估)得分以及路径长度奖励，具体奖励得分如式所示：

其中，R_length为路径长度奖励，是为路径长度的倒数，即路径越长路径长度奖励越小；α与β为人工设定的奖励权重，将在实验时根据模型结果进行相应调整，取值范围为[0，1]且满足α+β＝1，当智能体成功到达目标实体e_t时，将获得值为R_total的奖励；若智能体无法到达目标实体，则奖励为0；

步骤5：以步骤4的输出为奖励，使用式更新策略网络；

步骤6：结果分析，对于链接预测实验，在NELL-995上，RLKGR-BPQA(本实验)在各链接预测任务上总体结果都优于其他实验，在NELL-995上，本实验的MAP指标相比较与TransE、TransR、PRA和DeepPath分别增长了6.7％，1.6％，12.8％，0.8％，在FB15K-237上，本实验的MAP指标相比较与TransE、TransR、PRA和DeepPath分别增长了10.5％，9.8％，9.6％，6.5％，更深层的分析，在NELL-995数据集上，本实验对比DeepPath在结果指标Hits@1，Hits@3，MRR和MAP值上分别增长了0.4％，1.3％，0.5％，0.8％，在FB15K-237数据集上，本实验对比DeepPath在结果指标Hits@1，Hits@3，MRR和MAP值上分别增长了7.4％，7.5％，5.7％，6.5％；对于事实预测实验，在NELL-995数据集中，本实验的MAP值比TransE、TransR、TransD、TransH分别增长了10.8％，10.2％，8.5％，7.8％；但对于DeepPath，本实验的MAP值分别下降了0.2％，在FB15K-237数据集中，本实验的MAP值比TransE、TransR、TransD、TransH、和DeepPath分别增长了4.5％，1.3％，2.0％，1.9％，1.1％；通过对DeepPath与RLKGR-BPQA(本实验)的奖励函数进行分析，本实验中R_length所占总奖励权重相比较与之前实验有所降低，这说明模型没有之前那么“偏爱”于短路径(路径奖励为路径长度的倒数)，故在长路径更多的FB15K-237中获得了更好的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210244258.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种可降低色差的镀膜液及制备方法和在光伏玻璃中的应用
下一篇：一种多方向调节式LED灯

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N5-00 利用基于知识的模式的计算机系统
G06N5-02 .知识表达
G06N5-04 .推理方法或设备

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于双边路径质量评估的强化学习知识图谱推理方法在审

专利文献下载