[发明专利]一种基于实体关联性约束的表示学习方法有效
申请号: | 201810377516.6 | 申请日: | 2018-04-25 |
公开(公告)号: | CN108647258B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 刘琼昕;马敬;龙航 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06K9/62 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于实体关联性约束的表示学习方法,属于自然语言处理以及知识图谱技术领域。本发明通过对实体的描述文本进行注解和关联性划分,得到实体的强关联实体集合和弱关联实体集合,将关联性作为辅助损失项融合到基于翻译的表示学习方法中,具体地通过样本负采样及模型训练,得到实体和关系的嵌入式表示,即将知识图谱中的头实体h、尾实体t以及头实体和尾实体之间的关系r,分别嵌入到向量h、向量t和向量r中。本发明所述方法在推理效果上优于基于翻译以及基于文本模型的表示学习方法。 | ||
搜索关键词: | 一种 基于 实体 关联性 约束 表示 学习方法 | ||
【主权项】:
1.一种基于实体关联性约束的表示学习方法,其特征在于:核心思想是:基于实体描述文本挖掘出关联性实体并对关联性进行分级,将关联性作为辅助约束融合到基于翻译的表示学习方法中;主要利用注解后的实体描述文本得到实体间的共现信息,该信息作为一种衡量两个实体间语义关联程度的标准,并且该关联程度是有向的;具体实施是将知识图谱中的头实体h、尾实体t以及头实体和尾实体之间的关系r,分别嵌入到向量h、向量t和向量r中;具体通过以下步骤实现:步骤一、对实体的描述文本进行注解和关联性划分,得到实体的强关联实体集合和弱关联实体集合;具体包含如下子步骤:步骤1.1、对实体的描述文本注解,得到实体注解结果;其中,实体是指知识图谱中的实体,用e表示;e的描述文本,用Dese表示,是一段有序的单词集合,用公式(1)来表示:Dese=<w1,...,wm> (1)其中,w1,...,wm是单词,m为描述文本中单词的数量,描述文本中提取的实体由大于等于1个单词组成,当实体由大于等于两个单词组成时,需要对提取出来的单词进行拼接;从描述文本中提取实体的过程称为描述文本注解;将描述文本中提取的实体组成集合,即得到实体注解结果:Dese'=<w1,...,wm'> (2)其中,m'≤m,wi表示一个实体,Dese'为Dese的实体注解结果;步骤1.2、关联性划分;利用步骤1.1输出的实体注解结果中第i个和第j个实体通过公式(3)得到实体j对实体i的关联程度值,用Wij表示:
如果Wij=2,记j为i的强关联实体(Strong Relevant Entity);如果Wij=1,记j为i的弱关联实体(Weak Relevant Entity),如果两个实体在彼此描述中相互出现,则关联性变强,然后得到实体e的强关联实体集合和弱关联实体集合;遍历实体注解结果中的所有实体,得到关联程度值组成的实体关联矩阵,记为
E是知识图谱中的实体集合,|E|表示知识图谱中的实体总个数:其中,实体e的强关联实体集合记为S(e):
其中,ei代表第i个实体,
代表实体e和实体ei之间为强关联实体关系;实体e的弱关联实体集合记为W(e):
步骤二、样本负采样及模型训练,得到实体和关系的嵌入式表示;
代表实体e和实体ei之间为弱关联实体关系,具体包括如下子步骤:步骤2.1、初始化循环计数值为1以及循环计数最大值;其中,循环计数值,记为k;循环计数最大值,记为iter;步骤2.2、令S表示知识图谱中的三元组集合,知识图谱中的一个三元组为一个正样本,即S为正样本集合;从S中随机抽取B条正样本得到一个子集合Sbatch,令
Tbatch的构造包括如下子步骤:步骤2.2.1、遍历Sbatch,对每个正样本(h,r,t)进行负采样,负采样的方法同文献1(Feng J.Knowledge Graph Embedding by Translating on Hyperplanes[C]in AAAI.2014):给定关系r,文献1中样本负采样方法所述的平均每个头实体所对应尾实体的数目tph对应本专利的tphr,平均每个尾实体所对应的头实体数目hpt对应本专利的hptr;产生一个[0,1]区间的均匀分布的随机数p,如果p小于等于tphr/(tphr+hptr),则从知识图谱的实体集合E中等概率地抽取一个实体替换正样本中的头实体,且保证替换后的三元组不属于S;如果p大于tphr/(tphr+hptr),则从知识图谱的实体集合E中等概率地抽取一个实体替换正样本中的尾实体,且保证替换后的三元组不属于S;步骤2.2.2、替换完成后,可得到Sbatch中每一个正样本(h,r,t)所对应的负样本(h',r,t'),将每个正样本和负样本加入到Tbatch集合中:Tbatch←Tbatch∪{(h,r,t),(h',r,t')} (6)经过步骤2.2.1和步骤2.2.2后得到Tbatch集合,抽出Tbatch中的实体集合,记为Ebatch;步骤2.3、基于批量随机梯度下降算法对模型进行训练;步骤2.3.1、通过公式(7),三元组(h,r,t)的评分函数计算三元组(h,r,t)的评分,记为fr(h,t);
其中,
代表h+r‑t向量的2范数的平方;步骤2.3.2、通过公式(8)计算基于实体关联性的损失项Lr:
其中,α和β为强关联权值和弱关联权值,α决定了强关联性约束的强度,β决定了弱关联性约束的强度;e代表Ebatch中的实体;在公式(8)的左边项,e'代表e的强关联实体集合,在公式(8)的右边项,e'表e的弱关联实体集合;
代表向量e‑e'的2范数的平方;SC和WC代表用户指定的强关联超参数和弱关联超参数,分别表示对两个关联实体间的距离限制,当实体对在对应的范围内时损失为0,Lr使得有关联的实体对在向量空间里的距离不超过一定范围,并且不是一味地使关联实体对距离最小;步骤2.3.3、通过公式(9)计算模型的损失函数值:
其中,Loss代表模型的损失函数值;fr(h,t)代表正样本(h,r,t)的评分,fr(h',t')代表负样本(h',r,t')的评分,训练时会使得正样本评分趋于低值,负样本评分趋于高值;γ为损失间隔,γ用于控制fr(h,t)和fr(h',t')的差异;步骤2.3.4、计算公式(9)中关于自变量的导数,并按照公式(10)进行更新;
其中,θ为自变量,包括所有的h,r和t,rate为学习率,
代表对模型的损失函数值Loss关于自变量θ取微分;步骤2.3.5、判断循环计数值k是否已经达到计数最大值iter,如果k=iter,完成本方法;否则k=k+1,跳至步骤2.2;至此,从步骤一到步骤二,得到了实体和关系的嵌入式表示:向量h、向量t和向量r。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810377516.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种微博情感确定方法
- 下一篇:基于改进深度特征加权的朴素贝叶斯文本分类方法