[发明专利]基于指称句的知识图谱和文本信息的表示方法及系统有效
申请号: | 201910501471.3 | 申请日: | 2019-06-11 |
公开(公告)号: | CN110275960B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 王亚珅;张欢欢;刘弋锋;谢海永 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30;G06F40/126;G06N5/02;G06N3/04 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 田卫平 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 指称 知识 图谱 文本 信息 表示 方法 系统 | ||
1.一种基于指称句的知识图谱和文本信息的表示方法,其特征在于,该方法包括:
对所述知识图谱进行建模以获得实体向量和关系向量;
获取所述文本信息中包含的与关系相关的深层语义信息,并基于所述与关系相关的深层语义信息进行知识建模以获得文本化关系向量;获取所述文本信息中包含的与实体相关的深层语义信息,并基于所述与实体相关的深层语义信息进行知识建模以获得文本化实体向量;
基于所述实体向量、所述关系向量、所述文本化关系向量、所述文本化实体向量以及词语向量构造优化参数,基于所述优化参数对知识图谱和文本信息的联合表示;
获取所述文本信息中包含的与关系相关的深层语义信息,并基于所述与关系相关的深层语义信息进行知识建模以获得文本化关系向量,包括;
通过卷积神经网络对文本信息中的文本化关系进行向量建模得到第一模型;
将实体对向量中存在与知识图谱呈定义关系的词向量作为所述第一模型的输入,通过卷积神经网络中的卷积层和池化层输出文本化关系向量;
基于所述关系向量与所述文本化关系向量之间的距离构建第二损失函数,通过所述第二损失函数对所述关系向量与所述文本化关系向量进行模型训练,获得训练后的文本化关系向量。
2.如权利要求1所述的方法,其特征在于,所述对知识图谱进行建模,获得实体向量和关系向量,包括:
采用翻译模型作为知识图谱表示学习模型,通过所述翻译模型进行知识图谱学习获得实体向量和关系向量。
3.如权利要求2所述的方法,其特征在于,通过所述翻译模型进行知识图谱学习获得实体向量和关系向量,包括:
通过所述翻译模型进行知识图谱学习获得头实体向量、尾实体向量;
根据所述头实体向量和尾实体向量对关系向量进行表示;
根据所述头实体向量、尾实体向量和关系向量组成的第一三元组集合,构建第一打分函数;
根据所述第一打分函数构建第一损失函数,对所述第一三元组集合进行模型训练,以获得知识图谱中训练后的实体向量和训练后的关系向量。
4.如权利要求1所述的方法,其特征在于,获取所述文本信息中包含的与实体相关的深层语义信息,并基于所述与实体相关的深层语义信息进行知识建模以获得文本化实体向量,包括:
采用递归神经网络构成编码器,通过所述编码器生成指定实体对应指称句的向量表示;
使用注意力模型从指定实体对应指称句的向量表示中选择指定数量的指称句,形成指定实体的文本化实体向量。
5.如权利要求4所述的方法,其特征在于,获取所述文本信息中包含的与实体相关的深层语义信息,并基于所述与实体相关的深层语义信息进行知识建模以获得文本化实体向量,还包括:
在形成指定实体的文本化实体向量之后,基于所述文本化实体向量和关系向量组成的第二三元组集合,构建第二打分函数;
根据所述第二打分函数构建第三损失函数,通过所述第三损失函数对所述第二三元组集合进行模型训练,获得知识图谱中训练后的文本化实体向量。
6.如权利要求5所述的方法,其特征在于,采用递归神经网络构成编码器,通过所述编码器生成指定实体对应指称句的向量表示,包括:
采用带有长短期记忆单元的递归神经网络构成编码器,在每个时间步对所述递归神经网络的隐状态向量进行更新,通过所述编码器生成指定实体对应指称句的向量表示。
7.如权利要求6所述的方法,其特征在于,使用注意力模型从指定实体对应指称句的向量表示中选择指定数量的指称句,包括:
结合实体的结构表示与实体的指称句计算注意力因子;
选取实体的指称句中注意力因子高于指定阈值的指称句。
8.如权利要求7所述的方法,其特征在于,基于所述实体向量、所述关系向量、所述文本化关系向量、所述文本化实体向量以及词语向量构造优化参数,包括:
构建基于所述训练后的实体向量、所述训练后的关系向量、所述训练后的文本化关系向量、所述训练后的文本化实体向量以及词语向量的模型参数,基于所述模型参数获得优化参数。
9.一种基于指称句的知识图谱和文本信息的表示系统,其特征在于,包括:
知识图谱表示学习模块,用于对所述知识图谱进行建模以获得实体向量和关系向量;
文本化关系表示学习模块,用于获取所述文本信息中包含的与关系相关的深层语义信息,并基于所述与关系相关的深层语义信息进行知识建模以获得文本化关系向量;
文本化实体表示学习模块,用于获取所述文本信息中包含的与实体相关的深层语义信息,并基于所述与实体相关的深层语义信息进行知识建模以获得文本化实体向量;
函数构建模块,用于基于所述实体向量、所述关系向量、所述文本化关系向量、所述文本化实体向量以及词语向量构造优化参数,基于所述优化参数对知识图谱和文本信息的联合表示;
获取所述文本信息中包含的与关系相关的深层语义信息,并基于所述与关系相关的深层语义信息进行知识建模以获得文本化关系向量,包括;
通过卷积神经网络对文本信息中的文本化关系进行向量建模得到第一模型;
将实体对向量中存在与知识图谱呈定义关系的词向量作为所述第一模型的输入,通过卷积神经网络中的卷积层和池化层输出文本化关系向量;
基于所述关系向量与所述文本化关系向量之间的距离构建第二损失函数,通过所述第二损失函数对所述关系向量与所述文本化关系向量进行模型训练,获得训练后的文本化关系向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910501471.3/1.html,转载请声明来源钻瓜专利网。