[发明专利]文本到知识图谱实体的映射方法、装置、设备及存储介质在审
申请号: | 202110848694.4 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113297854A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 黄宇翔;王健宗;倪子凡 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/04 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518057 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 知识 图谱 实体 映射 方法 装置 设备 存储 介质 | ||
1.一种文本到知识图谱实体的映射方法,其特征在于,包括:
针对知识图谱中的实体,从预设的语料库中获取所述实体的描述性文本,根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱;
以所述拓展知识图谱中的实体为起始节点,通过随机游走得到预设数量个预设长度的随机游走序列;
将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,将所述知识图谱中的实体输入所述训练好的Skip-Gram模型,输出实体词向量;
根据所述实体词向量和所述训练好的Skip-Gram模型的参数生成知识图谱向量空间;
将待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量;
根据所述第一预测词向量在所述知识图谱向量空间中确定最接近的实体词向量,根据所述最接近的实体词向量确定所述待映射的文本映射的知识图谱实体。
2.根据权利要求1所述的方法,其特征在于,所述根据所述描述性文本对所述知识图谱进行拓展,得到拓展知识图谱,包括:
对所述描述性文本进行分词得到第一词集合,对所述第一词集合中的词计算TF-IDF值;
将所述第一词集合中的词作为所述实体的文字属性节点加入所述知识图谱,并根据所述TF-IDF值确定所述文字属性节点对所述实体的关系权重,得到拓展知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述方法包括:
将所述拓展知识图谱中的实体作为起始节点,在所述拓展知识图谱中进行随机游走得到随机游走序列,所述随机游走序列的长度为预设长度;
从所述随机游走的当前节点行走到的与所述当前节点相邻的节点是根据概率分布来确定的,所述概率分布公式表征为:
式中,N为在所述知识图谱中与所述当前节点相连的实体节点的数量,表示与所述当前节点相连的实体节点集合,M为所述当前节点所包含的文字属性节点的数量,表示当前节点的文字属性节点集合,为预设的比例系数,用以表征随机游走对文字属性节点的偏好。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述拓展知识图谱中的实体作为起始节点,在所述拓展知识图谱中进行预设次数随机游走,得到预设次数个预设长度的随机游走序列。
5.根据权利要求1所述的方法,其特征在于,所述Multi-Sense LSTM模型包括:一个通用词嵌入层、一个词义消歧层和两层LSTM网络;
所述将待映射的文本输入训练好的Multi-Sense LSTM模型,得到第一预测词向量,包括:
将所述待映射的文本进行分词得到第二词集合;
将所述第二词集合中的词输入所述通用词嵌入层得到所述词的通用向量;
将所述第二词集合中的词输入所述词义消歧层得到所述词的多个有义向量,其中,所述有义向量的数量为预先通过所述词义消歧层设置的数量;
根据所述第二词集合中除所述词之外的词的通用向量的平均值,确定所述词的上下文向量;
通过带有softmax层的注意力网络对所述多个有义向量进行加权运算得到所述词的有义向量加权和;
将所述第二词集中的所有词的通用向量、上下文向量以及有义向量加权和输入所述两层LSTM网络,得到所述第一预测词向量。
6.根据权利要求1所述的方法,其特征在于,所述将所述随机游走序列输入Skip-Gram模型,对所述Skip-Gram模型进行训练,得到训练好的Skip-Gram模型,包括:
根据预设窗长,将所述随机游走序列中的窗口中心词作为已知词,将所述已知词在所述随机游走序列中的前预设窗长个词和后预设窗长个词作为待预测词;
将所述已知词输入所述Skip-Gram模型,得到所述已知词的前预设窗长个词和后预设窗长个词的预测结果;
根据所述预测结果和所述待预测词的真实结果确定预测的条件概率,当所述预测的条件概率大于预设阈值时,得到训练好的Skip-Gram模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110848694.4/1.html,转载请声明来源钻瓜专利网。