[发明专利]用于知识图谱的数据预处理方法及装置在审
申请号: | 202010089110.5 | 申请日: | 2020-02-12 |
公开(公告)号: | CN111309823A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 巢林林;何建杉;王太峰;褚崴 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36;G06N3/02 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 知识 图谱 数据 预处理 方法 装置 | ||
1.一种用于知识图谱的数据预处理方法,所述知识图谱包括对应于M个实体的M个节点,以及N个连接关系类别,并通过对应于N个连接关系类别的有向连接边描述M个节点之间的关联关系,M个节点分别对应M个s维的节点向量,N个连接关系类别分别对应N个s维的关系向量,所述方法包括:
根据所述知识图谱获取当前三元组,其中,所述当前三元组包括第一节点、第二节点以及第一连接关系类别,所述第一节点对应第一节点向量,所述第一连接关系类别对应第一关系向量,所述第二节点对应第二节点向量;
确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离;
基于所述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得所述知识图谱用于进行对应于所述M个节点的实体关系业务处理。
2.根据权利要求1所述的方法,其中,所述第一节点向量、所述第二节点向量、所述第一关系向量分别对应的初始向量,通过随机赋值确定,或者预先设定。
3.根据权利要求1或2所述的方法,其中,所述第一关系向量在各个维度上的初始值均在-1到1之间。
4.根据权利要求1所述的方法,其中,所述确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离包括:
确定所述中间向量与所述第二节点向量的差向量;
将所述差向量在各个维度上的数值的绝对值之和或者所述差向量的模确定为所述距离。
5.根据权利要求1所述的方法,其中,所述当前三元组为从所述知识图谱获取的正例三元组;所述基于所述距离,更新相应的节点向量及关系向量包括:
以最小化所述距离为目标,更新相应的节点向量及关系向量。
6.根据权利要求1所述的方法,所述当前三元组为对从所述知识图谱获取的正例三元组进行以下中的一项操作得到的负例三元组:用正例三元组的首节点以外的其他节点替换所述首节点作为第一节点;用正例三元组的尾节点以外的其他节点替换所述尾节点作为第二节点;
所述基于所述距离,更新相应的节点向量及关系向量包括:
以最大化所述距离为目标,更新相应的节点向量及关系向量。
7.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述距离确定所述第一节点通过所述第一连接关系类别连接到所述第二节点的概率,所述概率与所述距离负相关;
在所述当前三元组为正例三元组的情况下,所述基于所述距离,更新相应的节点向量及关系向量包括:
以最大化所述概率为目标,更新相应的节点向量及关系向量;
在所述当前三元组为负例三元组的情况下,所述基于所述距离,更新相应的节点向量及关系向量包括:
以最小化所述概率为目标,更新相应的节点向量及关系向量。
8.一种用于知识图谱的数据预处理装置,所述知识图谱包括对应于M个实体的M个节点,以及N个连接关系类别,并通过对应于N个连接关系类别的有向连接边描述M个节点之间的关联关系,M个节点分别对应M个s维的节点向量,N个连接关系类别分别对应N个s维的关系向量,所述装置包括:
获取单元,配置为根据所述知识图谱获取当前三元组,其中,所述当前三元组包括第一节点、第二节点以及第一连接关系类别,所述第一节点对应第一节点向量,所述第一连接关系类别对应第一关系向量,所述第二节点对应第二节点向量;
确定单元,配置为确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离;
更新单元,配置为基于所述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得所述知识图谱用于进行对应于通过N个连接关系类别关联的所述M个节点的实体关系业务处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010089110.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置