[发明专利]用于知识图谱的数据预处理方法及装置在审
申请号: | 202010089110.5 | 申请日: | 2020-02-12 |
公开(公告)号: | CN111309823A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 巢林林;何建杉;王太峰;褚崴 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36;G06N3/02 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 知识 图谱 数据 预处理 方法 装置 | ||
本说明书实施例提供一种用于知识图谱的数据预处理方法和装置,在确定知识图谱中的节点及连接关系类别的向量表达时,以三元组中首节点对应的第一节点向量与首节点和尾节点之间的连接关系类别对应的第一关系向量的哈达玛积融合得到中间向量,并将中间向量与尾节点对应的第二节点向量的距离作为参考评价指标,基于对正负样本在参考评价指标上的取值的调整,更新相应的节点向量及关系向量。这种方式在节约参数的基础上,能够同时表达诸如对称关系、相反关系、组合关系等常见关联关系,提升知识图谱的表达能力。
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机确定知识图谱的向量表示的数据预处理方法和装置。
背景技术
随着互联网的发展,网络数据内容呈现爆炸式增长的趋势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力,为知识化组织和人工智能应用奠定了基础。
知识图谱主要用来描述真实世界中存在的各种实体和概念,以及他们之间的关系,具有很强的数据描述能力。其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。特别是,可以将知识图谱与机器学习模型相结合,增强模型的预测能力。例如,在客服机器人问答系统中,可以通过引入与产品服务相关的知识图谱,帮助意图识别模型对用户使用自然语言提出的问题进行语义分析和意图识别,之后在知识图谱中查询答案推送给用户。
知识图谱的使用离不开知识图谱的表征,也就是将知识图谱中各个实体以及实体之间的关系用向量的形式进行表征。然而,常规技术中对知识图谱的学习和表征不够深入和全面,使得其表达能力有限。特别地,对于表示实体之间关系的知识图谱,需要表达的关系错综复杂,例如可以包括对称关系(配偶)、相反关系(妻子和丈夫相反)、组合关系(“妻子”和“父亲”组合得到“岳父”)等等。常规技术在这些错综复杂的实体关系表达上,要么不够全面,要么参数量过大。
因此,希望能有改进的方案,更有效对知识图谱进行表征,增强其表达能力。
发明内容
本说明书一个或多个实施例描述了一种用于知识图谱的数据预处理方法及装置,基于对当前实体关系向量的新的评估方法,挖掘对知识图谱进行表征的向量表示,从而提高表征向量对特殊关系的表达能力。
根据第一方面,提供了一种用于知识图谱的数据预处理方法,所述知识图谱包括对应于M个实体的M个节点,以及N个连接关系类别,并通过对应于N个连接关系类别的有向连接边描述M个节点之间的关联关系,M个节点分别对应M个s维的节点向量,N个连接关系类别分别对应N个s维的关系向量,所述方法包括:根据所述知识图谱获取当前三元组,其中,所述当前三元组包括第一节点、第二节点以及第一连接关系类别,所述第一节点对应第一节点向量,所述第一连接关系类别对应第一关系向量,所述第二节点对应第二节点向量;确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离;基于所述距离,更新相应的节点向量及关系向量,从而得到用于表征知识图谱中的各个节点及各个连接关系类别的向量表示,使得所述知识图谱用于进行对应于通过N个连接关系类别关联的所述M个节点的实体关系业务处理。
在一个实施例中,所述第一节点向量、所述第二节点向量、所述第一关系向量分别对应的初始向量,通过随机赋值确定,或者预先设定。
在一个实施例中,所述第一关系向量在各个维度上的初始值均在-1到1之间。
在一个实施例中,所述确定所述第一节点向量与所述第一关系向量通过哈达玛积融合得到的中间向量,与所述第二节点向量的距离包括:确定所述中间向量与所述第二节点向量的差向量;将所述差向量在各个维度上的数值的绝对值之和或者所述差向量的模确定为所述距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010089110.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置