[发明专利]属性对齐模型训练方法及装置在审
申请号: | 201911387685.9 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111090993A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 高丛;苏少炜;陈孝良;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/247;G06F16/36 |
代理公司: | 北京竹辰知识产权代理事务所(普通合伙) 11706 | 代理人: | 聂鹏 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性 对齐 模型 训练 方法 装置 | ||
本公开公开了一种属性对齐模型训练方法、装置、电子设备和计算机可读存储介质。其中方法包括:获取数据源;从词典中获取数据源的属性名称的属性描述、同义属性名称的属性描述和反义属性名称的属性描述;将属性名称的属性描述、同义属性名称的属性描述作为正训练样本;和/或,将反义属性名称的属性描述、与属性名称不在同一聚类的其它属性名称的属性描述作为负训练样本;将确定的正训练样本集和/或负训练样本集进行训练,得到属性对齐模型。本公开实施例利用词典为属性名称提供额外的语义信息即属性描述,在训练属性对齐模型使可用的特征更丰富,而且可以选择结构简单的二分类模型,减少计算复杂度,快速得到对齐结果,可以达到很好的对齐效果。
技术领域
本公开涉及人工智能技术领域,特别是涉及一种属性对齐模型训练方法、装置和计算机可读存储介质。
背景技术
知识图谱为人工智能提供了强大的数据支持,这种数据能力要依靠数据的统一性来维持,包括实体、属性名、属性值格式等内容的统一。属性对齐解决的是将单源或多源知识图谱中表示相同含义的属性统一成同一个标准属性名,例如A知识图谱中的“生日”和B知识图谱中的“出生日期”都表示出生日期这个含义,属性对齐后将这些属性的名称都改为“出生日期”。属性对齐是知识融合的一个组成部分,是知识图谱构建的重要步骤。
在现有技术中,获取N个数据源;根据N个数据源得到属性名称集合并生成内部词典;根据属性名称集合、内部词典以及N个数据源中每个数据源的属性名称,得到每个数据源的属性特征向量;根据每个数据源的属性特征向量计算N个数据源中任意两个数据源之间的相似度和相似度矩阵;根据相似度矩阵对N个数据源进行聚类得到k个聚类;根据内部词典对k个聚类中同一聚类的数据源进行属性对齐得到k个数据源,对k个数据源进行属性对齐得到一个结果数据源。
但是,上述方案只利用了属性的结构信息,严重依赖图谱的体量和质量,如果知识图谱中的三元组本身质量不高或数量较少,就无法达到很好的对齐效果。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开解决的技术问题是提供一种属性对齐模型训练方法,以至少部分地解决现有技术中只利用了属性的结构信息,严重依赖图谱的体量和质量,无法达到很好的对齐效果的技术问题。此外,还提供一种属性对齐模型训练装置、属性对齐模型训练硬件装置、计算机可读存储介质和属性对齐模型训练终端。
为了实现上述目的,根据本公开的一个方面,提供以下技术方案:
一种属性对齐模型训练方法,包括:
获取至少一个数据源;
从词典中获取所述数据源的属性名称的属性描述、所述属性名称的同义属性名称的属性描述和所述属性名称的反义属性名称的属性描述;
将所述属性名称的属性描述、所述同义属性名称的属性描述作为正训练样本;和/或,将所述反义属性名称的属性描述、与所述属性名称不在同一聚类的其它属性名称的属性描述作为负训练样本;
将根据所述至少一个数据源确定的正训练样本集和/或负训练样本集作为训练数据进行训练,得到属性对齐模型。
进一步的,所述将根据所述数据源确定的正训练样本集和/或负训练样本集作为训练数据进行训练,得到属性对齐模型,包括:
将所述正训练样本集中的同义属性名称进行组合,确定同义属性组,和/或将所述负训练样本集中的反义属性名称进行组合,确定反义属性组;其中,所述同义属性组或所述反义属性组中包含第一属性名称的第一属性描述和第二属性名称的第二属性描述;
将所述第一属性描述和所述第二属性描述输入神经网络进行预测;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911387685.9/2.html,转载请声明来源钻瓜专利网。