[发明专利]一种基于图表示学习的知识图谱跨语言对齐方法在审
申请号: | 202210020693.5 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114443855A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 李昌赫;张华平;商建云 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/951;G06F16/35;G06F40/263;G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图表 学习 知识 图谱 语言 对齐 方法 | ||
本发明涉及一种基于图表示学习的知识图谱跨语言对齐方法,属于自然语言处理技术领域。在知识图谱构建阶段,通过爬取网站数据作为来源。然后,过滤筛选多语言实体并抽取其结构化数据组成三元组,构建知识图谱。在对齐阶段,通过图表示学习,将不同来源的知识图谱生成对应的嵌入矩阵,在图嵌入基础上,依靠已对齐实体,将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐。本方法充分利用了知识图谱结构信息,通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐,保证了融合后的数据更准确全面,提高了在跨语言领域进行快速分析和智能搜索的效率。
技术领域
本发明涉及一种知识图谱跨语言对齐方法,具体涉及一种基于图表示学习的知识图谱跨语言对齐方法,属于自然语言处理技术领域。
背景技术
知识图谱,作为一种以图的形式表现客观世界中概念和实体及实体之间关系的知识库,其本质上是一种大规模的语义网络,能够将海量数据组织为一张互相关联的网络图。自移动互联网崛起以来,信息呈爆炸式增长,大规模的知识图谱层出不穷,导致各类知识图谱之间存在知识重复、知识间的关联不明确等问题,影响了知识图谱在语义级别的综合集成。典型的多语言知识图谱有:DBpedia、YAGO和Freebase等。各知识图谱中包含大量的知识描述,但是,由于数据来源存在差异,数据语种不同,实际上很难构造一个包含全面事实的知识图谱。
实体对齐,在机器翻译、问答系统和信息检索等领域也被描述为实体匹配或实体解析。实体对齐任务的目标,是识别出不同知识图谱之间指代的对象是否为现实世界中同一事物的实体对。知识图谱的实体对齐技术可以实现知识的连接,将同类知识图谱融合为规模更大、质量更权威的领域知识图谱,并为下游应用提供知识保障。
知识图谱的跨语言对齐任务,通常需要进行复杂的计算。传统的跨语言实体对齐方法,通常采用基于人工定义特征的方法,这不仅需要消耗大量的人力,而且很难迁移到实际的应用场景。近年来出现的知识图谱跨语言对齐方法,大多主要关注于编码三元组信息,但对于知识图谱的结构信息没有充分利用。此外,跨语言实体对齐的标签数据难以获得。因此,如何在大量未标注文本上进行预训练,并发挥少量标签数据的最大价值,对于大规模知识图谱的发展、融合有重要意义。
在针对知识图谱跨语言对齐方面,目前很多方法是面向文本数据,计算文本之间的相似度,或者是基于翻译模型的思想对知识图谱进行嵌入。这些方法没有充分利用知识图谱的结构信息,不能在知识图谱跨语言对齐层面取得比较好的效果。
发明内容
本发明的目的在于针对当前知识图谱跨语言数据信息源众多、内容繁杂,而现有的知识图谱跨语言对齐技术不能充分利用图结构信息、无法准确高效的融合足够丰富的跨语言数据等技术问题,创造性地提出一种基于图表示学习的知识图谱跨语言对齐方法。
本发明的创新点在于:在知识图谱构建阶段,通过爬取网站数据作为来源。然后,过滤筛选多语言实体并抽取其结构化数据组成三元组,构建知识图谱。在对齐阶段,通过图表示学习,将不同来源的知识图谱生成对应的嵌入矩阵,在图嵌入的基础上,依靠已对齐实体,将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐。
本发明是通过以下技术方案实现的。
一种基于图表示学习的知识图谱跨语言对齐方法,包括以下步骤:
步骤1:获取多语言数据。
其中,获取多语言数据包括各类百科类网站的数据;
具体地,步骤1包括以下步骤:
步骤1.1:爬取百科类多语言网站数据,并以html格式存到本地;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210020693.5/2.html,转载请声明来源钻瓜专利网。