[发明专利]跨语言多来源垂直领域知识图谱构建方法有效

专利信息
申请号: 202011044895.0 申请日: 2020-09-28
公开(公告)号: CN112199511B 公开(公告)日: 2022-07-08
发明(设计)人: 崔莹;代翔;杨露;李春豹;刘鑫;黄刘;潘磊 申请(专利权)人: 西南电子技术研究所(中国电子科技集团公司第十研究所)
主分类号: G06F16/36 分类号: G06F16/36;G06F40/49;G06F40/58;G06F40/295;G06F16/35
代理公司: 成飞(集团)公司专利中心 51121 代理人: 郭纯武
地址: 610036 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语言 来源 垂直 领域 知识 图谱 构建 方法
【说明书】:

发明公开的一种跨语言多来源垂直领域知识图谱构建方法,涉及知识工程技术领域。本发明通过下述技术方案实现:垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据,通过内容和链接分析完成平行语料库构建,在预处理的基础上基于训练好的翻译模型实现外文文本的自动翻译;领域知识预标注训练实现基于文本分词、文本聚类的主动学习标注,完成基于分析主题的待标注语料筛选,生成确认后的业务标注数据集;选择最优算法,结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取;领域知识融合与消歧对不同来源知识,通过网络等价实体合并进行融合消歧,获得跨语言多来源垂直领域知识图谱。

技术领域

本发明涉及知识工程技术领域跨语言知识图谱构建,尤其涉及跨语言多来源垂直领域知识图谱构建方法。

背景技术

知识图谱(Knowledge Graph)源于语义网、图数据库等相关学术研究领域,不同领域对知识图谱研究的侧重有所不同,如自然语言处理、知识工程、机器学习、数据库和数据管理等领域都有不同的研究与应用。知识图谱构建首先需要确定可用数据源,如结构化数据、机器可读的开放本体或辞典、开放链接数据和开放知识库、行业知识库和行业垂直网站、在线百科(维基、互动、百度)和文本等数据。然后,有效地采集数据,如开放链接数据采集、百科采集、文本信息采集(网络爬虫与主题爬虫)等。知识图谱使用一系列字符串符号映射于真实世界中存在的各种实体或概念中,然后以这些实体或概念间的关联关系为连接符,将不同类型的信息连接在一起,从而构成一张巨大的语义网络图。与传统的信息管理方式相比,知识图谱能够帮助人们更快速有效地获取所需的知识间的逻辑关系,有利于知识间智能推理的实现。其中,垂直领域知识图谱面向特定的行业领域,能够被应用于搜索引擎、智能问答、知识挖掘和决策支持等业务中。跨语言知识图谱构建主要内容包括:语义Web与链接数据、跨语言知识链接、跨语言属性、值抽取、跨语言本体构建和XLORE-跨语言知识图谱。知识图谱(KnowledgeGraph)在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是一种比较通用的语义知识的形式化描述框架,它用节点表示语义符号,用边表示符号之间的语义关系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱技术包括知识表示、知识图谱构建和知识图谱应用三方面。知识表示技术可以分成符号主义和联结主义。具体的表示方法可以分为三类。基于符号逻辑的知识表示主要包括逻辑表示法、产生式表示法和框架表示等。在目前大规模数据时代,已经不能很好地解决知识表示的问题。知识表示主要包括XML语言、RDF描述框架和OWL语言等。当前在工业界大规模应用的是基于RDF三元组的表示方法。表示学习的目标是通过机器学习或深度学习,将研究对象的语义信息表示为稠密低维的实值向量。相比传统方法,可显著提升计算效率,有效缓解数据稀疏性,更容易实现不同来源的异质信息融合。知识图谱的构建是一件困难的事情,是目前人工智能领域研究的热点和难点,特别是知识图谱的自动化构建。知识体系的构建也叫知识建模,是指采用什么样的方式表达知识,其核心就是构建一个本体对目标知识进行描述。所谓的本体是一个知识描述框架,它定义了知识的类别体系,每个类别下所属的概念和实体、某类概念和实体所具有的属性以及概念之间、实体之间的语义关系。知识体系的构建有两种方法:一种是自顶向下:即先构建一个完善的知识体系,再将知识填充到这个知识体系中;另外一种是自底向上:即在知识抽取的过程中,自动的扩充和构建知识体系。目前比较流行的自底向上的方法。目前大多数知识图谱都是采用自底向上的方式进行构建,知识图谱大致的构建流程是个不断迭代更新的过程。知识获取是从海量的文本数据中获取结构化知识的过程,数据来源不同,知识获取的难度和手段也不同。通常,信息抽取包括如下的基本任务:实体识别,实体消歧,关系抽取以及事件抽取等。知识体系的融合是两个或多个异构知识体系进行融合,相同的类别、属性、关系进行映射;实例的融合,就是两个图谱中的实例进行融合,包括实体实例和关系实例。语义网络是QuillanMRoss1966年在研究人类联想记忆时提出的一种心理学模型。总的来说,语义网络是一种由有向图表示的知识系统,它将知识表示为相互连接的点和边,节点代表概念,边则代表概念之间的语义关系。语义网络中最基本的单元称为语义基元,可以用我们熟悉的三元组表示:节点1,关系,节点2。语义网络中的关系可以有很多种,例如实例关系,分类关系,成员关系等。语义网络是由大量的实体以及他们之间的关系构成,语义网络的优点是便于计算机的存储和检索,缺点是推理过程较复杂,也不完善,需要对不同的关系做不同的处理。语义网与语义网络是完全不同的概念。语义网的概念来源于互联网,人们期望互联网能够更为有效的组织信息,使得互联网内丰富的资源得到充分的利用,互联网中的信息仅仅通过薄弱的结构组织起来。计算机一直面临着这样的困境:无法获取网络文本的语义信息。为了解决互联网信息的语义问题,TimBerners-Lee等人提出了下一代互联网——语义Web的概念,其已经成为W3C标准。在语义Web中,所有的信息都具备一定的结构,这些结构的语义通常使用本体(Ontology)来描述。本体的定义非常多,最常用的定义是“本体是指一种形式化的,对于共享概念体系的明确而又详细的说明”。通俗地说,本体描述了特定领域(领域本体)或所有领域(通用本体)中的概念以及概念之间的关联关系,并且这些概念和关系是明确的、被共同认可的。通常,本体中主要包含概念、概念的其它称谓(即同义关系)、概念之间的上下位关系、概念的属性关系(分为对象属性和数值属性)、属性的定义域(Domain)和值域(Range),以及在这些内容上的公理、约束等。知识图谱在实体层面对本体进行了丰富和扩充;本体中突出和强调的是概念以及概念之间的关联关系,描述了知识图谱的数据模式;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。本体通常使用RDF和OWL语言进行描述,知识图谱作为本体基础上的一种延伸,使用同样的方式进行描述。同时,使用SPARQL进行资源和数据的统一查询和检索。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011044895.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top