[发明专利]一种知识图谱中实体类型分类方法及系统有效
申请号: | 201811125907.5 | 申请日: | 2018-09-26 |
公开(公告)号: | CN109271516B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 刘知远;辛极;朱昊;韩旭;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 实体 类型 分类 方法 系统 | ||
本发明实施例提供一种知识图谱中实体类型分类方法及系统。其中,所提供的方法包括:根据知识图谱中的目标实体在给定的句子中构成的向量特征,对所述目标实体进行分类,获得所述目标实体属于不同类型的概率向量;将所述概率向量输入到预设的语言模型中,通过所述语言模型对所述概率向量进行调整,获得所述目标实体的分类结果。本发明提供的方法,采用语言模型对知识图谱中的实体分类结果进行修正,可以降低远程监督给实体分类任务带来的噪音,从而提高了模型的稳定性,实体分类性能也能够得到极大提升,具有良好的实用性。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种知识图谱中实体类型分类方法及系统。
背景技术
知识图谱,某些场景下也被称为知识库,是一种将现实世界中人类的知识结构化之后形成的知识系统。在知识图谱中,大量的知识,诸如开放数据库和百科全书中的信息,通常以关系数据集合的形式被表达出来。而在关系数据集合中,基本事实被抽象为实体,而规则、逻辑、推理等关联性的信息则被抽象为实体间的关系。若将实体对应于点,关系对应于边,则这些知识可以进一步以图的形式呈现,从而可以被计算机高效的使用,而这也是研究知识图谱的意义所在。这种将实体和抽象概念结构化成多关系数据集合的模式也是近年来被大力提倡的。
虽然已有的知识图谱包含了上亿个实体,相比于无尽的现实世界,它们仍然远远没有完善。这些实体的类型信息往往也是较为残缺的,需要不对进行更新与补充。实体类型分类旨在从自由文本中提取特征并用来分析出一个给定实体的具体类型。在当前的研究中,粗粒度的实体类型分类是较为容易的,但是对于找到细粒度的实体类型而言,亦然是一个极具挑战性的工作。在当前深度神经网络是解决细粒度实体类型分类的一个主流方法。
由于大规模标注训练数据来训练模型的方式代价及其高昂,因而当前的细粒度实体类型分类均采用了远程监管算法来自动构建训练数据。这种对于远程监督的过度依赖带来了诸多问题。在远程监督中,一个句子中出现的实体词组会被链接到知识图谱中对应的同名实体上,之后知识图谱中该实体的所有已标注类型均被认为是当前句子的标注结果。换言之,这些标注都是全局性质的标注,没有考虑到具体每个句子的特殊语义,因而在多数时候引入了噪音。另一方面,细粒度实体类型分类的任务需要的也是一个能考虑具体上下文进行预测的模型。例如,“华盛顿”的类型可以是总统也可以是将军,但在语句“大陆军统帅华盛顿”中,我们应当预测出将军类型而非总统类型。但在实际的远程监督中,将军和总统都会被视作该句子的预测标注。
现有技术中,对知识图谱中实体的标注没有对实体在每一个句子中的具体语义进行考虑,使得对实体标注过程中存在噪音,标注结果不够精确。
发明内容
本发明实施例提供一种知识图谱中实体类型分类方法及系统,用以解决现有技术中对知识图谱中实体的标注没有对实体在每一个句子中的具体语义进行考虑,使得对实体标注过程中存在噪音,标注结果不够精确的问题。
第一方面,本发明实施例提供一种知识图谱中实体类型分类方法,包括:
根据知识图谱中的目标实体在给定的句子中构成的向量特征,对所述目标实体进行分类,获得所述目标实体在属于不同类型的概率向量;
将所述概率向量输入到预设的语言模型中,通过所述语言模型对所述概率向量进行调整,获得所述目标实体的分类结果。
第二方面,本发明实施例提供一种知识图谱中实体类型分类系统,包括:
实体类型分类模块,用于根据知识图谱中的目标实体在给定的句子中构成的向量特征,对所述目标实体进行分类,获得所述目标实体在属于不同类型的概率向量;
语言模型强化模块,用于将所述概率向量输入到预设的语言模型中,通过所述语言模型对所述概率向量进行调整,获得所述目标实体的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811125907.5/2.html,转载请声明来源钻瓜专利网。