[发明专利]一种实体精细分类方法有效

专利信息
申请号: 201711366934.7 申请日: 2017-12-18
公开(公告)号: CN108052625B 公开(公告)日: 2020-05-19
发明(设计)人: 刘知远;辛极;林衍凯;孙茂松 申请(专利权)人: 清华大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 苗青盛;马英迪
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实体 精细 分类 方法
【说明书】:

发明提供一种实体精细分类方法,包括:基于目标实体文本中各单词对应的单词向量,计算实体表示向量;基于句子中目标实体文本两侧各单词分别对应的语境单词向量,获取目标实体文本的基础语境向量;基于目标实体文本的知识库表示向量和基础语境向量,计算所述两侧各单词分别对应的知识库相关注意力值;基于所述知识库相关注意力值及所述基础语境向量,计算目标实体文本的知识库相关语境向量;合并所述目标实体文本的实体表示向量和知识库相关语境向量,获取句子表示向量,基于该句子表示向量,利用于建的目标分类器模型,获取目标实体文本属于各给定类别的概率。本发明能够有效提高分类模型的稳定性,并有效改善实体精细分类的效果。

技术领域

本发明涉及信息处理技术领域,更具体地,涉及一种实体精细分类方法。

背景技术

实体分类的任务是识别实体文本的语义类型,如人物名、地点名、组织名等。该任务有助于精确定位文本中的实体,对于自然语言处理的很多其他任务具有重要的意义。

实体精细分类是实体分类新的研究方向,可以把实体分成更加精细的类别,如人物——运动员或地名——国家等。现有的精细分类方法包括涉及特征的传统方法和利用词向量作为特征的深度学习方法。其中,采用深度学习的方法:

一方面,把实体本身和语境当作两个独立的因素来考虑,单独从实体文本本身方向判断所属分类。而事实上语境中每个词的重要性是根据所考虑的实体变化的。如在例句“盖茨和艾伦联合创立了微软这个世界上最大的软件公司”中,“公司”一词对于判断“微软”的类型非常重要,但是对于判断“盖茨”的类型则没有那么重要。

另一方面,为了结构化地对现实世界的知识进行存储和处理,很多大规模知识图谱被建立,如Wikidata和DBpedia等。知识图谱将世界上所有人物、地名、机构名等专有名词和事物表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如,“加拿大与美国接壤”这一知识,在知识图谱中利用“加拿大,共享边界,美国”的三元组关系进行表示。这种关系信息可以为实体分类提供帮助,例如,如果知道了上述三元组,则可以推断出句子中的“加拿大”很可能是一个国家。然而,采用深度学习的精细分类方法中并没有考虑知识图谱中的这些关系信息。

综上可见,采用深度学习的精细分类方法在利用大规模训练数据上有独特的优势,能够达到较佳的水平。但是,该方法由于采用实体与语境分离以及文本与知识库分离的处理方式,将导致对实体精细分类的效果不佳。

发明内容

为了克服上述问题或者至少部分地解决上述问题,本发明提供一种实体精细分类方法,用以有效提高分类模型的稳定性,并有效改善实体精细分类的效果。

本发明提供一种实体精细分类方法,包括:S1,基于目标实体文本中各单词对应的单词向量,计算所述目标实体文本的实体表示向量;S2,基于句子中所述目标实体文本两侧各单词分别对应的语境单词向量,利用双向循环神经网络,获取所述目标实体文本的基础语境向量;S3,基于所述目标实体文本的知识库表示向量和所述基础语境向量,计算所述两侧各单词分别对应的知识库相关注意力值;S4,基于所述两侧各单词分别对应的知识库相关注意力值,以及所述目标实体文本的基础语境向量,计算所述目标实体文本的知识库相关语境向量;S5,合并所述目标实体文本的实体表示向量和知识库相关语境向量,获取所述句子对应的句子表示向量,并基于所述句子表示向量,利用预先建立的目标分类器模型,获取所述目标实体文本属于各给定类别的概率。

其中,建立步骤S5中所述目标分类器模型的步骤进一步包括:基于所述句子表示向量,根据非线性层函数和逻辑斯蒂函数(Logistic Function)建立初始分类器模型;以所述初始分类器模型所有维度的交叉熵作为优化目标,利用给定训练样本训练所述初始分类器模型,通过梯度下降法优化所述优化目标,获取所述目标分类器模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711366934.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top