[发明专利]一种基于表示学习的知识库实体分类的计算方法有效

专利信息
申请号: 201710608234.8 申请日: 2017-07-24
公开(公告)号: CN107545033B 公开(公告)日: 2020-12-01
发明(设计)人: 李涓子;侯磊;金海龙;张鹏 申请(专利权)人: 清华大学
主分类号: G06F16/28 分类号: G06F16/28;G06F40/30
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹;李官
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 表示 学习 知识库 实体 分类 计算方法
【说明书】:

发明涉及一种基于表示学习的知识库实体分类的计算装置,涉及文本分类和知识库补全领域。所述方法包括步骤:对于知识库中的实体,构造包含不同层次信息的共现网络,将词语‑词语,实体‑词语,类别‑词语,实体‑类别之间的共现信息编码到网络中;基于构造的共现网络,利用基于网络的表示学习方法,学习实体和类别的向量表示;基于学习得到的向量表示,利用学习排序算法,为实体和类别学习映射矩阵,语义上相关的实体和类别在语义空间中接近;利用自顶向下的搜索方法,为知识库中的实体自动分配类别,得到一条类别的路径。本发明方法有利于解决现有实体分类方法中存在的问题。

技术领域

本发明涉及文本分类和知识库补全技术领域,具体涉及一种基于表示学习的知识库实体分类的计算方法。

背景技术

本部分向读者介绍可能与本发明的各个方面相关的背景技术,相信能够向读者提供有用的背景信息,从而有助于读者更好地理解本发明的各个方面。因此,可以理解,本部分的说明是用于上述目的,而并非构成对现有技术的承认。

近些年来,知识库吸引了越来越多的研究兴趣。现有的知识库大都不完善,很多研究者都致力于实现知识库补全的工作。为知识库中的实体分配类别是知识库补全的一个重要任务。实体的类别信息在知识库中具有非常重要的作用,有助于问答系统,推荐系统,关系抽取等任务。当前主要的研究方向是为实体分配细粒度的类别,因为细粒度的类别能够提供更加丰富的语义信息。

现有的研究通常采用机器学习中的多分类算法来对知识库中的实体进行分类,即把知识库中的实体分类任务看作是自然语言处理中传统的文本分类问题。主要的步骤是,先定义一些基于知识库的特征,然后利用传统的多分类算法来实现类别的预测。近些年来,表示学习技术迅猛发展,对实体分类任务有很大的帮助,通常的做法是为实体和类别分别定义特征,再将实体和类别的特征映射到同一个语义空间中,进而实现实体类别的推理计算,也取得了比较好的效果。

然而,现有的实体分类算法面临2个主要的问题:第一,难以为知识库中的实体设计有效的特征,不同于上下文中出现的实体,包含的语义信息比较少,知识库中的实体包含丰富的文本信息和结构化信息,需要用一种合理的方式表示知识库中的实体;第二,没有充分考虑类别之间的层次关系,知识库中的类别形成一棵树状结构,蕴含着相应的结构信息,现有的方法没有充分考虑分类树的层次结构。

发明内容

要解决的技术问题是如何提供一种基于表示学习的知识库实体分类的计算方法。

针对现有技术中的缺陷,本发明提供一种基于表示学习的知识库实体分类的计算方法,可以更好地解决现有知识库中实体分类方法中存在的问题。

第一方面,本发明提供了一种基于表示学习的知识库实体分类的计算装置,其包括步骤:

A:对于给定类别标注的知识库中的实体,构造词语-词语、实体-词语、类别-词语、实体-类别一共4个层次的共现网络,将语义信息整合到4个异构的共现网络中;

B:基于所述4个异构的共现网络,利用基于网络的表示学习算法,学习得到每个实体和类别的向量表示;

C:基于所述实体和类别的向量表示,利用学习排序算法,学习实体和类别的映射矩阵,将实体和类别映射到同一个语义空间中;

D:根据所述向量表示和所述映射矩阵,计算实体和类别之间的相似度,利用自顶向下的搜索方法,给未标注的实体分配类别路径。

可选地,所述步骤A包括:

A1:构造word-word共现网络Gww,用于描述在实体描述中词语级别的共现信息,形式化地表示为Gww=(V,Eww),每个结点代表一个word,边上地权重ωij表示两个词在文本中的共现次数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710608234.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top