[发明专利]基于记忆神经网络的知识抽取方法以及系统和设备有效
申请号: | 201810018789.1 | 申请日: | 2018-01-09 |
公开(公告)号: | CN108304911B | 公开(公告)日: | 2020-03-13 |
发明(设计)人: | 包红云;郑孙聪;周鹏;齐振宇;徐波 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06N3/02 | 分类号: | G06N3/02;G06N5/02;G06F40/30 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 郭文浩;陈晓鹏 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 记忆 神经网络 知识 抽取 方法 以及 系统 设备 | ||
本发明涉及知识抽取领域,具体涉及一种基于记忆神经网络的知识抽取方法以及系统和设备,目的在于解决现有技术中存在的信息冗余问题。本发明在给定预定义关系类型的前提下,首先利用卷积神经网络获取输入文本中可能具有的关系类型,及其语义编码向量;再利用双向长短时记忆神经网络进行语义编码,得到语义向量;将关系类型作为双向长短时记忆网络的初始值以及解码模块中的第一个标签,进而将关系类型信息融入到编码信息以及解码模块的标签信息中;最后采用单向长短时记忆网络结构的解码模块得到标签序列,然后通过解析标签序列得到结构化信息。本发明不但极大地提高了结构化信息抽取的效率,而且克服了现有技术中存在的信息冗余问题。
技术领域
本发明涉及本发明涉及知识抽取领域,具体涉及一种基于记忆神经网络的知识抽取方法以及系统和设备。
背景技术
互联网的快速发展,使得网络上的文本数据呈爆炸式的增长,海量文本数据蕴含着大量知识同时也存在着信息冗余的问题。一方面,从用户的角度而言,如何从日益增多的海量文本数据中快速获取真正需要的关键性信息,已经成为人们日常生活和工作中迫切的需求;另一方面,从智能应用角度而言,各种智能化应用,如:自动问答、智能搜索、个性化推荐等,都需要知识资源的支撑,而大量的知识资源只有以结构化的知识图谱形式组织在一起,才可以被机器利用。为推动各领域智能化应用的发展,需要不断地去丰富和完善已有的知识图谱。
人们目前获取信息的主要方式还是搜索引擎。搜索引擎是基于对网页进行检索的技术,根据用户输入的查询词,返回与查询词相关的网页并根据相关性排序。这种基于网页检索的知识获取方式,需要对检索返回的网页进行后续的人工阅读和理解才能获取所需的信息,这种基于人工整理的方式的成本太高,而且不能满足快速全面地获取信息和知识的需求。
知识抽取作为一种从半结构化和非结构化文本数据中自动化地抽取实体、关系以及实体属性等结构化信息的技术,对丰富已有知识资源具有着十分重要的意义。不同于信息检索技术,知识抽取技术是一种比信息检索更深层次的文本挖掘方法,它可以发现并整合蕴含在海量信息中的特定目标信息,减少人工筛选和归纳的工作,提高获取信息的速度和质量。因此,在大数据时代,知识抽取技术有助于人们更高效地获取所需信息。
知识抽取任务可以概述为从非结构化或半结构化的文本中识别相关要素,并以结构化的形式存储,如RDF(Resource Description Framework,资源描述框架)中的三元组{主语(subject),谓词(predicate),宾语(object)}形式。其中,对于预定义关系类型的知识抽取任务,其目的是从非结构化文本中抽取出满足预定义关系类型的三元组。抽取出的三元组中的“谓词(predicate)”不再是单纯来自于输入文本内容中的动词或谓词,而是预定义关系集合中的关系值,主语和宾语都是输入文本中的词语。
已有的预定义关系类型的三元组抽取算法可以简单地分为两类:一类是串联抽取方法,其优势是便于单独优化实体识别任务和关系抽取任务,但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标,而实体识别的结果会进一步影响关系抽取的结果,导致误差的累积;另一类是实体和关系的关联性抽取算法,这类方法通过增强实体和关系的关联性来提升三元组抽取的效果。虽然这些方法各有优势,但是它们的基本思想都是先获取实体元组和关系元组,进而得到基本知识单元“三元组”,最终都会造成信息冗余。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种基于记忆神经网络的知识抽取方法以及系统和设备,能够自动地从互联网中的非结构化文本中抽取得到满足预定义关系类型的结构化信息,有助于丰富已有的知识图谱资源,进而为各种智能化应用更好地服务。
本发明的一方面,提出一种基于记忆神经网络的知识抽取方法,包括以下步骤:
步骤A1,接收待解析文本,利用训练好的词向量层生成句子的矩阵化表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810018789.1/2.html,转载请声明来源钻瓜专利网。