[发明专利]一种基于模式自学习的中文开放式关系抽取方法在审
申请号: | 201510475450.0 | 申请日: | 2015-08-06 |
公开(公告)号: | CN105138507A | 公开(公告)日: | 2015-12-09 |
发明(设计)人: | 刘峤;刘瑶;秦志光;其他发明人请求不公开姓名 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式 自学习 中文 开放式 关系 抽取 方法 | ||
技术领域
本发明涉及自然语言处理领域,特别是涉及中文信息抽取和开放式中文关系抽取。
背景技术
开放式关系抽取是指自动地从文本中抽取出实体以及实体间的语义关系,其不需预先定义关系类型,直接使用文本中的词汇作为关系元组中的实体和关系词。例如,从如下例句“奥巴马毕业于哥伦比亚大学”中,可以抽取出如下的三元关系元组:(奥巴马,毕业,哥伦比亚大学)。开放式实体关系抽取是知识库构建的基础,对于智能信息检索和应用有十分重要的实际应用价值。
开放式关系抽取方法主要分为三种类型,分别是基于词性的方法,基于语义角色标注的方法,和基于依存分析的方法。基于词性的关系抽取方法的主要问题在于它仅能够抽取关系词和实体相连的关系元组,难于抽取实体和关系词存在一定距离的关系元组。基于语义角色标注的关系抽取准确率相对较高,但这类方法的计算复杂度较高,难以适应实际大规模数据处理需求。采用基于依存分析的关系抽取方法可以较好地解决上述问题。依存分析是指利用依存语法将句子分析成描述各词语间依存关系的依存句法树,即指出了词语间的句法搭配关系,这种搭配关系是与语义相关联的。现有的一些基于依存分析的关系抽取方法主要是预先定义有限的关系模式然后抽取关系元组,因此抽取的关系元组召回率难以满足实际应用。同时也存在一些开放式关系抽取系统,学习和使用大量依存关系模式抽取关系元组,但在学习的过程寻找关系元组对应的语句容易产生错误,降低了关系模式的准确性。
发明内容
本发明提供了一种开放式中文关系抽取方法。该方法能够从已有知识中自动学习得出实体间的依存关系模式,进而实现无需限定关系类别的开放式关系抽取。该方法的主要特点在于模式学习的过程不依赖于特定的人工标注语料,可有效提高面向开放域的中文实体关系抽取的准确率和召回率。
本发明提出的基于模式自学习的中文开放式关系抽取方法,包括:基于已有知识库获取高质量的实体关系元组和相应的句子作为训练语料,通过本专利提出的模式学习方法得到实体和关系词之间的依存路径模式;对待抽取文本进行分词、词性标注和依存分析等预处理,并借助之前学习得到的关系模式进行实体关系抽取;采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高质量的实体关系元组。
其中,所述的关系模式学习方法,包括:
通过已有知识库或者百科网页信息框获取高质量的实体关系元组和相应的语句作为训练语料,同时也可以利用中文关系抽取系统抽取并选择高质量的关系元组,以构建包含关系元组和相应语句的训练语料;利用自然语言处理工具对训练文本进行分词、词性标注和依存分析预处理;利用大规模高质量训练语料的依存分析结果和高质量的关系元组,学习得到实体和关系词间的依存路径模式。
其中,所述的利用学习得到的关系模式进行实体关系抽取的方法,包括:
利用语句的依存分析树进行候选实体核心词识别以及对实体进行扩展;对待抽取语句选择合适的模式抽取关系元组;对抽取的关系核心词进行扩展以及将抽取的二元关系进行多元扩展。
本发明的发明目的是这样实现的:本发明首先通过高质量的实体关系元组和相应的句子语料学习得到大量依存路径关系模式,然后使用关系模式抽取大量的关系元组,最终对抽取的关系元组进行质量评估选并择其中高质量的关系元组。
与现有技术相比,本发明的有益效果主要有以下几点:
本发明能够在不限定关系类别的情况下实现开放式中文关系抽取,实体关系抽取准确率和召回率比现有技术要好。
本发明提出的依存路径模式学习方法具有独创性,通过学习得到的依存路径模式不仅考虑到实体所在上下文的词法和句法信息,而且包含词汇的语义信息。与相关技术相比,该方法更为先进,关系抽取结果也更为可靠。
附图说明
图1为本发明提出的基于模式自学习的中文开放式关系抽取方法
的总体流程图。
图2为本发明中关于依存路径模式自学习方法的流程图。
图3为本发明中基于模式匹配关系抽取的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510475450.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低温低湿档案胶片库房空调装置
- 下一篇:一种采暖炉