[发明专利]一种基于句法依赖的实体属性信息抽取方法及装置有效
申请号: | 201711263702.9 | 申请日: | 2017-12-05 |
公开(公告)号: | CN107957991B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 郭建京;彭建辉 | 申请(专利权)人: | 湖南星汉数智科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市开福区*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 句法 依赖 实体 属性 信息 抽取 方法 装置 | ||
本发明公开了一种基于句法依赖的实体属性信息抽取方法及装置,该方法首先对待抽取文本进行预处理,得到待抽取文本实体;然后根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,根据词性关系得到待抽取文本实体的候选属性信息;搜索待抽取文本实体与候选属性信息的词语之间的最短路径,将最短路径上经过的词语组成关联信息词语集合;最后计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。本发明将自然语言处理技术和图论模型相结合,解决文本信息的歧义性,提高了文本抽取准确率;利用关键词的语义相似度,自动归纳抽象信息的属性,提高了抽取效率。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于句法依赖的实体属性信息抽取方法及装置。
背景技术
随着互联网应用的迅猛发展,网络上的蕴含的网页和文本数量也呈指数型增长,如何从这些海量的网页和文本中抽取有效实用的信息,成为目前工业界和学术界研究和开发的热点。目前,基于结构化文本的信息抽取已经取得了巨大的进展,并且得到了广泛的应用。然而,由于非结构化的自由文本的呈现形式复杂多变、杂乱无章,以及文本语义的多样性和歧义性,再加之文本中存在大量无效和干扰的文字图片等信息,进一步增加了自由文本信息抽取的难度,使得实体属性信息抽取效果不佳,且包含大量的错误,因此文本信息抽取仍然是一项具有挑战性的工作。
现有文本信息抽取方法,主要分为以下两类:
1、基于数据挖掘的信息抽取。该方法主要通过对海量数据进行统计,对文本信息进行分析处理,建立信息抽取模板,从而提取数据中的实体属性信息。但由于该方法需要事先配置大量的抽取模板,抽取效率较低,且缺乏对文本语义信息的理解,因此得到的结果中包含大量的错误信息,导致抽取结果的准确率不佳。
2、基于自然语言处理的信息抽取。该方法目前较为流行,其对自由文本进行分词,命名实体识别和句法依赖解析等操作,再对文本信息进行识别和理解,并提取文本信息的主干成分,作为文本中的实体关联信息。与基于数据挖掘的信息抽取方法相比,本方法增加了语言理解知识,较好的解决了文本之间的歧义性,提升了信息抽取的准确率,信息抽取效率大大提高。但是,由于基于自然语言处理的信息抽取得到的实体关联信息,没有进行属性对齐,要得到实体属性信息仍需对抽取得到的实体关联信息进行整理归类,增加了后期处理的难度。
发明内容
发明的目的:为了解决现有基于自然语言处理的信息抽取方法属性未对齐的技术问题,提供一种基于句法依赖的实体属性信息抽取方法及装置,将自然语言处理与图论思想相结合,利用自然语言处理结果中的句法依赖树创建无向有权图,并使用图论中最短路径算法搜索实体与关联信息之间的最短关联路径,计算路径上词语与属性关键词之间的语义相似度,自动对实体和关联信息进行属性对齐。
为达到上述目的,本发明采用的技术方案是:提供了一种基于句法依赖的实体属性信息抽取方法,包括以下过程:
步骤1:根据用户输入的关键字请求,从互联网爬取待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;
步骤2:根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
步骤3:计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果。
其中,所述对待抽取文本进行预处理,得到待抽取文本实体,具体包括以下过程:
步骤1.1:利用分词工具对待抽取文本进行处理,得到该文本分词后的词语集合;
步骤1.2:对词语集合进行词性标注和命名实体识别,得到词性集合和命名实体结果集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711263702.9/2.html,转载请声明来源钻瓜专利网。