[发明专利]一种基于句法依赖的实体属性信息抽取方法及装置有效
申请号: | 201711263702.9 | 申请日: | 2017-12-05 |
公开(公告)号: | CN107957991B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 郭建京;彭建辉 | 申请(专利权)人: | 湖南星汉数智科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市开福区*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 句法 依赖 实体 属性 信息 抽取 方法 装置 | ||
1.一种基于句法依赖的实体属性信息抽取方法,其特征在于,包括以下过程:
步骤1:根据用户输入的关键字请求,从互联网爬取待抽取文本,对待抽取文本进行预处理,得到待抽取文本实体;
步骤2:根据待抽取文本的句法依赖和词性关系,建立词语之间的无向有权图,并根据词性关系得到词性为名词的词语作为待抽取文本实体的候选属性信息;在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径,并将最短路径上经过的词语组成关联信息词语集合;
步骤3:计算属性集合中的每个属性与关联信息词语集合之间的语义相似度,将相似度最大的属性作为候选实体属性,并对其进行筛选得到实体属性,整合实体、实体属性和属性信息作为最终的抽取结果;其中,所述属性集合为实体与属性信息自定义的一系列属性形成,所述属性集合的每个属性都包括若干个关键词。
2.根据权利要求1所述的基于句法依赖的实体属性信息抽取方法,其特征在于,所述对待抽取文本进行预处理,得到待抽取文本实体,具体包括以下过程:
步骤1.1:利用分词工具对待抽取文本进行处理,得到该文本分词后的词语集合;
步骤1.2:对词语集合进行词性标注和命名实体识别,得到词性集合和命名实体结果集合;
步骤1.3:依次取词语集合和命名实体结果集合的词语,组成词语对,并依次在待抽取文本中遍历,得到命名实体为人名或机构的词语,并将该词语组成待抽取文本实体。
3.根据权利要求2所述的基于句法依赖的实体属性信息抽取方法,其特征在于,所述步骤2具体包括以下过程:
步骤2.1:根据待抽取文本的词语集合和词性集合,构建词语之间的句法依赖树,将句法依赖树抽象为无向有权图;
步骤2.2:根据词性集合遍历词语集合,选取词性为名词的词语作为待抽取文本实体的候选属性信息;
步骤2.3:分别依次取待抽取文本实体和候选属性信息中的词语,组成若干对节点,并从无向有权图中搜索节点对的所有可达路径,通过最短路径算法得到长度最短的可达路径,并将其作为实体与属性信息的关联路径;
步骤2.4:根据实体与属性信息的关联路径,对路径上经过的词语进行过滤处理,得到具有实际含义的关联信息词语集合。
4.根据权利要求3所述的基于句法依赖的实体属性信息抽取方法,其特征在于,步骤3具体包括以下过程:
步骤3.1:依次计算每个属性与关联信息词语集合之间的相似度,公式为:
其中,sim(Wr,Pk)表示关联信息词语集合Wr与任意一个属性Pk之间的语义相似度,m表示属性Pk包含的关键词数量,n表示关联词语集合Wr中词语的数量,Wri表示关联词语集合Wr中第i个词语,Pkj表示属性Pk对应的第j个关键词,word2vec(*)表示使用Google开源的Word2Vec模型,将任意词语转化为对应词向量;
步骤3.2:从属性集合中选取与关联信息词语集合相似度最大的属性,作为待抽取文本实体与关联信息词语集合的候选实体属性;
步骤3.3:将候选实体属性的相似度与预设阈值进行比较;低于预设阈值的候选实体属性,进行过滤;等于或高于预设阈值的候选实体属性,则为具有实际含义的实体属性,进行保留;整合实体、实体属性和属性信息,作为最终的抽取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711263702.9/1.html,转载请声明来源钻瓜专利网。