[发明专利]一种信息抽取方法、装置、设备及存储介质在审
申请号: | 202111479541.3 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114238597A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 闫润强;段素霞 | 申请(专利权)人: | 河南讯飞人工智能科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 鲁梅 |
地址: | 450003 河南省郑州市金水*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 抽取 方法 装置 设备 存储 介质 | ||
本申请提出一种信息抽取方法、装置、设备及存储介质,该方法包括:从预设的知识库中选出与待抽取文本相似的实体,作为候选实体;根据所述待抽取文本中的各个文本段以及各个候选实体,确定所述待抽取文本中的各个文本段的融合特征;其中,所述待抽取文本中的文本段,由所述待抽取文本中的单个字符或者两个以上连续字符组成,所述融合特征包括文本段特征和候选实体特征;根据所述待抽取文本中的各个文本段的融合特征,确定所述待抽取文本中的各个实体,以及实体间的关系。采用上述方法能够同步地从文本中提取实体并确定实体关系,并且其信息提取准确度更高。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种信息抽取方法、装置、设备及存储介质。
背景技术
信息抽取是从自然语言文本中抽取有用信息的主要手段,其中,实体和实体关系抽取,是信息抽取中最受关注的业务领域。
常规的信息抽取方法通常是先从文本中抽取实体,然后再分析实体间的关系,从而确定实体关系。该处理过程较繁琐,需要两步处理才能确定实体及实体间关系。而且,上述常规的信息抽取方法,完全是依赖待抽取文本自身的内容进行实体识别及实体关系确定,对实体和实体关系的识别准确度不高。
发明内容
基于上述技术现状,本申请实施例提出一种信息抽取方法,该方法能够一次性地从待抽取文本中抽取出实体并确定实体关系,并且其信息抽取准确度更高。
为了达到上述目的,本申请具体提出如下技术方案:
一种信息抽取方法,包括:
从预设的知识库中选出与待抽取文本相似的实体,作为候选实体;
根据所述待抽取文本中的各个文本段以及各个候选实体,确定所述待抽取文本中的各个文本段的融合特征;其中,所述待抽取文本中的文本段,由所述待抽取文本中的单个字符或者两个以上连续字符组成,所述融合特征包括文本段特征和候选实体特征;
根据所述待抽取文本中的各个文本段的融合特征,确定所述待抽取文本中的各个实体,以及实体间的关系。
可选的,所述从预设的知识库中选出与待抽取文本相似的实体,作为候选实体,包括:
通过将待抽取文本与预设的知识库进行匹配,从预设的知识库中选出与所述待抽取文本相似的知识三元组;
从选出的知识三元组中确定出与所述待抽取文本相似的实体,作为候选实体。
可选的,所述方法还包括:
利用与所述待抽取文本相关的信息,对所述待抽取文本进行信息扩充。
可选的,根据所述待抽取文本中的各个文本段以及各个候选实体,确定所述待抽取文本中的各个文本段的融合特征,包括:
分别确定所述待抽取文本中的各个文本段的向量编码,以及各个候选实体的向量编码;
根据各个文本段的向量编码,以及各个候选实体的向量编码,确定各个候选实体与各个文本段的相似度;
根据各个文本段的向量编码、各个候选实体的向量编码,以及各个候选实体与各个文本段的相似度,确定各个文本段的融合特征。
可选的,在分别确定所述待抽取文本中的各个文本段的向量编码后,所述方法还包括:
根据所述待抽取文本中的各个文本段的向量编码,从各个文本段中,滤除非实体文本段。
可选的,根据各个文本段的向量编码,以及各个候选实体的向量编码,确定各个候选实体与各个文本段的相似度,包括:
对于每个文本段,分别利用该文本段的向量编码以及各个候选实体的向量编码,确定该文本段与各个候选实体的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南讯飞人工智能科技有限公司,未经河南讯飞人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111479541.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置