[发明专利]核心实体抽取方法、装置以及电子设备有效
申请号: | 202011362541.0 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112487815B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 刘同阳;王述;常万里;冯知凡;柴春光;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F40/30;G06F40/242;G06F16/35;G06N3/0475;G06N3/094;G06F16/36 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 黄灿;胡永芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 核心 实体 抽取 方法 装置 以及 电子设备 | ||
1.一种核心实体抽取方法,包括:
获取输入文本;
根据所述输入文本,获取核心实体候选集,其中,所述核心实体候选集包括由生成器生成的第一核心实体候选集,以及与所述输入文本的语义相关的第二核心实体候选集;
将所述核心实体候选集输入至预先获取的判别器,获得所述输入文本的核心实体;
其中,所述根据所述输入文本,获取核心实体候选集,包括:
将所述输入文本输入至所述生成器中,获得第一核心实体候选集;
对所述输入文本进行语义解析,获得解析结果;
根据所述解析结果,获得第二核心实体候选集;
其中,所述根据所述解析结果,获得第二核心实体候选集,包括:
对所述解析结果进行基于规则的实体短语拼接,获得第一核心实体子候选集;
对所述解析结果进行基于自定义词典的实体抽取,获得第二核心实体子候选集,所述第二核心实体候选集包括所述第一核心实体子候选集和所述第二核心实体子候选集;
其中,所述生成器和所述判别器属于同一个对抗网络,所述判别器的损失函数包括分类损失和排序损失,所述生成器的损失函数根据所述判别器的损失函数获得;
所述将所述核心实体候选集输入至预先获取的判别器,获得所述输入文本的核心实体之前,所述方法还包括:
获取训练样本,所述训练样本包括训练文本的核心嵌套实体和所述训练文本的非核心嵌套实体;
根据所述训练样本对初始的判别器进行训练,得到所述预先获取的判别器,所述预先获取的判别器的输入包括所述训练文本的第一核心实体候选集和第二核心实体候选集,所述预先获取的判别器的输出包括所述训练文本的核心实体,其中,所述第一核心实体候选集由所述生成器生成,所述第二核心实体候选集与所述训练文本的语义相关。
2.一种核心实体抽取装置,包括:
第一获取模块,用于获取输入文本;
第二获取模块,用于根据所述输入文本,获取核心实体候选集,其中,所述核心实体候选集包括由生成器生成的第一核心实体候选集,以及与所述输入文本的语义相关的第二核心实体候选集;
第三获取模块,用于将所述核心实体候选集输入至预先获取的判别器,获得所述输入文本的核心实体;
其中,所述第二获取模块,包括:
输入子模块,用于将所述输入文本输入至所述生成器中,获得第一核心实体候选集;
解析子模块,用于对所述输入文本进行语义解析,获得解析结果;
获取子模块,用于根据所述解析结果,获得第二核心实体候选集;
其中,所述解析子模块,包括:
第一获取单元,用于对所述解析结果进行基于规则的实体短语拼接,获得第一核心实体子候选集;
第二获取单元,用于对所述解析结果进行基于自定义词典的实体抽取,获得第二核心实体子候选集,所述第二核心实体候选集包括所述第一核心实体子候选集和所述第二核心实体子候选集;
其中,所述生成器和所述判别器属于同一个对抗网络,所述判别器的损失函数包括分类损失和排序损失,所述生成器的损失函数根据所述判别器的损失函数获得;
其中,所述核心实体抽取装置还包括:
获取模块,用于获取训练样本,所述训练样本包括训练文本的核心嵌套实体和所述训练文本的非核心嵌套实体;
训练模块,用于根据所述训练样本对初始的判别器进行训练,得到所述预先获取的判别器,所述预先获取的判别器的输入包括所述训练文本的第一核心实体候选集和第二核心实体候选集,所述预先获取的判别器的输出包括所述训练文本的核心实体,其中,所述第一核心实体候选集由所述生成器生成,所述第二核心实体候选集与所述训练文本的语义相关。
3. 一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1中所述的方法。
4.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1中所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011362541.0/1.html,转载请声明来源钻瓜专利网。