[发明专利]实体抽取方法、装置、电子设备及计算机存储介质在审
申请号: | 202110436668.0 | 申请日: | 2021-04-22 |
公开(公告)号: | CN113128230A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 王盼 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 郭丽祥;邓海鸿 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 抽取 方法 装置 电子设备 计算机 存储 介质 | ||
1.一种实体抽取方法,包括:
采用第一分类模型,根据输入信息的语义信息,从所述输入信息中抽取多个实体;
采用第二分类模型,在所述多个实体中确定符合与设定场景相关的条件的目标实体。
2.根据权利要求1所述的方法,其中,所述第一分类模型包括语义分类模型、语义匹配模型、语义召回模型中的至少一种。
3.根据权利要求1或2所述的方法,其中,在所述第一分类模型包括两种以上模型的情况下,所述采用第一分类模型,根据输入信息的语义信息,从所述输入信息中抽取多个实体,包括:
采用所述第一分类模型中的每一种模型,根据所述输入信息的语义信息,从所述输入信息中抽取多个初步实体;
将所述第一分类模型的各模型所确定的初步实体进行去重,得到所述多个实体。
4.根据权利要求1所述的方法,其中,与设定场景相关的条件包括所述多个实体的词性特征、行业特征、实体是否在所述输入信息中、实体与所述输入信息的语义相关性和词频逆文本频率指数特征中的至少一种相关的条件。
5.根据权利要求1-4中任意一种所述的方法,其中,所述采用第二分类模型,在所述多个实体中确定符合与设定场景相关的条件的目标实体,包括:
将所述多个实体输入所述第二分类模型;
采用所述第二分类模型,根据与设定场景相关的条件,确定所述多个实体中的排序信息;
根据所述排序信息,确定所述多个实体中的目标实体。
6.根据权利要求5所述的方法,其中,在所述与设定场景相关的条件包括所述行业特征相关的条件的情况下,所述行业特征包含第一级别的行业特征和第二级别的行业特征,所述第二级别的行业特征为所述第一级别的行业特征的子行业特征。
7.根据权利要求5所述的方法,其中,在与设定场景相关的条件包括所述词频逆文本频率指数特征相关的条件的情况下,所述词频逆文本频率指数特征包括一级行业维度、二级行业维度和品牌维度中至少一种维度的词频逆文本频率指数特征。
8.一种实体抽取装置,包括:
第一分类模块,用于采用第一分类模型,根据输入信息的语义信息,从所述输入信息中抽取多个实体;
第二分类模块,用于采用第二分类模型,在所述多个实体中确定符合与设定场景相关的条件的目标实体。
9.根据权利要求8所述的装置,其中,所述第一分类模型包括语义分类模型、语义匹配模型、语义召回模型中的至少一种。
10.根据权利要求8或9所述的装置,其中,在所述第一分类模型包括两种以上模型的情况下,所述第一分类模块包括:
初步单元,用于采用所述第一分类模型中的每一种模型,根据所述输入信息的语义信息,从所述输入信息中抽取多个初步实体;
去重单元,用于将所述第一分类模型的各模型所确定的初步实体进行去重,得到所述多个实体。
11.根据权利要求8所述的装置,其中,与设定场景相关的条件包括所述多个实体的词性特征、行业特征、实体是否在所述输入信息中、实体与所述输入信息的语义相关性和词频逆文本频率指数特征中的至少一种相关的条件。
12.根据权利要求8-11中任意一项所述的方法,其中,所述第二分类模型包括:
输入单元,用于将所述多个实体输入所述第二分类模型;
排序单元,用于采用所述第二分类模型,根据与设定场景相关的条件,确定所述多个实体中的排序信息;
排序处理单元,用于根据所述排序信息,确定所述多个实体中的目标实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110436668.0/1.html,转载请声明来源钻瓜专利网。