[发明专利]实体识别模型生成方法及装置、实体提取方法及装置在审
申请号: | 202110208364.9 | 申请日: | 2021-02-25 |
公开(公告)号: | CN113010638A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 李凯;周晗 | 申请(专利权)人: | 北京金堤征信服务有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G06N3/02;G06N3/08 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 模型 生成 方法 装置 提取 | ||
1.一种实体识别模型生成方法,其特征在于,包括:
获取第一样本语句集,其中,所述第一样本语句集中的样本语句包括目标类型实体,且具有对应的表征所述目标类型实体的实体标注信息;
基于所述第一样本语句集中的样本语句和对应的实体标注信息,训练初始目标类型实体识别模型,得到目标类型实体识别模型;
获取第二样本语句集,其中,所述第二样本语句集包括正样本语句和负样本语句,所述正样本语句包括预设类别的目标类型实体,且具有对应的正样本标注信息,所述负样本语句包括非预设类别的目标类型实体,且具有对应的负样本标注信息;
基于所述第二样本语句集中的正样本语句和对应的正样本标注信息,以及负样本语句和对应的负样本标注信息,训练初始实体分类模型,得到实体分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取第一样本语句集,包括:
从预设样本文本中提取第一样本语句集,并从所述第一样本语句集包括的样本语句中确定目标类型实体;
基于所述目标类型实体在样本语句中的位置,生成所述样本语句子集包括的样本语句对应的实体标注信息。
3.根据权利要求1所述的方法,其特征在于,所述获取第二样本语句集,包括:
从预设样本文本中提取初始样本语句集;
从所述初始样本语句集中确定包括预设类别的目标类型实体的样本语句,以及确定包括非预设类别的目标类型实体的样本语句;
将所述预设类别的目标类型实体所在的样本语句和所述预设类别的目标类型实体组成的语句对确定为正样本语句,并生成表征所述预设类别的目标类型实体的正样本标注信息;
将所述非预设类别的目标类型实体所在的样本语句和所述非预设类别的目标类型实体组成的语句对确定为负样本语句,并生成表征所述非预设类别的目标类型实体的负样本标注信息。
4.根据权利要求3所述的方法,其特征在于,所述确定包括非预设类别的目标类型实体的样本语句,包括:
利用所述目标类型实体识别模型,从所述初始样本语句集中的样本语句中确定目标类型实体;
将确定出的各个目标类型实体与所述预设类别的目标类型实体进行比对,得到非预设类型的目标类型实体;
将所述非预设类型的目标类型实体所在的样本语句确定为所述包括非预设类别的目标类型实体的样本语句。
5.根据权利要求2所述的方法,其特征在于,所述从所述第一样本语句集包括的样本语句中确定目标类型实体,包括:
利用如下至少一种方式从所述第一样本语句集包括的样本语句中确定目标类型实体:
方式一,基于预设的正则表达式,从所述第一样本语句集包括的样本语句中确定目标类型实体;
方式二,基于预设的由目标类型实体构建的前缀字典树,从所述第一样本语句集包括的样本语句中查找目标类型实体。
6.根据权利要求2-5之一所述的方法,其特征在于,在所述从预设样本文本中提取第一样本语句集之前,所述方法还包括:
对预设初始文本进行预处理,得到符合预设格式的预设样本文本。
7.一种实体提取方法,其特征在于,包括:
获取待识别文本;
将所述待识别文本输入预先训练的目标类型实体识别模型,得到目标类型实体,其中,所述目标类型实体识别模型预先基于权利要求1-6之一所述的方法训练得到;
基于所述目标类型实体,从所述待识别文本中确定待分类语句;
将所述待分类语句输入预先训练的实体分类模型,得到表征所述目标类型实体的类别的实体类别信息,其中,所述实体分类模型预先基于权利要求1-6之一所述的方法训练得到。
8.根据权利要求7所述的方法,其特征在于,所述获取待识别文本,包括:
获取原始文本;
对所述原始文本进行预处理,得到符合预设格式的待识别文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤征信服务有限公司,未经北京金堤征信服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110208364.9/1.html,转载请声明来源钻瓜专利网。