[发明专利]实体识别模型生成方法及装置、实体提取方法及装置在审
申请号: | 202110208364.9 | 申请日: | 2021-02-25 |
公开(公告)号: | CN113010638A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 李凯;周晗 | 申请(专利权)人: | 北京金堤征信服务有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G06N3/02;G06N3/08 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 模型 生成 方法 装置 提取 | ||
本公开的实施例提供了实体识别模型生成方法及装置、实体提取方法及装置、计算机可读存储介质、电子设备和计算机程序。该方法包括:获取第一样本语句集;基于第一样本语句集中的样本语句和对应的实体标注信息,训练初始目标类型实体识别模型,得到目标类型实体识别模型;获取第二样本语句集;基于第二样本语句集中的正样本语句和对应的正样本标注信息,以及负样本语句和对应的负样本标注信息,训练初始实体分类模型,得到实体分类模型。本公开技术方案可以实现对目标类型实体的自动提取,并且可以准确而全面地得到文本中的目标类型实体及目标类型实体的类别。
技术领域
本公开涉及计算机技术领域,特别涉及实体识别模型生成方法及装置、实体提取方法及装置、电子设备、计算机可读存储介质和计算机程序。
背景技术
命名实体识别(Named Entity Recognition,NER)是指从文本中识别出特定对象事务名称或者符号的过程。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理任务中必不可少的组成部分。
目前在很多领域,需要从已有的文本中提取特定类型的实体,为用户提供各种服务。例如,解析招投标网站的公示信息,可以为企业和用户提供有价值的信息。招投标领域信息复杂,目前广泛采用的抽取方法是通过构建相应的正则表达式模版实现信息抽取。还有些自动化抽取技术如基于网页结构特征的网页信息抽取技术、基于包装器归纳方式的网页信息抽取技术等。
发明内容
本公开的目的在于提供一种实体识别模型生成方法及装置、实体提取方法及装置、电子设备、计算机可读存储介质和计算机程序,进而至少在一定程度上解决上述背景技术中描述的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供实体识别模型生成方法,包括:获取第一样本语句集,其中,第一样本语句集中的样本语句包括目标类型实体,且具有对应的表征目标类型实体的实体标注信息;基于第一样本语句集中的样本语句和对应的实体标注信息,训练初始目标类型实体识别模型,得到目标类型实体识别模型;获取第二样本语句集,其中,第二样本语句集包括正样本语句和负样本语句,正样本语句包括预设类别的目标类型实体,且具有对应的正样本标注信息,负样本语句包括非预设类别的目标类型实体,且具有对应的负样本标注信息;基于第二样本语句集中的正样本语句和对应的正样本标注信息,以及负样本语句和对应的负样本标注信息,训练初始实体分类模型,得到实体分类模型。
在本公开的示例性实施例中,获取第一样本语句集,包括:从预设样本文本中提取第一样本语句集,并从第一样本语句集包括的样本语句中确定目标类型实体;基于目标类型实体在样本语句中的位置,生成样本语句子集包括的样本语句对应的实体标注信息。
在本公开的示例性实施例中,获取第二样本语句集,包括:从预设样本文本中提取初始样本语句集;从初始样本语句集中确定包括预设类别的目标类型实体的样本语句,以及确定包括非预设类别的目标类型实体的样本语句;将预设类别的目标类型实体所在的样本语句和预设类别的目标类型实体组成的语句对确定为正样本语句,并生成表征预设类别的目标类型实体的正样本标注信息;将非预设类别的目标类型实体所在的样本语句和非预设类别的目标类型实体组成的语句对确定为负样本语句,并生成表征非预设类别的目标类型实体的负样本标注信息。
在本公开的示例性实施例中,确定包括非预设类别的目标类型实体的样本语句,包括:利用目标类型实体识别模型,从初始样本语句集中的样本语句中确定目标类型实体;将确定出的各个目标类型实体与预设类别的目标类型实体进行比对,得到非预设类型的目标类型实体;将非预设类型的目标类型实体所在的样本语句确定为包括非预设类别的目标类型实体的样本语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤征信服务有限公司,未经北京金堤征信服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110208364.9/2.html,转载请声明来源钻瓜专利网。