[发明专利]实体识别的方法和装置、电子设备和存储介质在审

专利信息
申请号: 202210307561.0 申请日: 2022-03-25
公开(公告)号: CN114626380A 公开(公告)日: 2022-06-14
发明(设计)人: 李犇;张杰;于皓 申请(专利权)人: 北京明略昭辉科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F16/36;G06N3/04;G06N3/08
代理公司: 北京华夏泰和知识产权代理有限公司 11662 代理人: 曾军
地址: 100098 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体 识别 方法 装置 电子设备 存储 介质
【说明书】:

本申请提供了一种实体识别的方法和装置、电子设备和存储介质,其中,该方法包括:获取待识别的目标文本数据;将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。通过本申请,解决了相关技术中存在的人工标注的成本高、时效低、数据漏标和标错的问题。

技术领域

本申请涉及数据处理领域,尤其涉及一种实体识别的方法和装置、电子设备和存储介质。

背景技术

命名实体识别(Named Entity Recognition,NER)是从文本中检测出真实实体并将其分类为预定类型(例如:地点、人、物、组织)的任务。它是知识抽取中的核心任务,对于各种下游应用,例如搜索引擎、问答系统和对话系统等应用来说都是很重要的一个基础任务。

传统的NER方法主要训练序列标注模型,例如基于手动设计特征的隐马尔可夫模型和条件随机场。随着深度神经网络的发展,深度学习模型能够利用深度神经网络自动提取有效的特征,减轻设计手动设计特征的负担,因此针对NER任务的深度学习模型也被提出并表现出很强的性能。但是,大多数深度学习方法依赖于大量标注的训练数据,由于NER任务需要字符(token)级别的标签,在基于序列标注的NER模型中,一个token往往只能被标注为一种实体,无法解决实体嵌套的情况;采用深度学习的NER中,往往需要大量的标注数据,这对于一些缺乏大量标注数据的领域NER任务来说,面临的是人工标注的高成本、低时效和引入认为错误的困境;一些采用远程监督方式的NER模型,利用已有的知识库或者领域词典进行数据标注,会因为知识库覆盖范围有限,造成数据的漏标。

因此,相关技术中存在人工标注的成本高、时效低、数据漏标和标错的问题。

发明内容

本申请提供了一种实体识别的方法和装置、电子设备和存储介质,以至少解决相关技术中存在人工标注的成本高、时效低、数据漏标和标错的问题。

根据本申请实施例的一个方面,提供了一种实体识别的方法,该方法包括:

获取待识别的目标文本数据;

将所述目标文本数据输入目标模型内,得到所述目标文本数据属于的目标实体类别,其中,所述目标模型用于得到所述文本数据的标注信息,并根据所述标注信息识别出所述目标实体类别,所述目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,所述第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,所述第二模型为对第一模型进行预设次数的迭代训练后得到的模型,所述预设次数是利用第四模型对所述训练集进行处理得到的。

根据本申请实施例的另一个方面,还提供了一种实体识别的装置,该装置包括:

第一获取单元,用于获取待识别的目标文本数据;

第一输入单元,用于将所述目标文本数据输入目标模型内,得到所述目标文本数据属于的目标实体类别,其中,所述目标模型用于得到所述文本数据的标注信息,并根据所述标注信息识别出所述目标实体类别,所述目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,所述第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,所述第二模型为对第一模型进行预设次数的迭代训练后得到的模型,所述预设次数是利用第四模型对所述训练集进行处理得到的。

可选地,该装置还包括:

第二获取单元,用于在所述获取待识别的目标文本数据之前,获取训练文本数据;

拼接单元,用于按照预设方案对所述训练文本数据内的字符进行片段式拼接,生成多个片段序列;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210307561.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top