[发明专利]实体识别的方法和装置、电子设备和存储介质在审
申请号: | 202210307561.0 | 申请日: | 2022-03-25 |
公开(公告)号: | CN114626380A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 李犇;张杰;于皓 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军 |
地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种实体识别的方法和装置、电子设备和存储介质,其中,该方法包括:获取待识别的目标文本数据;将目标文本数据输入目标模型内,得到目标文本数据属于的目标实体类别,其中,目标模型用于得到文本数据的标注信息,并根据标注信息识别出目标实体类别,目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,第二模型为对第一模型进行预设次数的迭代训练后得到的模型,预设次数是利用第四模型对训练集进行处理得到的。通过本申请,解决了相关技术中存在的人工标注的成本高、时效低、数据漏标和标错的问题。
技术领域
本申请涉及数据处理领域,尤其涉及一种实体识别的方法和装置、电子设备和存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是从文本中检测出真实实体并将其分类为预定类型(例如:地点、人、物、组织)的任务。它是知识抽取中的核心任务,对于各种下游应用,例如搜索引擎、问答系统和对话系统等应用来说都是很重要的一个基础任务。
传统的NER方法主要训练序列标注模型,例如基于手动设计特征的隐马尔可夫模型和条件随机场。随着深度神经网络的发展,深度学习模型能够利用深度神经网络自动提取有效的特征,减轻设计手动设计特征的负担,因此针对NER任务的深度学习模型也被提出并表现出很强的性能。但是,大多数深度学习方法依赖于大量标注的训练数据,由于NER任务需要字符(token)级别的标签,在基于序列标注的NER模型中,一个token往往只能被标注为一种实体,无法解决实体嵌套的情况;采用深度学习的NER中,往往需要大量的标注数据,这对于一些缺乏大量标注数据的领域NER任务来说,面临的是人工标注的高成本、低时效和引入认为错误的困境;一些采用远程监督方式的NER模型,利用已有的知识库或者领域词典进行数据标注,会因为知识库覆盖范围有限,造成数据的漏标。
因此,相关技术中存在人工标注的成本高、时效低、数据漏标和标错的问题。
发明内容
本申请提供了一种实体识别的方法和装置、电子设备和存储介质,以至少解决相关技术中存在人工标注的成本高、时效低、数据漏标和标错的问题。
根据本申请实施例的一个方面,提供了一种实体识别的方法,该方法包括:
获取待识别的目标文本数据;
将所述目标文本数据输入目标模型内,得到所述目标文本数据属于的目标实体类别,其中,所述目标模型用于得到所述文本数据的标注信息,并根据所述标注信息识别出所述目标实体类别,所述目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,所述第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,所述第二模型为对第一模型进行预设次数的迭代训练后得到的模型,所述预设次数是利用第四模型对所述训练集进行处理得到的。
根据本申请实施例的另一个方面,还提供了一种实体识别的装置,该装置包括:
第一获取单元,用于获取待识别的目标文本数据;
第一输入单元,用于将所述目标文本数据输入目标模型内,得到所述目标文本数据属于的目标实体类别,其中,所述目标模型用于得到所述文本数据的标注信息,并根据所述标注信息识别出所述目标实体类别,所述目标模型是通过对第三模型进行第三模型参数调整后,得到的最终模型,所述第三模型为沿用第二模型内的第二模型参数,对训练集进行预训练的模型,所述第二模型为对第一模型进行预设次数的迭代训练后得到的模型,所述预设次数是利用第四模型对所述训练集进行处理得到的。
可选地,该装置还包括:
第二获取单元,用于在所述获取待识别的目标文本数据之前,获取训练文本数据;
拼接单元,用于按照预设方案对所述训练文本数据内的字符进行片段式拼接,生成多个片段序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210307561.0/2.html,转载请声明来源钻瓜专利网。