[发明专利]一种基于小样本的命名实体识别方法、装置及相关介质在审
申请号: | 202211000683.1 | 申请日: | 2022-08-19 |
公开(公告)号: | CN115310449A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 张黔;王伟;陈焕坤 | 申请(专利权)人: | 华润数字科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 丁宇龙 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 命名 实体 识别 方法 装置 相关 介质 | ||
本发明公开了一种基于小样本的命名实体识别方法、装置及相关介质,该方法包括:获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;利用所述标签映射空间将所述第一样本集映射为第二样本集;利用所述第二样本集对预训练语言模型进行微调;采用微调后的预训练语言模型对指定文本进行命名实体识别预测。本发明通过选取最具有代表性的枢纽字符构建标签映射空间,以对样本数据进行映射,然后利用映射得到的第二样本集对预训练语言模型进行微调,从而利用微调后的预训练语言模型进行命名实体识别预测,如此可以提高命名实体识别效率和精度。
技术领域
本发明涉及命名实体识别技术领域,特别涉及一种基于小样本的命名实体识别方法、装置及相关介质。
背景技术
命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。随着当前信息产业的不断发展,各类电子化文本数量急剧增加,从中快速高效地获取结构化信息的难度也越来越大,因此命名实体识别技术被应用到各个领域用于准确、高效地提取出文本中的关键信息。
目前处理实体识别任务的主流方法是基于深度学习的方法,其常见的做法是对文本进行编码后,利用深度学习模型捕获文本的语义特征,再输入到分类层对文本中的实体进行识别和分类。该方法的一个不足之处在于,其要求训练集的样本数量具有一定的规模,模型经过大量样本训练后才能有效地捕捉实体信息。而在一些特定领域,存在着样本数量少、搜集难度大成本高等问题。针对上述问题,现有技术也提出针对小样本的基于提示学习的神经网络模型。但是这类基于提示学习的方法需要枚举出所有潜在模板或实体进行推理预测,如此便会耗费大量的时间,并且由于微调目标和预训练语言模型不一致,在一定程度上同样会影响模型的识别效果。
发明内容
本发明实施例提供了一种基于小样本的命名实体识别方法、装置、计算机设备及存储介质,旨在提高命名实体识别效率和精度。
第一方面,本发明实施例提供了一种基于小样本的命名实体识别方法,包括:
获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;
在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;
利用所述标签映射空间将所述第一样本集映射为第二样本集;
利用所述第二样本集对预训练语言模型进行微调;
采用微调后的预训练语言模型对指定文本进行命名实体识别预测。
第二方面,本发明实施例提供了一种基于小样本的命名实体识别装置,包括:
标签标注单元,用于获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;
字符选取单元,用于在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;
样本映射单元,用于利用所述标签映射空间将所述第一样本集映射为第二样本集;
模型微调单元,用于利用所述第二样本集对预训练语言模型进行微调;
识别预测单元,用于采用微调后的预训练语言模型对指定文本进行命名实体识别预测。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于小样本的命名实体识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于小样本的命名实体识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华润数字科技有限公司,未经华润数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211000683.1/2.html,转载请声明来源钻瓜专利网。