[发明专利]一种识别文件中的命名实体的方法和装置在审
申请号: | 202211026223.6 | 申请日: | 2022-08-25 |
公开(公告)号: | CN115470790A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 罗玉杰 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/242;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 文件 中的 命名 实体 方法 装置 | ||
本公开实施例提供了一种识别文件中的命名实体的方法和装置。该方法的一具体实施方式包括:获取第一文件;基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果;基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果;所述命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成;结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。利用该方法,可以提高对于文件中的命名实体进行识别的准确率。
技术领域
本公开实施例涉及机器学习技术领域和自然语言处理领域,尤其涉及一种识别文件中的命名实体的方法和装置。
背景技术
目前,在很多行业中,企业或机构希望通过命名实体识别(Named EntityRecognition,简称NER)技术,对其业务文件中的例如地名、机构名等命名实体(NamedEntity)进行自动识别,并将识别结果在业务文件允许的应用范围内用于其业务流程中。例如,一些企业在招聘中会从各种渠道收集简历,为了更好的管理数据,通常希望对简历进行解析得到结构化的数据,如工作经历等,通过命名实体识别技术(Named EntityRecognition,NER),则能够自动化的对简历中的命名实体进行提取。
相关的命名实体识别技术,通常基于经过训练的神经网络识别模型来进行命名实体的识别。而在神经网络识别模型的训练中,通常依赖于高质量的标注数据,以取得较好的识别效果。但是,大量的高质量标注数据通常是难以获取的、或者获取的代价较高,这往往限制了通过神经网络识别模型进行命名实体识别的效果。
发明内容
本公开实施例描述了一种识别文件中的命名实体的方法和装置。
根据第一方面,提供了一种识别文件中的命名实体的方法,包括:获取第一文件;基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第一预测结果;基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第二预测结果;所述命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成;结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。
根据第一方面,提供了一种命名实体词典的构建方法,包括:获取多种语言的实体词,构建包含所述实体词的样本语句;将所述样本语句输入多个预训练模型中,获取对于所述样本语句中的命名实体的多个识别结果;根据所述多个识别结果,确定所述样本语句中的命名实体;将所述命名实体加入所述命名实体词典。
根据第三方面,提供了一种识别文件中的命名实体的装置,所述装置包括:
文件获取单元,配置为,获取第一文件;第一预测单元,配置为,基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第一预测结果;第二预测单元,配置为,基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第二预测结果;所述命名实体词典,通过结合多个预训练模型对于包括实体词的样本语句进行命名实体识别的识别结果生成;预测结果确定单元,配置为,结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。
根据第四方面,提供了一种命名实体词典的构建装置,所述装置包括:
样本构建单元,配置为,获取多种语言的实体词,构建包含所述实体词的样本语句;识别单元,配置为,将所述样本语句输入多个预训练模型中,获取对于所述样本语句中的命名实体的多个识别结果;词典添加单元,配置为,根据所述多个识别结果,确定所述样本语句中的命名实体;将所述命名实体加入所述命名实体词典。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现如第一方面中任一项上述的方法。
根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令上述计算机执行第一方面中任一项上述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211026223.6/2.html,转载请声明来源钻瓜专利网。