[发明专利]中文实体识别模型的训练方法、装置、设备及存储介质有效

申请号：	202110777794.2	申请日：	2021-07-09
公开（公告）号：	CN113408291B	公开（公告）日：	2023-06-30
发明（设计）人：	吴晓东	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F40/58;G06F40/47;G06N3/0442;G06N3/045;G06N3/0464
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉;曹勇
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文实体识别模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请为自然语言处理技术领域，本申请提供了一种中文实体识别模型的训练方法、装置、设备及存储介质，其中，所述方法包括：对中文文本进行多语言翻译，生成多种语言的源文本；利用机器翻译工具对多种源文本分别进行回译，得到多种源中文文本；利用预设投票机制对多种源中文文本进行相应的投票，将票数排在前N位的源中文文本作为目标中文文本；将目标中文文本输入中文实体识别模型进行训练，在训练出的实体识别结果满足要求时，完成所述中文实体识别模型的训练。本申请通过翻译、回译和投票的方式额外增加诸多高质量样本，提高了中文实体识别模型的训练效果。

技术领域

本申请涉及自然语言处理技术领域，具体而言，本申请涉及一种中文实体识别模型的训练方法、装置、设备及存储介质。

背景技术

实体抽取是自然语言处理领域的基础任务之一，也是信息抽取任务中一个重要的子任务。实体抽取意在提取文本中最主要的实体，具体的主要工作是从一段文本中识别出发生的实体以及实体中的各个元素。例如提取一个中文文本中的触发词和实体元素，实体元素包括实体主体、实体客体、时间和国别等。

目前针对中文实体识别模型的训练方法，在中文文本的样本量足够的情况下，准确率和召回率都可以达到很高的水平，但在无法获取到足够的样本量的情况下，训练结果却难以满足要求，训练效果较差。

发明内容

本申请的主要目的为提供一种中文实体识别模型的训练方法、装置、设备及存储介质，以在无法获取到足够的样本量的情况下，提高中文实体识别模型的训练效果。

为了实现上述发明目的，本申请提供一种中文实体识别模型的训练方法，其包括以下步骤：

获取中文文本，对所述中文文本进行多语言翻译，生成多种语言的源文本；

利用机器翻译工具对所述多种源文本分别进行回译，得到多种源中文文本；

利用预设投票机制对所述多种源中文文本进行相应的投票，得到每种源中文文本的票数，根据所述票数对所述多种源中文文本进行排序，并将票数排在前N位的源中文文本作为目标中文文本；其中，所述N为大于或等于1的正整数；

将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量；