[发明专利]中文实体识别模型的训练方法、装置、设备及存储介质有效
申请号: | 202110777794.2 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113408291B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 吴晓东 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/58;G06F40/47;G06N3/0442;G06N3/045;G06N3/0464 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 实体 识别 模型 训练 方法 装置 设备 存储 介质 | ||
本申请为自然语言处理技术领域,本申请提供了一种中文实体识别模型的训练方法、装置、设备及存储介质,其中,所述方法包括:对中文文本进行多语言翻译,生成多种语言的源文本;利用机器翻译工具对多种源文本分别进行回译,得到多种源中文文本;利用预设投票机制对多种源中文文本进行相应的投票,将票数排在前N位的源中文文本作为目标中文文本;将目标中文文本输入中文实体识别模型进行训练,在训练出的实体识别结果满足要求时,完成所述中文实体识别模型的训练。本申请通过翻译、回译和投票的方式额外增加诸多高质量样本,提高了中文实体识别模型的训练效果。
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种中文实体识别模型的训练方法、装置、设备及存储介质。
背景技术
实体抽取是自然语言处理领域的基础任务之一,也是信息抽取任务中一个重要的子任务。实体抽取意在提取文本中最主要的实体,具体的主要工作是从一段文本中识别出发生的实体以及实体中的各个元素。例如提取一个中文文本中的触发词和实体元素,实体元素包括实体主体、实体客体、时间和国别等。
目前针对中文实体识别模型的训练方法,在中文文本的样本量足够的情况下,准确率和召回率都可以达到很高的水平,但在无法获取到足够的样本量的情况下,训练结果却难以满足要求,训练效果较差。
发明内容
本申请的主要目的为提供一种中文实体识别模型的训练方法、装置、设备及存储介质,以在无法获取到足够的样本量的情况下,提高中文实体识别模型的训练效果。
为了实现上述发明目的,本申请提供一种中文实体识别模型的训练方法,其包括以下步骤:
获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;
利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;
利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;
将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;
将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;
将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;
将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;
将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;
判断所述实体识别结果是否满足要求;
若是,完成所述中文实体识别模型的训练。
进一步地,所述利用机器翻译工具对所述多种源文本分别进行回译的步骤,还包括:
判断所述源文本的文本数量是否大于预设阈值;
若是,利用机器翻译工具对所述多种源文本分别进行回译;
否则,将所述源文本中的至少一个词进行同义词替换,利用机器翻译工具对所述同义词替换后的源文本进行回译。
优选地,所述利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数的步骤,包括:
提取所述源中文文本的语法特征、语义特征和主题特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110777794.2/2.html,转载请声明来源钻瓜专利网。