[发明专利]预测模型训练方法、装置、存储介质及计算机设备在审
申请号: | 201910559074.1 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110457675A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 毕野;黄博;吴振宇;王建明 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06F16/33;G06N3/08 |
代理公司: | 11448 北京中强智尚知识产权代理有限公司 | 代理人: | 黄耀威;贾依娇<国际申请>=<国际公布> |
地址: | 518000广东省深圳市福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本数据 标注 预测模型 预测 置信度 神经网络模型 预测模型训练 计算机设备 存储介质 迭代训练 人工标注 神经网络 训练效率 预设条件 更新 预设 样本 重复 劳动 | ||
本发明公开了一种基于神经网络的预测模型训练方法、装置、存储介质及计算机设备,主要在于能够降低人工标注的样本数量,避免了大量的重复劳动,从而提升了预测模型的训练效率和预测精度。所述方法包括:获取标注样本数据和未标注样本数据;将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。本发明适用于预测模型的训练。
技术领域
本发明涉及信息技术领域,尤其是涉及一种预测模型训练方法、装置、存储介质及计算机设备。
背景技术
自然语言处理是属于人工智能领域中的一个重要方向,其应用领域涉及广泛,包括智能助手,机器翻译,实体命名识别、情绪识别等,例如,根据自然语言处理技术可以将文字序列中出现的不同种类的命名实体标注出来,在自然语言处理领域中深度学习模型训练时需要人工标注数据,因此,人工标注数据对于自然语言处理领域十分重要。
目前,由于深度学习模型需要大量的标注数据完成对不同结构化预测的任务需求,因此在模型训练时需要对所有样本数据进行标注,即要进行大量的人工标注工作,然而,人工标注工作需要大量的重复性劳动,工作内容繁琐,并且效率低下,在模型训练时,对所有样本数据重视程度一致,不利于将有效资源关注于最难识别的样本数据,由此导致模型的训练效率低下和预测精度较低。
发明内容
本发明提供了一种预测模型训练方法、装置、存储介质及计算机设备,主要在于能够降低人工标注的样本数量,避免了大量的重复劳动,从而提升了预测模型的训练效率和预测精度。
根据本发明的第一个方面,提供一种预测模型训练方法,包括:
获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;
将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;
确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
根据本发明的第二个方面,提供一种预测模型训练装置,包括:
获取单元,用于获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
第一训练单元,用于将所述标注样本数据输入至预设神经网络模型进行训练,得到所述预测模型对应的初步模型;
预测单元,用于将所述未标注样本数据输入至所述初步模型进行预测,得到所述未标注样本数据对应各个预测类别的置信度;
选取单元,用于确定置信度不符合预设条件的预测类别,选取确定的预测类别下的未标注样本数据供标注,利用新标注的样本数据,更新所述标注样本数据;
第二训练单元,用于将更新后的标注样本数据输入至所述初步模型进行迭代训练,得到所述预测模型。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待训练的预测模型所需要的标注样本数据量、以及数据量之和等于所述标注样本数据量的标注样本数据和未标注样本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910559074.1/2.html,转载请声明来源钻瓜专利网。