[发明专利]神经网络模型的训练方法、装置和电子设备有效
申请号: | 201910555746.1 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110245721B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 沈荣波;颜克洲;田宽;江铖;周可 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司;华中科技大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/74;G06V10/77;G06V10/82;G06N3/0895 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 训练 方法 装置 电子设备 | ||
本公开提供了一种神经网络模型的训练方法和装置、电子设备和计算机可读存储介质。神经网络模型的训练方法包括:利用第一训练样本集执行初始训练,获得初始神经网络模型;利用初始神经网络模型对第二训练样本集执行预测,获得第二训练样本集中每个训练样本的预测结果;基于预测结果,从第二训练样本集确定多个优选样本;接收对于多个优选样本的标注结果,将标注后的多个优选样本加入第一训练样本集,获得扩展的第一训练样本集;利用扩展的第一训练样本集执行更新训练,以获得更新的神经网络模型;在满足训练结束条件的情况下,结束训练;以及在不满足训练结束条件的情况下,重复执行预测步骤、优选样本确定步骤、样本扩展步骤以及更新训练步骤。
技术领域
本公开涉及人工智能领域,更具体地,本公开涉及一种神经网络模型的训练方法、图像处理方法、神经网络模型的训练装置、电子设备和计算机可读存储介质。
背景技术
神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据,神经网络能够学习出数据中难以总结的隐藏特征,从而完成多项复杂的任务,如图像语义分割、物体检测、动作追踪、自然语言翻译等。神经网络已被人工智能界广泛应用。
在利用神经网络模型执行上述诸如图像语义分割、物体检测、动作追踪、自然语言翻译等复杂任务时,需要利用人工标注的大量训练样本数据对神经网络模型执行训练过程,以便在训练过程中不断调整整个神经网络模型的参数设置,直到获得满足训练结束条件的神经网络模型以便随后执行相应的处理任务。为了减少对于大量训练样本数据的人工标注成本,通常采用随机采样学习的方式选取一部分训练样本数据进行人工标注。然而,由于随机采样学习的方式从未标注的训练样本数据集中均匀采样部分数据进行人工标注,对于原始训练样本数据集的数据分布没有改变,即采样后的用于训练的标注训练样本中优质样本的比例没有变化。此外,采样后数据集样本数量下降,会导致神经网络模型的训练更容易过拟合而导致性能下降。
发明内容
鉴于上述问题而提出了本公开。本公开提供了一种神经网络模型的训练方法、图像处理方法、神经网络模型的训练装置、电子设备和计算机可读存储介质。
根据本公开的一个方面,提供了一种神经网络模型的训练方法,包括:执行初始训练步骤,以利用第一训练样本集执行初始训练,获得初始神经网络模型,所述第一训练样本集中的样本为已标注的样本;执行预测步骤,以利用所述初始神经网络模型对第二训练样本集执行预测,获得所述第二训练样本集中每个训练样本的预测结果,所述第二训练样本集中的样本为未标注的样本;执行优选样本确定步骤,以基于所述预测结果,从所述第二训练样本集确定多个优选样本;执行样本扩展步骤,以接收对于所述多个优选样本的标注结果,将标注后的所述多个优选样本加入所述第一训练样本集,获得扩展的第一训练样本集;执行更新训练步骤,以利用所述扩展的第一训练样本集执行更新训练,以获得更新的神经网络模型;判断是否满足训练结束条件,在满足训练结束条件的情况下,结束所述训练方法;以及在不满足所述训练结束条件的情况下,重复执行所述预测步骤、所述优选样本确定步骤、所述样本扩展步骤以及所述更新训练步骤。
此外,根据本公开一个方面的神经网络模型的训练方法,其中,所述优选样本确定步骤包括:确定所述第二训练样本集中每个训练样本的信息量,并且选择第一预定数目的高信息量样本;以及基于所述第一预定数目的高信息量样本中每个样本的复杂度,以从低复杂度到高复杂度的顺序,从所述第一预定数目的高信息量样本确定第二预定数目的高信息量样本,作为所述多个优选样本。
此外,根据本公开一个方面的神经网络模型的训练方法,其中,所述确定所述第二训练样本集中每个训练样本的信息量包括:确定所述第二训练样本集中每个训练样本的不确定性和多样性;以及对所述不确定性和所述多样性进行加权计算,获得所述每个训练样本的信息量。
此外,根据本公开一个方面的神经网络模型的训练方法,其中,所述第二训练样本集中每个训练样本具有相应的弱监督信息,每个训练样本的所述不确定性基于每个训练样本相应的弱监督信息和预测结果确定;每个训练样本的所述多样性基于每个训练样本与所述第二训练样本集中的其他训练样本的相似性确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司;华中科技大学,未经深圳市腾讯计算机系统有限公司;华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910555746.1/2.html,转载请声明来源钻瓜专利网。