[发明专利]一种神经网络训练方法、系统、设备以及介质有效
申请号: | 202110269601.2 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113128680B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 李宝然 | 申请(专利权)人: | 山东英信计算机技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F16/9035 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 张腾;张元 |
地址: | 250101 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 训练 方法 系统 设备 以及 介质 | ||
本发明公开了一种神经网络训练方法,包括以下步骤:获取每一个超参数对应的初始搜索范围;利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;利用所述最终的超参数组合对所述模型进行训练。本发明还公开了一种系统、计算机设备以及可读存储介质。
技术领域
本发明涉及深度学习领域,具体涉及一种神经网络训练方法、系统、设备以及存储介质。
背景技术
传统深度学习建模过程中,训练超参数的选择依赖专家知识与经验,存在较高技术门槛;同时,由于数据差异性、模型差异性的存在,即便领域专家也需要消耗大量时间精力对训练超参数进行试验性的调优工作,极大增加了深度学习建模的工作量和开发周期。
现有技术中,为了减少工作量,可以使用超参数搜索算法对深度学习建模训练过程中使用的训练超参数进行搜索。利用算法逻辑获得最好的超参数组合,以此提升训练性能,获得更优模型;超参数搜索算法也可以大幅缩短人工干预训练的程度,减少训练过程中对超参数调优的工作量。
然而现有的超参数搜索算法通常依赖用户设置一个较大的搜索空间以进行搜索,这个搜索空间如果设置不合理,可能会因显存溢出导致训练失败,或者搜索空间过大而效率降低。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种神经网络训练方法,包括以下步骤:
获取每一个超参数对应的初始搜索范围;
利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;
利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;
根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;
利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;
利用所述最终的超参数组合对所述模型进行训练。
在一些实施例中,获取每一个超参数对应的初始搜索范围,进一步包括:
获取第一类超参数预设的搜索范围;
根据所述模型的结构计算所述预设的搜索范围内不同取值的第一类超参数对应的内存占用量;
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。
在一些实施例中,根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围,进一步包括:
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围得到第一搜索范围;
从所述第一搜索范围中的最大值开始依次进行单轮训练并判断是否出现显存溢出问题;
响应于没有出现所述显存溢出问题,将所述第一搜索范围作为所述初始搜索范围;
响应于出现所述显存溢出问题,将未出现所述显存溢出问题对应的最大值作为所述初始搜索范围的最大值。
在一些实施例中,利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合,进一步包括:
将每一个超参数对应的初始搜索范围随机分为多个子搜索范围;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司,未经山东英信计算机技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110269601.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于上行业务的信道估计方法
- 下一篇:一种具有筛尘烘干功能的大米色选机