[发明专利]基于超参优化的深度强化学习模型的训练方法、装置在审

申请号：	202011621981.3	申请日：	2020-12-31
公开（公告）号：	CN113723615A	公开（公告）日：	2021-11-30
发明（设计）人：	张玥;尹泽夏;霍雨森;王小波;郑宇	申请（专利权）人：	京东城市（北京）数字科技有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	张大威
地址：	100086 北京市海淀区知***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于优化深度强化学习模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于超参优化的深度强化学习模型的训练方法、装置，其中，方法包括：获取多个初始超参数组合，和多个第一深度强化学习模型；采用初始超参数组合中的多个超参数训练多个第一深度强化学习模型，以得到与多个第一深度强化学习模型分别对应的训练评价指标；根据训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型；采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理，以形成目标超参数组合；得到目标深度强化学习模型。由此，将超参数优化与模型训练结合起来实现深度强化学习模型的训练，不仅可训练出性能更高的深度强化学习模型，而且可使训练出的模型适应更广泛的应用场景。

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于超参优化的深度强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

深度强化学习(Deep Reinforcement Learning，简称Deep RL)是近年来兴起的一项技术，这项技术融合了深度学习和强化学习两项技术。Deep RL具备对复杂系统中的高维状态进行模式识别，并在此基础上进行动作输出的能力。基于深度强化学习，可以通过与环境进行交互，不断试错总结的方式进行学习。Deep RL适用于控制、决策以及复杂系统优化任务。在游戏、自动驾驶控制与决策、机器人控制、金融、工业系统控制优化等领域，Deep RL拥有巨大的潜在应用空间。但是，由于Deep RL的训练需要与环境进行大规模交互，在大部分现实场景中都不具备这一条件，这一问题严重地制约了深度强化学习方法的落地。

为了解决这一问题，相关技术中提出了离线深度强化学习(Off-line Deep RL)技术，然而，目前Off-line Deep RL方法的训练效果会随着数据集的不同而效果偏差较大，导致所能达到的训练效果仍存在适应性差、性能低的问题。

发明内容

本申请提供一种用于基于超参优化的深度强化学习模型的训练方法、装置。

根据本申请的第一方面，提供了一种基于超参优化的深度强化学习模型的训练方法，包括：

获取多个初始超参数组合，和多个第一深度强化学习模型；

采用所述初始超参数组合中的多个超参数训练所述多个第一深度强化学习模型，以得到与所述多个第一深度强化学习模型分别对应的训练评价指标；

根据所述训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型；

采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组合进行优化处理，以形成目标超参数组合；以及

采用所述目标超参数组合之中的多个超参数训练所述第二深度强化学习模型，以得到目标深度强化学习模型。

根据本申请的第二方面，提供了一种基于超参优化的深度强化学习模型的训练装置，包括：

第一获取模块，用于获取多个初始超参数组合，和多个第一深度强化学习模型；

第一训练模块，用于采用所述初始超参数组合中的多个超参数训练所述多个第一深度强化学习模型，以得到与所述多个第一深度强化学习模型分别对应的训练评价指标；