[发明专利]一种连续决策空间组合优化的高效深度强化学习算法在审
申请号: | 202310191943.6 | 申请日: | 2023-03-02 |
公开(公告)号: | CN116128028A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 韩莉;丁南 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06N3/047 | 分类号: | G06N3/047;G06N3/0442;G06N3/08 |
代理公司: | 北京深川专利代理事务所(普通合伙) 16058 | 代理人: | 郭丽红 |
地址: | 200062 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种连续决策空间组合优化的高效深度强化学习算法,包括如下步骤,步骤一:将问题建模成为一个序列决策问题,设定需要得出连续决策组合优化问题的深度强化学习框架元素定义;步骤二:通过步骤一中深度强化学习框架元素的定义,将时序任务中的连续决策空间组合优化问题建模为马尔可夫决策过程,并得出深度强化学习的训练目标;步骤三:通过使用概率性动态规划算法计算训练目标G(t)的期望值;步骤四:得出连续决策组合优化问题的最优解。本发明能使智能体降低环境交互成本,通过本发明的深度强化学习中的有效最优动作空间搜索,以及概率性动态规划计算奖励期望解决了时序任务中的连续决策空间组合优化问题的工作。基于上述,本发明具有好的应用前景。 | ||
搜索关键词: | 一种 连续 决策 空间 组合 优化 高效 深度 强化 学习 算法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202310191943.6/,转载请声明来源钻瓜专利网。