[发明专利]针对智能体意外出错情况的多智能体强化学习方法及系统在审
申请号: | 202110862910.0 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113592099A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 李厚强;周文罡;赵鉴;赵有朋 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 智能 意外 出错 情况 强化 学习方法 系统 | ||
本发明公开了一种针对智能体意外出错情况的多智能体强化学习方法及系统,引入了自适应掉线率,训练过程中自适应地模拟环境中不同概率的出错情况,使得模型在执行时能够更好地去解决这一问题。此外,训练框架具有普适性,因为不涉及到具体的训练算法,它可以适用于一切中心化训练去中心化执行范式的方法。
技术领域
本发明涉及多智能体强化学习技术领域,尤其涉及一种针对智能体意外出错情况的多智能体强化学习方法及系统。
背景技术
合作多智能体问题近年来在自动驾驶、分布式物流优化、机器人群等多种领域得到了广泛的应用。随着深度神经网络等技术的发展,应用深度强化学习技术已成为解决这一问题的主流方向。
解决此类问题的一种简单方法是将合作多智能体问题转化为单智能体强化学习问题,即将所有智能体的联合状态/行动空间整合为单一智能体的状态/行动空间。我们称之为集中式执行的合作多智能体强化学习方法。但这种方法中,联合状态-行动空间会随着智能体数量的增加呈指数增长。此外,在许多现实环境中,由于智能体的部分可观和智能体间通信限制,进行集中式执行变得不切实际。
另一种替代方法是把每个智能体当作独立个体进行训练,也就是分散式训练。但是,在只有团队奖励的情况下,很难为不同的智能体设计有效的个体奖励,无法鼓励智能体直接的合作。与分散式训练相比,集中式训练不考虑智能体之间的通信约束,利用访问全局信息,有利于更好地分配团队奖励、协调智能体之间的关系。
现有主流的多智能体强化学习训练范式为集中式训练、分散式执行。在这种范式中,每个智能体以中心化的方式使用全局信息进行训练来学习策略,并以去中心化的方式仅基于局部信息进行执行。当前有许多工作都使用了这一范式,但是现有技术都基于一个假设:所有的智能体都可以连续地保持正常工作,不会出现故障的情况。而在现实中,硬件或软件错误都可能导致某个智能体的意外出错。而由于分散式执行的影响,其他智能体并不能及时地得知这一信息,而是继续执行原有策略,这一情况会导致系统性能出现明显的下降。
现有技术的缺点1:当在实际执行时出现智能体的掉线情况时,其不正常的执行会扰乱其他智能体的观测输入,进而破坏其他智能体的正常执行,在有效执行的智能体减少的情况下,进一步引起系统整体性能的下降。
现有技术的缺点2:现有技术在训练时未考虑智能体的掉线情况,系统可能学习到一个较为简单的策略就可以取得较为良好的表现,而放弃对最优策略的进一步探索,导致最后学习到的并不是最优策略,在实际出现掉线的情况时难以应对。
发明内容
本发明的目的是提供一种针对智能体意外出错情况的多智能体强化学习方法及系统,能够在出现智能体掉线的情况下依然保持性能的稳定。
本发明的目的是通过以下技术方案实现的:
一种针对智能体意外出错情况的多智能体强化学习方法,其特征在于,包括:
多智能体强化学习过程中,引入自适应掉线率,根据当前自适应掉线率进行随机采样,将一部分智能体设置为掉线状态,其他智能体正常工作,处于掉线状态的智能体输出随机动作;
每隔设定的步数对当前模型进行测试,根据模型测试结果来调整自适应掉线率的大小。
一种针对智能体意外出错情况的多智能体强化学习系统,该系统包括:
自适应掉线率设置与随机采样单元,用于多智能体强化学习过程中,引入自适应掉线率,根据当前自适应掉线率进行随机采样,将一部分智能体设置为掉线状态,其他智能体正常工作,处于掉线状态的智能体输出随机动作;
自适应掉线率调整单元,用于每隔设定的步数对当前模型进行测试,根据模型测试结果来调整自适应掉线率的大小。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110862910.0/2.html,转载请声明来源钻瓜专利网。