[发明专利]针对智能体意外出错情况的多智能体强化学习方法及系统在审
申请号: | 202110862910.0 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113592099A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 李厚强;周文罡;赵鉴;赵有朋 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 智能 意外 出错 情况 强化 学习方法 系统 | ||
1.一种针对智能体意外出错情况的多智能体强化学习方法,其特征在于,包括:
多智能体强化学习过程中,引入自适应掉线率,根据当前自适应掉线率进行随机采样,将一部分智能体设置为掉线状态,其他智能体正常工作,处于掉线状态的智能体输出随机动作;
每隔设定的步数对当前模型进行测试,根据模型测试结果来调整自适应掉线率的大小。
2.根据权利要求1所述的一种针对智能体意外出错情况的多智能体强化学习方法,其特征在于,所述多智能体强化学习过程中将掉线状态的智能体输出的随机动作与正常工作的智能体输出的动作通过混合网络进行决策,得到最终输出动作,通过最终输出动作计算损失,从而进行多智能体强化学习。
3.根据权利要求1所述的一种针对智能体意外出错情况的多智能体强化学习方法,其特征在于,所述根据模型测试结果来调整自适应掉线率的大小包括:
如果模型测试结果表明模型性能超过性能阈值,则通过下式调整自适应掉线率的大小:
α′=α+ρ*(1-α)
如果模型测试结果表明模型性能未超过性能阈值,则通过下式调整自适应掉线率的大小:
α′=α+ρ*(0-α)
其中,ρ为更新自适应掉线率α的学习率,α′为调整后的自适应掉线率。
4.根据权利要求1~3任一项所述的一种针对智能体意外出错情况的多智能体强化学习方法,其特征在于,所述自适应掉线率记为α,表征每个智能体掉线的概率,每个智能体的掉线概率服从参数为α的伯努利分布。
5.根据权利要求1~3任一项所述的一种针对智能体意外出错情况的多智能体强化学习方法,所述根据当前自适应掉线率进行随机采样包括:
在训练时,每一次与环境完整的交互都有一个对应的自适应掉线率,按照伯努利分布进行随机采样。
6.根据权利要求1~3任一项所述的一种针对智能体意外出错情况的多智能体强化学习方法,当处于掉线状态的智能体的数量超出当前掉线率的期望时,则重新进行采样,直到掉线智能体数量符合期望。
7.一种针对智能体意外出错情况的多智能体强化学习系统,其特征在于,该系统包括:
自适应掉线率设置与随机采样单元,用于多智能体强化学习过程中,引入自适应掉线率,根据当前自适应掉线率进行随机采样,将一部分智能体设置为掉线状态,其他智能体正常工作,处于掉线状态的智能体输出随机动作;
自适应掉线率调整单元,用于每隔设定的步数对当前模型进行测试,根据模型测试结果来调整自适应掉线率的大小。
8.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~6任一项所述的方法。
9.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~6任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110862910.0/1.html,转载请声明来源钻瓜专利网。