[发明专利]基于内在动机的多智能体稀疏奖励环境协作探索方法在审
申请号: | 202111455606.0 | 申请日: | 2021-12-01 |
公开(公告)号: | CN114169421A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 谢京达;郝建业;郑岩;马亿;杨天培 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内在 动机 智能 稀疏 奖励 环境 协作 探索 方法 | ||
本发明公开了一种基于内在动机的多智能体稀疏奖励环境协作探索方法,步骤1、初始化目标策略和探索策略;步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;步骤3、进行势能影响的分配;步骤4、利用人工势场影响更新探索策略,即利用经过信度分配的人工势场强度影响引导探索策略进行探索,加快对环境空间的探索,利用成功经验信号引导目标策略学习。与现有技术相比,本发明对稀疏奖励环境下智能体的探索效率有较高的提升,可以与多种强化学习算法进行结合。
技术领域
本发明涉及多智能体深度强化学习领域,特别涉及一种奖励稀疏环境下多智能体协作探索方法。
背景技术
本发明相关现有技术包括:
一、分布式部分可观测马尔科夫决策过程(Dec-POMDP),定义如下式所示:
S,U,P,r,O,Z,n,γ
其中,n表示智能体数量,S为状态集合,U为智能体的联合动作。
二、COMA(Counterfactual Multi-Agent Policy Gradients)是针对多智能体强化学习信度分配问题所提出来的一种算法。信度分配问题是多智能体合作任务中广泛存在的问题之一,问题难点在于当智能体共享一个全局奖赏时如何区分每个智能体对全局奖赏的贡献程度。COMA对每个智能体a计算一个优势函数:
此优势函数能够反映智能体当前的动作选择相较于未选择动作的好坏,用此优势函数对智能体策略进行更新能够解决由信度分配问题导致多智能体算法不能取得良好结果的问题。
目前,在奖励稀疏环境中探索的方法受限于一些特殊的设定,如智能体之间的行为具有强相关性,任务的完成只与环境中的部分元素相关,如何适应更广泛的奖励稀疏环境中的探索仍然是一个开放问题。
发明内容
本发明旨在解决奖励稀疏环境下多智能体协作探索的问题,提出了一种基于内在动机的多智能体稀疏奖励环境协作探索方法,基于人工势场实现了奖励稀疏环境下的多智能体协作探索。
本发明利用以下技术方案实现:
一种基于内在动机的多智能体稀疏奖励环境协作探索方法,具体包括以下步骤:
步骤1、初始化目标策略该策略用于学习完成目标任务,同时初始化探索策略该策略用于在环境中进行充分探索;其中,π表示智能体的当前策略,n为智能体数量;
步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;
步骤3、势能影响分配,具体处理如下:
利用反事实基线方法,用如下公式计算得到智能体a的优势函数,如下式所示:
其中,ua表示智能体a的动作,u-a表示其他智能体的联合动作,π表示智能体a的当前策略,Aa表示智能体a在当前策略π下,采取动作ua相比于采取其他动作对受势能影响的大小,Aa越大,表示智能体a的当前动作ua和其他动作相比受势能影响程度越大,反之亦然。接着对每个智能体i都计算其对应的Ai,并通过softmax操作得到智能体内在受势能影响的占比:
设智能体i每个决策步t的奖励为如下式所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111455606.0/2.html,转载请声明来源钻瓜专利网。