[发明专利]基于两层注意力机制和高斯噪声的MAPPO价值网络拟合方法在审
| 申请号: | 202310532040.X | 申请日: | 2023-05-12 |
| 公开(公告)号: | CN116562147A | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 李智;李健;张梓淇 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;A63F13/52;A63F13/53;G06N3/04;G06N3/092 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 610065 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 机制 噪声 mappo 价值 网络 拟合 方法 | ||
本发明属于多智能体深度强化学习的技术领域,针对在贴近现实世界环境的多智能体协作场景中价值函数拟合困难且偏差较大的问题,在多智能体近端策略优化算法MAPPO基础上提出一种基于两层注意力机制和随机高斯噪声的价值网络拟合改进方法,该方法包括:(1)在MAPPO的价值网络中,添加Synthesizer自注意力网络强化对于局部观察内关键性特征信息的关注能力;(2)在MAPPO的价值网络中,添加多头自注意力网络缓解价值网络中系统中所有智能体高维拼接输入造成的信息超载问题;(3)在由价值网络输出计算得到的广义优势值上添加随机高斯噪声进行正则化,来平滑采样计算的优势值中存在的偏差。通过在星际争霸多智能体挑战环境中进行验证,结果证明了本方法的性能提升。
技术领域
本发明属于多智能体深度强化学习的技术领域,涉及一种基于两层注意力机制和高斯噪声的MAPPO价值网络拟合方法,用于改善高维拼接输入下价值网络的拟合困难问题。
背景技术
近年来,随着横空出世的AlphaGo击败人类顶尖棋手,AlphaStar和OpenAI Five又在复杂的大型游戏中连败职业玩家,其背后的强化学习方法开始成为研究热点。这一领域中对单智能体的研究兴起较早,且理论和实践均已较为完备,但多智能体部分仍有很多问题待解决,而要将算法从实验室内的仿真环境真正落地应用到现实世界更是困难重重,这之中一个严峻的问题是多智能体系统中随智能体个数增长而增长的状态空间。在复杂的实际环境中,智能体往往面临高维的局部观察,而集中式训练的价值网络需要全局的状态才能准确地拟合,实际上几乎不可能对现实世界中的场景完整建模,事实上的全局状态必然是多智能体系统中全部智能体局部观察的某种感知融合,所以拼接局部输入仍是当前通行的选择。这种高维拼接的输入所致的计算复杂导致了价值网络的拟合困难,进一步使多智能体联合策略的学习很难稳定。此外,强化学习算法是通过与环境交互采样的数据来估计策略梯度的,在样本稀缺的现实场景中几乎难以避免出现估计偏差,这又可能导致智能体的策略以次优的方向进行更新。因此,解决上述的价值网络的拟合困难问题至关重要,当前该领域最先进的多智能体近端策略优化算法MAPPO,在收敛速度和性能上均展现出了一定优势,但是MAPPO在Critic网络部分所结合使用的全连接层和RNN,在智能体数量多维度高的情况下可能仍效果不佳。
注意力机制擅于处理信息超载问题。其中又有一类自注意力机制,仅仅使用样本自身信息,而不要求其它额外补充信息,就可以很好的计算数据样本特征内在的相关程度,而Synthesizer是其中一种轻量高效的实现,且研究表明在和原本的点积注意力搭配使用的时候能取得更好的效果,另外,现实中通常希望模型可以基于相同的注意力机制学习到不同的行为,然后将不同的行为作为知识组合起来,这就是多头注意力机制。MAAC曾在多智能体算法MADDPG的Critic网络中引入了注意力网络,取得了一定性能提升,但是其仅在智能体层面的单层结构动态关注能力可能存在不足,也并没有解决确定性梯度算法难收敛的问题。
发明内容
本发明旨在改善多智能体深度强化学习中高维拼接输入下集中式训练的价值网络拟合困难的问题,在多智能体近端策略优化算法MAPPO基础上,提出一种基于两层注意力机制和随机高斯噪声的网络拟合方法,其技术方案如下:
步骤一:通过在Critic网络中添加的Synthesizer网络对每个智能体Handcraft切分的局部观察进行特征提取,得到各自的嵌入向量ei;
步骤二:通过Concat步骤一中获取的所有智能体观察嵌入向量ei为(e1,...,en),并输入多头自注意力网络,在计算智能体观察嵌入向量ei彼此之间的相关程度后,综合多个注意力头输出得到动态关注后的全局特征信息xi;
步骤三:通过将全局特征信息xi输入全连接层得到集中式的价值函数Vi(o),并通过广义优势估计计算优势函数再将优势函数与每个智能体各自生成的随机高斯噪声混合,再用平滑后的去更新分布式执行的策略网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310532040.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种皮肤病检测用取样装置
- 下一篇:一种实时预警型新能源工控系统平台





