[发明专利]基于注意力序列嵌入的合作型多智能体经验回放方法在审

申请号：	202310407398.X	申请日：	2023-04-17
公开（公告）号：	CN116663605A	公开（公告）日：	2023-08-29
发明（设计）人：	谢在鹏;计诚;沈思彤;汤磊	申请（专利权）人：	河海大学
主分类号：	G06N3/0442	分类号：	G06N3/0442;G06N3/092
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	陈月菊
地址：	210000 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力序列嵌入合作智能经验回放方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于注意力序列嵌入的合作型多智能体经验回放方法，通过GRU单元的循环，获得经验序列的嵌入表征，所述嵌入表征中含有在一段连续时间内的聚合特征。本发明能够缓解多智能体不平稳环境中的经验过时问题，提高经验采样效率并且抑制过时经验对策略模型收敛带来的负面影响。从而最终提高合作型多智能体强化学习的策略模型训练性能。

技术领域

本发明属于多智能体技术领域，更具体地说，涉及一种基于注意力序列嵌入的合作型多智能体经验回放方法。

背景技术

作为实现通用人工智能最具前景的技术之一，近年来强化学习领域一直受到广泛的关注和研究。相关研究成果不断深入和突破，涉及智能机器人、自动驾驶、虚拟现实和增强现实等实际应用。然而，单一智能体的系统无法实现多个决策者之间的相互协作或竞争关系，往往需要多智能体的协作来求解。在这方面，多智能体的强化学习由于其建模更为完备、适用范围更广，在实际应用中最为重要。多智能体系统(multi-agent system,MAS)是当前分布式AI领域的研究热点，主要通过研究智能体之间的协同和交互问题，解决复杂实时动态多智能体环境下的任务调度、资源分配、行为协调以及冲突消解等协同问题。

由于多智能体系统的复杂性，智能体之间往往存在相互作用关系，这些相互作用往往具有非线性和动态的特性，使得智能体之间的相互作用变得难以预测和理解。这种影响进一步导致了多智能体系统的部分可观察特性(Partial Observable)，即智能体在与环境的交互过程中并不能获得当前环境状态的完全分布。在多智能体强化学习中，这些问题表现为多智能体策略模型收敛到局部最优解或者完全不收敛。在多智能体系统中求解序列决策问题时，可以将MAS建模为多智能体马尔可夫决策过程(multi-agent MDP)，并应用强化学习方法进行求解。多智能体MDP包括环境状态集合、智能体和智能体动作集合、环境状态转移函数以及环境奖励函数。然而，多智能体MDP不可避免地引入了不平稳性(non-stationary)，这意味着环境或系统本身会随着时间的推移而变化。这种变化主要体现在两个方面。首先是环境的状态迁移函数改变。即在相同状态下，执行相同的动作，智能体状态会迁移到与之前不同的新状态，这导致了之前学习到的策略过时失效。其次是环境的奖励函数改变，即在相同的状态下，智能体执行相同的动作，从环境中获得的奖励不再相同。由于强化学习是一种通过奖励来驱动行为的学习模式，奖励分布的改变将直接影响到智能体的决策。使其之前学习到的行为策略不再完全符合当下的环境。因此，解决多智能体系统中由于不平稳性引发的问题是一个重要而困难的挑战。

在早期深度强化学习中，经验回放技术最初是从DQN算法中引入的。该技术被用于提高多智能体强化学习过程的效率和稳定性。实现经验回放技术的方式是将智能体与环境互动获得的经验数据(即状态、行动、奖励和下一个状态之间的转换)存储在一个缓冲池中，并使用异策略的方式将其应用于智能体的策略网络训练中。在训练过程中，经验数据的采样不是按时间顺序进行，而是通过从缓冲池中随机选择一批数据，用于训练智能体的动作价值网络(Q-Network)。通过经验回放技术，动作价值网络在不同的经验样本上进行训练，有助于减少连续经验之间的相关性，并打破可能出现的反馈循环。这有助于提高学习过程的稳定性和效率，并防止网络对特定经验的过度拟合。经验回放技术的另一个重要作用是提高智能体的策略收敛性能，因为它可以从与环境互动过程中可能不经常出现的罕见的重要经验中学习。这有助于智能体发现并利用以前未知的策略，从而实现更好的性能。

近年来，强化学习领域的研究者们越来越多地依赖经验回放技术来实现多智能体强化学习。许多异策略算法，例如深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)带有经验回放机制的演员-评论家算法(Actor-Critic with ExperienceReplay，ACER)等的提升都依赖于这一技术。然而，经验回放技术的数据利用率和经验采样率的有效性仍然存在挑战。因此，今后的研究需要更好地解决这些问题，以进一步提高经验回放技术的性能和效率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310407398.X/2.html，转载请声明来源钻瓜专利网。

上一篇：轮胎拆装工具、轮胎拆装设备及轮胎拆装方法
下一篇：一种氧化物绝缘层的制备方法与应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于注意力序列嵌入的合作型多智能体经验回放方法在审

专利文献下载