[发明专利]一种多智能体强化学习方法、电子设备及存储介质有效

申请号：	202011049089.2	申请日：	2020-09-29
公开（公告）号：	CN111898770B	公开（公告）日：	2021-01-15
发明（设计）人：	李辉;吴昊霖	申请（专利权）人：	四川大学
主分类号：	G06N20/20	分类号：	G06N20/20;G06N3/04
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	王婷婷
地址：	610065 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能强化学习方法电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种多智能体强化学习方法、电子设备及存储介质，该方法可以包括如下步骤：（1）针对多智能体系统中的每个单位构建一个智能体；（2）每个智能体依次与环境交互，获得奖励函数；（3）通过值函数融合模块将每个智能体的个体值函数融合成全局值函数；（4）针对所有智能体的全局值函数进行训练；（5）依次针对每个智能体的个体值函数进行训练；（6）判断是否达到预定的训练总次数，是则退出训练，否则返回步骤（2）继续训练。该方法使用所有智能体的全局值函数，可以兼顾所有个体值函数的更新，促使智能体之间的协作，以获取更大的集体利益，通过两种值函数的共同更新，提高训练效率。

技术领域

本公开实施例涉及机器学习领域，具体而言，涉及一种多智能体强化学习方法、电子设备及存储介质。

背景技术

强化学习智能体可通过与环境进行交互的方式完成行为策略的自主学习，因此在诸如机器臂控制、棋牌类游戏以及游戏等单智能体领域的任务中获得成功应用。但是，现实生活中的很多任务往往需要多个智能体通过协作完成，如物流机器人、无人驾驶、大型即时战略游戏等任务。因此，多智能体强化学习在近年来愈发受到关注。

在协作型多智能体任务中，由于通信限制，每个智能体通常只能感知到自己可视范围内的局部信息。如果每个智能体根据各自的局部信息进行学习，则智能体之间很难形成有效的协作。现有的方法很难判断究竟是哪一些智能体的动作带来了奖励函数的改变，因而有可能训练得到一个鼓励该智能体进行无效动作的策略。所以，该问题导致在训练过程中无法对每个智能体的策略学习进行针对性的调整，继而导致训练效率的降低。

发明内容

本申请提供一种多智能体强化学习方法、电子设备及存储介质，旨在解决上述背景技术中所提到的问题。

本申请第一方面提供了一种多智能体强化学习方法，所述方法包括：

S110、对多智能体的每个单位构建一个智能体，每个智能体包括在线智能体网络和目标智能体网络；

S120、对所述多智能体构建值函数融合网络，所述值函数融合网络包括在线融合网络和目标融合网络；

S130、执行动作决策阶段，每个智能体的所述在线智能体网络根据该智能体的当前时刻局部信息，计算得到该智能体的所有的当前时刻个体值函数，并基于该智能体的所有的当前时刻个体值函数输出该智能体的当前时刻动作决策，并在环境中执行该动作决策，以得到该智能体的下一时刻局部信息；当所有智能体执行各自的当前时刻动作决策后，环境返回一个所有智能体共享的奖励函数；

S140、模型训练阶段，将所有智能体所执行的各自当前动作决策对应的当前时刻个体值函数输入所述在线融合网络,得到当前时刻实际全局值函数；每个智能体依次将各自的下一时刻个体局部信息输入到各自的目标智能体网络，得到下一时刻各自的所有个体值函数，并从中选择最大的下一时刻个体值函数；将所有智能体的最大的下一时刻个体值函数输入所述目标融合网络，得到下一时刻的最优全局值函数；

S150、利用所述当前时刻实际全局值函数和所述下一时刻最优全局值函数，对所述在线智能体网络和所述在线融合网络进行训练，对所述在线智能网络体的参数和所述在线融合网络的网络参数进行更新；

S160、对所述多智能体中的第i个智能体，当第i个智能体的当前时刻个体值函数的更新目标大于第i个智能体的当前时刻个体值函数时，利用第i个智能体的最大的下一时刻个体值函数和当前时刻个体值函数，对第i个智能体的所述在线智能体网络进行训练，对第i个智能体的所述在线智能体网络的参数进行再次更新，其中,第i个智能体的当前时刻个体值函数的更新目标为，其中，为强化学习算法的折扣因子。

可选地，所述利用所述当前时刻实际全局值函数和所述下一时刻最优全局值函数，对所述在线智能网络体的参数和所述在线融合网络的参数进行更新，是按照以下基于全局值函数的第一损失函数进行的：；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川大学，未经四川大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011049089.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种通过云端进行灰度发布的方法和系统
下一篇：一种几何图形的形状识别方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多智能体强化学习方法、电子设备及存储介质有效

专利文献下载