[发明专利]一种强化学习多代理合作任务下的代理贡献分配的方法有效
申请号: | 202011011848.6 | 申请日: | 2020-09-23 |
公开(公告)号: | CN111967199B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 谭哲越;尹建伟;尚永衡;张鹿鸣;李莹;邓水光 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F17/18 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 强化 学习 代理 合作 任务 贡献 分配 方法 | ||
本发明公开了一种强化学习多代理合作任务下的代理贡献分配的方法,包括:每个代理独立观测环境状态,输入各自的策略网络,得到各自的动作决策;在模拟环境执行各代理的动作,环境反馈的全局奖励;将各代理之间的交互建模为一张无向图,使用此图计算出每个代理的贡献权值;使用各代理的贡献权值计算各代理的局部奖励,使用此局部奖励对每个代理各自的策略网络进行训练。该方法能够对多个代理与环境交互后的结果(奖励)进行贡献分配,能够起到可信度赋值的效果,给训练算法提供更加精准的奖励描述,帮助多代理系统在合作任务上学习到更好的策略。
技术领域
本发明属于人工智能自动化领域,特别地涉及一种多代理强化学习合作任务下的代理贡献分配的方法。
背景技术
现代人工智能自动化领域使用强化学习来训练代理执行任务是一个常见的解决方案,其中,许多场景依赖多个代理进行合作来达成共同的目标。在多代理合作体系中,可以使用全局奖励信息作为全局价值函数和各代理价值函数的训练信号,也可以分别对各代理进行贡献度分配,估计各代理的局部奖励,并将其作为各代理的学习信号,为各代理的策略网络或价值网络提供训练用的梯度。
使用各代理的全部奖励在工程上的实现较为简单,一些场景下可以认为是将控制所有代理的模型视作一个整体进行训练。这种方法在代理数量较少时易于实现和控制,但代理数量较多时,模型的参数会指数级增大,使模型变得难以训练。这种情况下,考虑到工程实现的工作量和难度,通常会采用分布式独立训练各代理模型的方法,减轻模型的训练难度,然而这种方法需要有每个代理的局部奖励来提供独立的训练信号,在环境只提供一个全局奖励信号的情况下,进行贡献度分配来估计每个独立代理的贡献度大小变成了一个亟需解决的问题。
发明内容
为解决上述问题,本发明的目的在于提供一种多代理强化学习合作任务下的代理贡献分配的方法,其通过设置观测范围来对各代理之间的交互建模出一张无向图,并使用此图计算每个代理对其影响范围的影响系数估计,作为进行贡献分配的权重信息;同时,此图也也是对可信度赋值问题的一个描述;使用各代理的贡献权重计算其局部奖励估计,为各代理的策略网络的训练提供一个精准的学习信号。
为实现上述目的,本发明的解决方案为:
一种多代理强化学习合作任务下的奖励函数建模方法,包括:
通过设置观测范围来对各代理之间的交互建模出一张无向图,并使用此图计算每个代理的贡献权重,用于计算其局部奖励的估计,作为其训练价值网络或策略网络的训练信号。
具体的执行过程为:
每个代理独立观测环境状态,输入各自的价值网络,得到各候选动作的价值估计,选择拥有最大价值估计的动作作为当前动作决策;在模拟环境执行各代理的动作,得到环境反馈的全局奖励信号R。
构造无向图G(V,E),结点集合V:={v1,…,vN},其中vi为代理i对应的结点;同时图的边集E此时为空集。
设置观测范围D,遍历每个代理,根据当前的代理间距离,与所有距离小于D的代理之间添加一条边。其中,若代理的观测范围内没有其他代理,则表示其他代理对此代理的影响较小,在图中为独立的连通组件。在此过程结束后,对于边集E中的每一条边(vi,vj),其两端对应的代理的距离小于D。
使用所述图G计算每个代理的贡献权重估计,具体过程为:对于每一个代理对应的节点vi,按其影响范围内的节点数目和对应距离加权计算其影响系数Ii:
vj∈Gi
其中,Gi为图G中节点vi所属的连通组件,为结点vi到结点vj的距离(跳数)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011011848.6/2.html,转载请声明来源钻瓜专利网。