[发明专利]一种多智能体群组协作策略自动生成方法在审
申请号: | 202011253022.0 | 申请日: | 2020-11-11 |
公开(公告)号: | CN112488310A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 洪万福;钱智毅;黄在斌 | 申请(专利权)人: | 厦门渊亭信息科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦门市软*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 体群组 协作 策略 自动 生成 方法 | ||
本发明涉及人工智能领域,公开了一种多智能体群组协作策略自动生成方法,根据具体应用环境定义智能体及其策略网络、评估网络和经验,实现多智能体协作策略的自动生成,其采用的算法在MADDPG算法上的基础上提出了三大创新:信息微量、多智能体协同组队和生灭训练。智能体在环境中的学习历史会在环境中留下自己的信息微量,通过信息微量智能体可以学习别人的经验避免走弯路;通过多智能体协同组队,可提高训练效率;最后通过生灭训练来使在环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,在环境中学习较差的智能体通过死亡回到初始点重新训练,可大大提高多智能体协作策略的生成和评估效率。
技术领域
本发明涉及人工智能领域,尤其涉及一种多智能体群组协作策略自动生成方法。
背景技术
MADDPG为基于深度确定性策略梯度算法的多智能体强化学习框架,可用于多智能体协作策略自动生成。
在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获得该环境下最优策略的过程就多智能体强化学习。
在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的,因此给学习过程带来很大的困难。
维度爆炸:在单体强化学习中,需要存储状态值函数或动作-状态值函数。在多体强化学习中,状态空间变大,联结动作空间(联结动作是指每个智能体当前动作组合而成的多智能体系统当前时刻的动作)随智能体数量指数增长,因此多智能体系统维度非常大,计算复杂。
目标奖励确定困难:多智能体系统中每个智能体的任务可能不同,但是彼此之间又相互耦合影响。奖励设计的优劣直接影响学习到的策略的好坏。
不稳定性:在多智能体系统中,多个智能体是同时学习的。当同伴的策略改变时,每个智能体自身的最优策略也可能会变化,这将对算法的收敛性带来影响。
探索-利用:探索不光要考虑自身对环境的探索,也要对同伴的策略变化进行探索,可能打破同伴策略的平衡状态。每个智能体的探索都可能对同伴智能体的策略产生影响,这将使算法很难稳定,学习速度慢。
在多智能体系统中智能体之间可能涉及到合作与竞争等关系,使用到强化学习,强化学习作为机器学习的方法之一,又称为再励学习、增强学习,来源于生物学中的条件反射理论,其基本思想是对所希望的结果予以奖励,对不希望的结果予以惩罚,逐渐形成一种趋向于好结果的条件反射。如本系统中的通过不断学习经验,最小化经验损失,更新神经网络参数,最后达到输出得到好结果的动作,就是在不断的迭代学习过程中,智能体能够学到完成相应任务的最有动作,也称最优策略。
发明内容
有鉴于现有技术的上述缺陷,本发明的目的是提供一种多智能体群组协作策略自动生成方法,应用于多智能体协作的策略生成,在原有MADDPG算法上进行优化,以减少无效搜索,提高学习效率,以提高多智能体协作的效果评估效率。
为实现上述目的,本发明提供了一种多智能体群组协作策略自动生成方法,包括以下步骤:
步骤S1:定义并初始化多智能体协作策略的策略网络、目标策略网络和网络参数;
步骤S2:定义并初始化多智能体协作策略的评估网络、目标评估网络和网络参数;
步骤S3:定义并初始化每个智能体的经验缓存池和动作探索噪声,所述经验包括智能体的当前状态、信息微量、动作、奖励和下一个状态;
步骤S4:在所述策略网络的确定性行为策略中加入各智能体的信息微量;策略网络通过确定性行为策略和信息微量选择行为;
步骤S5:在每一时刻,对行为进行评估,在所述评估网络构建中采用分组策略:在每一时刻,智能体选择最和自己相关的智能体进行组队,更新分组矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门渊亭信息科技有限公司,未经厦门渊亭信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011253022.0/2.html,转载请声明来源钻瓜专利网。