[发明专利]一种多智能体群组协作策略自动生成方法在审
申请号: | 202011253022.0 | 申请日: | 2020-11-11 |
公开(公告)号: | CN112488310A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 洪万福;钱智毅;黄在斌 | 申请(专利权)人: | 厦门渊亭信息科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦门市软*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 体群组 协作 策略 自动 生成 方法 | ||
1.一种多智能体群组协作策略自动生成方法,其特征在于:包括以下步骤:
步骤S1:定义并初始化多智能体协作策略的策略网络、目标策略网络和网络参数;
步骤S2:定义并初始化多智能体协作策略的评估网络、目标评估网络和网络参数;
步骤S3:定义并初始化每个智能体的经验缓存池和动作探索噪声,所述经验包括智能体的当前状态、信息微量、动作、奖励和下一个状态;
步骤S4:在所述策略网络的确定性行为策略中加入各智能体的信息微量;策略网络通过确定性行为策略和信息微量选择行为;
步骤S5:在每一时刻,对行为进行评估,在所述评估网络构建中采用分组策略:在每一时刻,智能体选择最和自己相关的智能体进行组队,更新分组矩阵;
步骤S6:在每一个回合,对每个智能体进行生灭判断,在环境中学习能力优秀的智能体通过子代遗传到自己全部信息继续训练,而在环境中学习较差的智能体则通过死亡回到初始点重新训练。
2.如权利要求1所述的多智能体群组协作策略自动生成方法,其特征在于,所述步骤S4中在所述策略网络的确定性行为策略中加入各智能体的信息微量,具体表现为策略网络通过确定性行为策略μθ和信息微量xi选择行为ai,公式为其中,Oi为智能体当前状态的观测值,Nnoise为步骤S3中的动作探索噪声。
3.如权利要求2所述的多智能体群组协作策略自动生成方法,其特征在于,所述步骤S4中在所述策略网络的确定性行为策略中加入各智能体的信息微量,具体包括以下步骤:
步骤S4-1:首先在环境X=Rn*n中,更新每一个智能体agenti的信息微量xi,智能体agenti若到达坐标(i,j),则智能体agenti的信息微量设为1,否则为0,构建智能体agenti在环境X的信息微量,其中R表示噪声,n*n表示环境大小;
步骤S4-2:将所有智能体的信息微量通过公式xall=λ1x1+λ2x2+……+λnxn进行加权求和形成汇总信息微量表xall,其中权重λi为1或0,当智能体agenti在一回合结束时完成目标,则权重λi置为1,否则权重λi置为0;
步骤S4-3:对得到的汇总信息微量表xall进行归一化,使用公式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门渊亭信息科技有限公司,未经厦门渊亭信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011253022.0/1.html,转载请声明来源钻瓜专利网。