[发明专利]面向多要素联合指控的分层多智能体增强学习方法在审
申请号: | 202111530472.4 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114330651A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 路鹰;郑本昌;惠俊鹏;黄虎;李君;张佳;任金磊;阎岩;王振亚;范佳宣;李丝然;何昳頔;李博遥;吴志壕;刘峰;范中行;张旭辉;陈海鹏;赵大海;韩特;矫慧;古月;郭晶 | 申请(专利权)人: | 中国运载火箭技术研究院 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 范晓毅 |
地址: | 100076 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 要素 联合 指控 分层 智能 增强 学习方法 | ||
1.一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,包括以下步骤:
S1预设智能体推演环境;
S2针对智能体推演环境,建立以状态为输入,以动作为输出的智能体强化学习模型,并利用奖励机制对智能体强化学习模型进行训练,得到智能体强化学习模型的最佳策略;
所述智能体强化学习模型采用Actor-Critic网络架构,包括一个判别层和与各智能体一一对应的决策层,所述各决策层用于根据智能体当前局部观察所得状态预测智能体的动作,并输出至智能体推演环境,得到新的总体状态并输注至判别层,判别层根据当前总体状态、新的总体状态及奖励机制对决策层进行反馈,更新决策层策略。
2.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,输入智能体强化学习模型的状态空间包括智能体当前夺控点得分,智能体所处的地形类型,智能体观察模式,或剩余弹药数中的一种或一种以上;
状态空间中的状态类型及各状态区间采用缺省验证的方式进行优化。
3.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,智能体强化学习模型的动作空间包括移动,射击等简单动作中的一种或一种以上;动作空间采用离散动作或归一化后的连续动作,所述连续动作归一化的方法为将连续动作映射到[-1,1]之间;
当动作空间采用归一化后的连续动作空间时,步骤S2中Actor-Critic网络的判别层中设有与归一化后的连续动作空间相对应的激活函数。
4.根据权利要求1或3所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,智能体强化学习模型输出的各动作抽象为带参数的函数形式:
Action=p(delay,Unit_Selection);
其中,Action代表各动作,delay表示延迟,用于控制对应动作的生效时间,Unit_Selection表示智能体所有可能的目标单位或目标地点。
5.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,智能体强化学习模型中的奖励机制包括鼓励射击,压制状态减分,血量扣除减分,处于特殊地形加分,有士兵在车上的智能体减分,能看到主目标点的智能体加分,比主目标点高的智能体加分,弹药消耗减分或单位损失减分中的一种或一种以上。
6.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,决策层包括输入层,全连接层,softmax层和gumbel层,gumbel层的输出与判别层连接;
判别层根据奖励机制得到当前状态和新的状态的评价值,根据当前状态和新的状态评价值,利用优势函数评价决策层所预测动作的优劣性,根据动作优劣判断结果对决策层进行反馈,采用策略梯度下降算法更新决策层策略。
7.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述优势函数为A(st,a)=r(st)+γv(st+1)-v(st),其中v代表状态价值函数,st代表当前状态,st+1代表决策层预测动作对应的新的状态,γ为折扣率,γ=0.8。
8.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述决策层包括分别与智能体一一对应的高层决策器和底层决策器;将判别层与决策层中的高层决策器视为高层决策层,将决策层中的底层决策器视为分散执行层,所述高层决策层与分散执行层之间为异步决策,高层决策层在多个时间步内执行一次决策,决定当前每个智能体所应该采取的复杂动作任务;分散执行层通过不固定的时间步采取动作空间中的简单动作,完成所述复杂动作任务。
9.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述判别层中还包括经验回放池,随机抽样模块和一个目标网络;其中经验回放池用于收集智能体的历史经验数据,所述历史经验数据包括状态和采取的动作;随机抽样模块用于在智能体强化学习模型训练的过程中,随机提经验回放池中的历史经验数据;目标网络作为决策层要学习的对象,根据相同状态下目标网络输出和决策层输出的差距得到梯度,并根据梯度更新决策层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国运载火箭技术研究院,未经中国运载火箭技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111530472.4/1.html,转载请声明来源钻瓜专利网。