[发明专利]一种基于强化学习的多阶段装备组合规划方法有效
申请号: | 201911165682.0 | 申请日: | 2019-11-25 |
公开(公告)号: | CN110989343B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 张骁雄;李明浩;丁鲲;夏博远;张慧 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 江苏瑞途律师事务所 32346 | 代理人: | 韦超峰;金龙 |
地址: | 410073 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 阶段 装备 组合 规划 方法 | ||
1.一种基于强化学习的多阶段装备组合规划方法,其特征在于,包括以下步骤:
S1:确定输入参数
所述输入参数包括:装备项目数量、场景数量、场景信息、阶段规划区间、总经费以及预算违背阈值,所述场景信息包括装备的效能和成本;
S2:构建组合优化模型
首先,针对单阶段装备组合优化问题,考虑多个可能场景,构建单阶段多场景组合优化模型;然后,根据武器装备发展规划周期,并基于所述单阶段多场景组合优化模型,构建多阶段多场景组合优化模型;所述单阶段多场景组合优化模型和多阶段多场景组合优化模型在如下假设条件下构建:
(1)当前待开发装备项目清单是已知的,同时允许在未来任一阶段增加新的装备,以描述现实中装备的更新交替;
(2)不同场景下每个装备的效能未知,服从一定的分布;
(3)装备之间没有相互依存关系,即所有装备可并行发展;
(4)一旦装备项目被纳入规划,则不能从装备清单中删除直至完成;
所述单阶段多场景组合优化模型以最大化装备组合效能和最小化装备组合成本为目标,目标函数为:
xi∈{0,1}
式中,k∈[1,K]表示一个场景,K代表场景的总数,B代表给定的经费预算,δ代表预算违背阈值,xi∈X代表当前装备清单X中第i个装备,ci代表装备xi对应的开发成本,rik表示场景k下装备项目xi的效能,i表示装备序号;
所述多阶段多场景组合优化模型以整个规划周期内最大化装备组合效能和最小化装备组合成本为目标,目标函数为:
xit∈{0,1}
式中,表示阶段t、场景k下装备项目xi的效能,cit为装备xi在阶段t下的开发成本,xit为装备xi在阶段t下的选择位,Bt为阶段t下的经费预算,δt代表阶段t下的预算违背阈值;
S3:构建优化求解算法
基于强化学习中的Q-Learning方法,搭建求解步骤S2中组合优化模型的优化求解算法;
S4:确定最终组合规划方案
将输入参数输入到组合优化模型中,并采用步骤S3所构建的优化求解算法进行求解,得到最优组合规划方案。
2.根据权利要求1所述的一种基于强化学习的多阶段装备组合规划方法,其特征在于,所述步骤S3的优化求解算法,包括以下步骤:
S3.1:在每个阶段,基于之前所有阶段的装备组合方案,生成该阶段的待选装备集合;
S3.2:针对K+1个目标的优化问题,采用非支配排序遗传算法NSGA或多目标进化算法MOEA求解当前阶段装备发展的Pareto解集,其中K是场景数量;
S3.3:基于上个阶段优化过程获得的Pareto解集,采用探索或者利用模式选择一个装备组合方案,并更新当前阶段下选择该装备组合方案的Q值;
S3.4:迭代上述步骤,直到达到停止标准。
3.根据权利要求2所述的一种基于强化学习的多阶段装备组合规划方法,其特征在于,所述步骤S3.3中,具体选择探索或者利用模式,由参数控制的随机概率决定,所述探索模式,允许从Pareto解集中随机选择一个方案;所述利用模式,是求解Pareto解中的每一个装备组合方案对应的Q值,选择Q值最大的作为当前阶段的装备组合方案。
4.根据权利要求3所述的一种基于强化学习的多阶段装备组合规划方法,其特征在于,所述步骤S3.3中,更新当前阶段选择该装备组合方案的Q值,包括以下子步骤:
S3.3.1:构建回报函数,计算当前阶段选择不同装备组合方案的回报值;
S3.3.2:根据步骤S3.3.1得到回报值,通过标准的Q-Learning公式对Q值进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911165682.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种硬币自动分拣装置
- 下一篇:一种LED路灯结构