[发明专利]一种基于混合整数规划的多飞行器任务调度方法有效
申请号: | 202211250312.9 | 申请日: | 2022-10-13 |
公开(公告)号: | CN115328638B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 吕金虎;曲庆渝;刘克新;高庆 | 申请(专利权)人: | 北京航空航天大学;中国科学院数学与系统科学研究院 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 北京天汇航智知识产权代理事务所(普通合伙) 11987 | 代理人: | 高永;陈陈数 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 整数 规划 飞行器 任务 调度 方法 | ||
1.一种基于混合整数规划的多飞行器任务调度方法,其特征在于,包括如下步骤:
步骤1,对多飞行器的任务属性与资源属性进行分析,将多飞行器的任务调度问题建模为一个混合整数规划模型;
所述飞行器的任务调度问题给定如下:
式中
将上述问题建模为如下混合整数规划问题:
其中,为上述卫星任务调度中确定的决策变量,为使决策变量取最小值的函数;为目标系数向量,
步骤2,利用分支定界方法对得到的混合整数规划问题进行求解,将分支定界问题建模为马尔科夫决策过程,确定所述马尔科夫决策过程中状态、动作、奖励以及转移关系的设置;
步骤3,利用StrongBranch和Pseudo-costBranch两种启发式算法求解步骤2得到的分支定界问题,在每个节点上,90%的概率利用Pseudo-cost Branch方法进行求解,10%的概率利用StrongBranch方法进行求解;在求解过程中收集由StrongBranch算法得到的“状态-动作”数据,获得专家策略的数据集;
步骤4,基于得到的“状态-动作”数据,利用模仿学习方法进行模型训练,得到分支定界策略,并放入策略池;
步骤5,在步骤1得到的混合整数规划模型上测试步骤4所得策略的求解时间;
步骤6,利用Pseudo-cost Branch算法以及策略池中的策略求解步骤2中得到的分支定界问题,在求解过程中按回合收集所有策略得到的数据,计算相应的累计奖励,并更新专家策略的数据集;
步骤7,利用强化学习方法对步骤6中得到的数据进行筛选,筛选依据为每组“状态-动作”数据上的累计奖励,仅保留累计奖励较高的数据,并更新策略池;
具体为利用一个神经网络来拟合每个状态上的累计奖励的上确界,进而认为那些累计奖励靠近的“状态-动作”对,其动作都是由近似最优策略生成的,据此依照下式挑选出“状态-动作”对,利用模仿学习以得到近似最优策略:
其中,表示从当前节点到回合结束的累计奖励,是一个超参数,它和选出的“状态-动作”对在总数据集中的占比一一对应,先设置比例值,从而确定的取值;的含义是当前节点的状态信息;
步骤8,重复步骤4-7,直至模型求解时间不再减少;
步骤9,输出最终训练得到的策略。
2.根据权利要求1所述一种基于混合整数规划的多飞行器任务调度方法,其特征在于,
所述步骤2的马尔科夫决策过程中的状态包括分支定界的节点状态信息以及可以进行分支定界的候选变量集合;动作为在当前节点上选中进行分支定界的最终候选变量;奖励为在当前节点上选择某变量进行分支定界所需要的求解时间的相反数;转移关系为在当前节点上选择某变量进行分支定界,并得到分支定界决策树上下一个节点。
3.根据权利要求2所述一种基于混合整数规划的多飞行器任务调度方法,其特征在于,所述飞行器为对地观测卫星。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;中国科学院数学与系统科学研究院,未经北京航空航天大学;中国科学院数学与系统科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211250312.9/1.html,转载请声明来源钻瓜专利网。