[发明专利]一种基于深度Q学习的测控资源调度方法有效
申请号: | 202010609039.9 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111767991B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 郭茂耘;武艺;唐奇;梁皓星 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N3/0464;G06N3/048;G06N3/084;G06Q10/0631;H04B7/185 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 测控 资源 调度 方法 | ||
本发明涉及一种基于深度Q学习的测控资源调度方法,属于智能调度领域。该方法包括以下步骤:S1:对复杂测控场景的描述;S2:测控调度性能评价指标设计;S3:测控资源调度方案形成;S4:DQN算法在测控资源调度方案生成中的应用;S5:基于DQN的测控资源调度方法实施。本发明能够在复杂测控环境中,在无需对测控环境进行精确建模的条件下,生成与测控场景相适应的测控资源调度策略,从而达到测控资源调度效能的最大化。
技术领域
本发明属于智能调度领域,涉及一种基于深度Q学习的测控资源调度方法。
背景技术
目前,用于解决卫星测控资源调度方法主要有:蚁群算法、粒子群算法、SVM方法等智能算法以及分支定界算法,拉格朗日松弛算法等确定性算法,贪婪算法、邻域搜索算法、模拟退火算法等启发式算法。针对天地一体化测控资源方面的研究相对较少,并且较多的从传统算法的角度进行研究,如拉格朗日松弛算法、蚁群算法、遗传算法,在深度强化学习算法方面的应用相对较少。
本发明主要解决由于测控任务与日俱增所造成的测控资源与测控对象的冲突。从测控资源与测控对象之间的可见性的角度出发,构建基于测控时间窗口的测控场景,利用深度Q学习(DeepQNetwork,DQN)求解测控任务的最佳进行时段,最终形成最优的测控调度方案,实现测控系统在特定指标下的最优运行。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度Q学习的测控资源调度方法。针对现有测控任务与测控资源数量冲突日益激烈的现状,考虑在测控资源数量受限情况下,测控任务仍受到测控资源资源与测控对象可见性、测控持续时间、测控任务优先级等多种条件的限制,这使得测控资源的调度成为一个在多种时空约束条件下的复杂组合优化问题。单一种类的测控资源测控业务以及测控范围存在差异性与局限性,而测控任务越来越趋向于复杂多样化,这使得测控调度决策难度不断增加,因而有必要对天地测控资源进行联合调度,实现天地一体化测控资源的综合调度性能最优。
本发明旨在构建一种基于深度强化学习的测控资源调度实现方法,利用深度强化学习实现对天地一体化测控资源的智能调度,对测控系统与测控场景进行更精确的抽象与特征提取,寻找到与测控场景适应的测控资源调度方案,以达到完成测控任务和提高测控资源利用综合效能的目的。通过对多约束条件下的资源调度问题的抽象,实现DQN算法的创新应用。
为达到上述目的,本发明提供如下技术方案:
一种基于深度Q学习的测控资源调度方法,该方法包括以下步骤:
S1:对复杂测控场景的描述;
S2:测控调度性能评价指标设计;
S3:测控资源调度方案形成;
S4:DQN算法在测控资源调度方案生成中的应用;
S5:基于DQN的测控资源调度方法实施。
可选的,所述步骤S1具体为:
(1)测控场景中实体的描述
从天地一体化测控系统的测控资源的角度出发,对测控场景中的要素进行基于可见时间窗口的描述;
天地一体化测控资源描述为:
RESOURCE={S,TYPE,TS,DS,L,LMAX}
其中,S为天地一体化测控资源的集合,在其中对多类多个测控资源进行统一化编号,S={s1,s2,...sj,...sM};j为测控资源的编号,M为所有测控资源的总的数量;
TYPE表征测控资源的种类,TYPE为1则该测控资源为天基测控资源,TYPE为0则该资源为地基测控资源;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010609039.9/2.html,转载请声明来源钻瓜专利网。