[发明专利]一种基于强化学习的卫星网络资源编排方法及系统有效
申请号: | 202210363049.8 | 申请日: | 2022-04-07 |
公开(公告)号: | CN114710200B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 李泰新;宋俊平;周旭;范鹏飞;覃毅芳 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04W16/10 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 卫星 网络资源 编排 方法 系统 | ||
1.一种基于强化学习的卫星网络资源编排方法,由系统实施,所述系统包括至少一个GEO卫星和多个LEO卫星;所述GEO卫星部署多个业务评价模块;所述LEO卫星部署多个分布式策略模块和资源模块;其特征在于,所述方法包括:
多个LEO卫星中的每个LEO卫星收集系统中该LEO卫星的资源状态,形成资源状态集;
多个LEO卫星中的每个LEO卫星基于所述资源状态集中的资源情况,根据本地资源编排策略在资源编排动作集中选择资源编排动作,将所述资源状态上报给所述GEO卫星;所述资源编排动作集在分布式策略模块中制定,所述资源编排动作集为LEO卫星节点上承载的某一类业务分配资源的所有动作组成;
所述GEO卫星的业务评价模块对所述资源编排策略设置奖励函数;
根据所述奖励函数和所述资源状态,用于针对业务种类,在所述业务评价模块中计算选择当前资源编排动作的编排策略的评价结果;
多个LEO卫星中的每个LEO卫星根据业务评价模块给出的评价结果,调整优化所述资源编排策略。
2.根据权利要求1所述的方法,其特征在于,所述资源模块包括算力资源模块和网络资源模块。
3.根据权利要求1所述的方法,其特征在于,所述收集系统中LEO卫星的资源状态的方式包括:分布式策略模块以报文发送的方式请求资源模块上报资源状态信息。
4.根据权利要求1所述的方法,其特征在于,所述收集系统中LEO卫星的资源状态的方式还包括:资源模块以周期推送的方式主动上报资源状态信息到分布式策略模块。
5.根据权利要求1所述的方法,其特征在于,对于LEO卫星节点q,其资源状态由业务种类i,在t时刻在本节点上使用的资源以及t时刻在节点q上可用资源resq(t)组成;
所述包括业务种类i在t时刻在本节点使用的算力资源以及网络资源;
所述resq(t)包括t时刻在节点q上可用的算力资源以及网络资源;
LEO卫星节点q上状态集合
6.根据权利要求5所述的方法,还包括,每个LEO卫星节点上的状态集合组成全局的状态集合,即:
1≤q≤Q,Q是系统中LEO卫星节点个数。
7.根据权利要求1所述的方法,其特征在于,对于LEO卫星节点q,编排动作由针对业务种类i,在本节点上分配的算力资源量以及在本节点上分配的网络资源量组成;
对于业务种类i,节点q上的动作集合
8.根据权利要求7所述的方法,还包括,每个LEO卫星节点上的动作集合组成全局的动作集合,即:
1≤q≤Q,Q是系统中LEO卫星节点个数。
9.根据权利要求1所述的方法,其特征在于,所述计算选择当前资源编排动作的编排策略的评价结果,需要考虑业务种类i在卫星网络中的传输时延丢包率带宽资源满足率以及算力资源满足率参数;
所述参数中有正向参数,也有负向参数,而且量纲不一,需要归一化之后再构建奖励函数;对于业务种类i,奖励函数为:
为归一化之后的参数,a、b、c、d为各自的权重。
10.一种基于强化学习的卫星网络资源编排系统,包括至少一个GEO卫星和多个LEO卫星;所述GEO卫星部署多个业务评价模块;所述LEO卫星部署多个分布式策略模块和资源模块,所述系统执行如权利要求1-9任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210363049.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自然保护地生态环境风险预警系统及方法
- 下一篇:一种新型能效变压器