[发明专利]基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备有效
申请号: | 202110873852.1 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113572517B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 杨明川;窦映喆;焦利彬;薛冠昌;谢冰玉 | 申请(专利权)人: | 哈尔滨工业大学;中国电子科技集团公司第五十四研究所 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 时起磊 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 波束 资源 分配 方法 系统 存储 介质 设备 | ||
1.基于深度强化学习的跳波束资源分配方法,其特征在于,包括以下步骤:
基于跳波束卫星通信系统模型,将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立如下优化函数:
其中,P1对应于实时业务,是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,是此种情况下tj时刻小区cn的时隙长度;P2对应于非实时数据业务,是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,是此种情况下tj时刻小区cn的到达率,是tj时刻卫星跳波束于小区cn的覆盖情况;T=[t,t+Tth]是星上缓存器中可以存储数据包的时长范围,缓冲区内时延超过Tth的数据包将被丢弃,Pb是卫星波束最大功率,是波束发射功率,Ptot是卫星总功率;
将卫星缓存器中数据最大有效时间长度为Tth划分为等长的M段,对应M个跳波束时隙,在t时刻前m个时隙到达小区n的数据包时延ln为该时隙所在区间;在t时刻前m个时隙到达小区n的实时数据包个数在t时刻前m个时隙到达小区n的非实时数据包个数
将数据包时延、实时数据包个数、非实时数据包构成的地面小区业务量请求作为环境状态S,将卫星波束作为智能体Agent,将照亮小区作为动作,将卫星跳波束技术中的资源分配的最优化问题视为马尔科夫决策过程,基于深度Q网络进行跳波束资源分配。
2.根据权利要求1所述的基于深度强化学习的跳波束资源分配方法,其特征在于,所述跳波束卫星通信系统模型如下:
跳波束卫星通信系统的跳波束卫星通信场景:卫星提供K个波束共覆盖N个小区C={cn|n=1,2,…,N},cn即cell,卫星具有跳波束功能;各小区业务量请求以数据包的形式表示,每个数据包大小均为Mbit,服从到达率为的泊松分布,其中是tj时刻小区cn的到达率;星上存在缓冲区,缓冲区中的数据包为其中表示tj时刻小区cn缓冲的数据包数量;
对跳波束卫星通信系统每个时隙的波束调度过程进行建模:tj时刻卫星缓冲区中数据包数量其中是前一时刻缓冲区暂存数据包数量,是tj-1时刻卫星跳波束覆盖情况,是tj-1时刻新的数据包对应的服从到达率。
3.根据权利要求1或2所述的基于深度强化学习的跳波束资源分配方法,其特征在于,所述的环境状态S中的tj时刻状态矩阵其中和分别为tj时刻的Wt和Dt,Dt=[D1,t,D2,t];
4.根据权利要求3所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度Q网进行跳波束资源分配的动作集合为其中an=1表示小区n有波束照亮,an=0表示小区n无波束照亮。
5.根据权利要求4所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度Q网络中的Q网络是采用卷积神经网络和深度神经网络结合的方式构建的,首先利用卷积神经网络对状态矩阵进行特征提取,再通过深度神经网络实现从状态空间到动作空间的非线性映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;中国电子科技集团公司第五十四研究所,未经哈尔滨工业大学;中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110873852.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便携式可调基座
- 下一篇:投放内容确定方法、装置、电子设备及存储介质