[发明专利]基于深度强化学习的频谱地图构建与分发方法及系统在审
申请号: | 202111341780.2 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114116209A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 周力;刘兴光;谭翔;魏急波;赵海涛;熊俊;高文颖;黄圣春;张姣;曹阔 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F16/29;G06N3/04;G06N3/08 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 频谱 地图 构建 分发 方法 系统 | ||
1.一种基于深度强化学习的频谱地图构建与分发方法,其特征在于,包括以下步骤:
将移动边缘网络中频谱地图的构建与分发问题建模成计算与通信折衷模型,并构建集中式训练、分布式执行的强化学习框架;所述强化学习框架包括离线训练模块和在线执行模块;
根据认知用户自身的频谱感知能力,获取可用带宽信息;
根据所述可用带宽信息和认知用户终端的计算能力,利用离线训练模块对移动边缘网络的带宽和边缘服务器的计算能力进行资源分配,并进行卸载策略的选择;所述卸载策略包括全卸载策略、部分卸载策略和本地计算策略;
通过训练好的在线执行模块,利用选择的卸载策略进行认知用户的数据分发、卸载和计算,并分步构建频谱地图;
实时监测认知用户感知到的可用带宽信息,当监测到可用带宽信息发生变化时,利用离线训练模块对在线执行模块进行重新训练,并确定新环境的卸载策略,以自主适应复杂多变的通信环境。
2.如权利要求1所述的基于深度强化学习的频谱地图构建与分发方法,其特征在于,所述离线训练模块包括集中训练器,所述集中训练器通过边缘服务器进行构建;所述在线执行模块包括策略网络,所述策略网络加载在认知用户端。
3.如权利要求2所述的基于深度强化学习的频谱地图构建与分发方法,其特征在于,所述离线训练模块通过公共信道收集认知用户感知的可用带宽信息,利用收集到的可用带宽信息给每个认知用户训练一个相互协作的策略网络,并将训练好的策略网络参数通过公共信道发送给对应的认知用户以更新对应认知用户端策略网络的参数;所述策略网络包括认知用户的卸载策略、边缘服务器计算资源分配和移动边缘网络带宽分配。
4.如权利要求3所述的基于深度强化学习的频谱地图构建与分发方法,其特征在于,利用收集到的可用带宽信息给每个认知用户训练一个相互协作的策略网络,包括:
将频谱地图构建与分发过程中所消耗的带宽、能量和时间的总和作为移动边缘网络系统的目标函数;
根据所述目标函数在强化学习框架内建立奖励函数;
根据认知用户执行卸载策略得到的目标函数,利用所述奖励函数输出当前策略网络的奖励值;
将所述奖励值输入神经网络进行训练,给每个认知用户训练一个相互协作的策略网络。
5.如权利要求1所述的基于深度强化学习的频谱地图构建与分发方法,其特征在于,所述全卸载策略包括:
利用边缘服务器,采用克里金插值算法将认知用户采集到的原始频谱数据构建为低分辨率频谱地图;
利用超分辨率算法将所述低分辨率频谱地图构建为高分辨率频谱地图,进行压缩后分发给移动边缘网络终端用户。
6.如权利要求1所述的基于深度强化学习的频谱地图构建与分发方法,其特征在于,所述部分卸载策略包括:
利用边缘服务器,采用克里金插值算法将认知用户采集到的原始频谱数据构建为低分辨率频谱地图;
将所述低分辨率频谱地图分发给移动边缘网络的终端用户,利用终端用户,采用超分辨率算法将所述低分辨率频谱地图转换为高分辨率频谱地图。
7.如权利要求1所述的基于深度强化学习的频谱地图构建与分发方法,其特征在于,所述本地计算策略包括:
利用边缘服务器将认知用户采集到的原始频谱数据分发给移动边缘网络终端用户;
利用终端用户,采用克里金插值算法将原始频谱数据构建为低分辨率频谱地图,再利用超分辨率算法将低分辨率频谱地图构建为高分辨率频谱地图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111341780.2/1.html,转载请声明来源钻瓜专利网。