[发明专利]一种基于深度强化学习的成本最优空地网络任务卸载方法在审
申请号: | 202211237223.0 | 申请日: | 2022-10-10 |
公开(公告)号: | CN115967430A | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 秦鹏;王硕;伏阳;武雪;付民;王淼 | 申请(专利权)人: | 华北电力大学 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04W28/08;H04W28/084;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 102206*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 成本 最优 空地 网络 任务 卸载 方法 | ||
1.本发明公开了一种基于深度强化学习的成本最优空地网络任务卸载方法。所述方案包括:我们首先提出了一种空地一体化异构网络模型,该模型由高空平台站(HAPS)和多个配备边缘服务器的无人机(UAV)组成。每个用户都可以选择在本地执行任务或在边缘执行任务。我们的目标是优化延迟和能耗的权重。该问题是通过联合考虑任务卸载决策和计算资源分配来描述的,但由于优化变量之间的强耦合,这是一个混MINLP问题。因此,我们将其分解为两个子问题,并设计一种基于深度强化学习的方法来解决计算卸载决策问题。对于第二个计算资源分配子问题,提出了一种基于贪婪的解决方案。
2.根据权力要求1,场景包含HAPS和K个无人机,相应的集合表示为其中S0和S1,…,Sk分别表示HAPS和无人机。I个终端随机分布在地面上,其表示的集合为E={e1,e2,…,ei,…,eI}。本文采用时隙模型,时间总长度包含T个时隙,其集合表示为
3.根据权力要求1所述,提出一种基于深度强化学习的任务卸载方法,其特征在于:智能体采取行动并获得即时奖励,在获取少量信息的条件下,通过与环境交互学习到最佳的卸载策略,可以有效解决动态复杂的通信场景。
我们的优化目标是,最在满足时延要求下最小化系统成本。因此,奖励函数形式如下:
4.该问题求解可以划分为以下几步:
首先,研究空地一体化异构网络模型中的计算卸载问题,将卸载决策过程表述为马尔可夫决策过程(MDP),针对网络模型的动态性和复杂性,提出一种基于深度强化学习的计算卸载方法来实时学习最优卸载决策,以解决维数诅咒问题,提高学习速度。对于计算资源分配问题,采用基于贪婪的计算资源分配方法。本发明能以较低的复杂度实现较优的性能,该方法在降低终端能耗和时延方面具有很好的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211237223.0/1.html,转载请声明来源钻瓜专利网。