[发明专利]基于经验共享深度强化学习的无服务器边缘任务卸载方法在审
| 申请号: | 202211114143.6 | 申请日: | 2022-09-14 |
| 公开(公告)号: | CN115499440A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 陈宁江;姚旭艺;曾浩洋 | 申请(专利权)人: | 广西大学 |
| 主分类号: | H04L67/10 | 分类号: | H04L67/10;H04L41/14;G06F9/445 |
| 代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 经验 共享 深度 强化 学习 服务器 边缘 任务 卸载 方法 | ||
1.一种基于经验共享深度强化学习的无服务器边缘任务卸载方法,其特征在于,包括如下步骤:
(1)基于经验共享深度强化学习的分布式任务卸载方法ES-DRL采用改进的Actor-Critic框架的深度强化学习对任务卸载优化问题求解:在无服务器边缘计算的有状态和无状态结合的执行模型场景中,将多任务卸载问题转为联合优化问题,并且将任务卸载决策过程的性能优化问题建模为马尔可夫决策过程MDP;利用深度强化学习DRL的优点,采用在目标Actor策略的输出动作中加入策略噪声来平滑期望长期回报Q值、在Critic网络中通过学习两个Q值函数来避免Q值的过估计以及利用延迟策略更新以获得更小方差的Q值函数估计的改进Actor-Critic框架的DRL算法进行求解;
(2)利用基于经验共享深度强化学习的分布式任务卸载方法ES-DRL优化卸载性能:为提高样本多样性和样本效率,基于经验共享深度强化学习的分布式任务卸载方法ES-DRL采用经验共享分布式学习架构,该架构中具有多个无服务器计算环境,每个环境内部署DRL智能体用于任务卸载决策和环境交互;每个环境的智能体将经验数据上传至云回放缓存进行共享,并从中随机抽取批量经验数据进行学习并设计一种基于种群指导的策略搜索方法,通过共享种群最佳个体信息,指导种群进化学习,优化个体网络以提高DRL智能体的收敛速度,降低探索成本。
2.如权利要求1所述的基于经验共享深度强化学习的无服务器边缘任务卸载方法,其特征在于,所述步骤(1)中,在无服务器边缘计算的有状态和无状态结合的执行模型场景中,将多任务卸载问题转为联合优化问题,并且将任务卸载决策过程的性能优化问题建模为马尔可夫决策过程,具体包括:
基于MDP的任务卸载优化问题建模:将任务卸载问题转为联合优化问题;延迟成本定义为全部任务的处理延迟成本之和如式(1):
其中,ai={0,1},0表示任务oi在物联网(Internet of Things,IoT)本地设备处理,1表示任务oi卸载至边缘服务器中EFaaS处理;Ll表示任务卸载至IoT设备处理的延迟,Le表示任务卸载至EFaaS处理的延迟;将时间离散化为多个时间段,称为时间步在MDP中,策略π(At|St)在状态下采取某个动作与环境交互,环境返回奖励Rt和下一个状态St+1,并定义SEC环境系统的MDP状态、动作和奖励如下:
1)状态:定义系统状态S={F,G,H,U,qe},其中表示任务信息集合,表示IoT设备的状态信息集合,H={i,j,σ2}表示信道增益和背景噪声方差的集合,表示EFaaS的函数实例计算能力集合qe表示任务oi在EFaaS任务执行队列的队列延迟,qi表示任务oi在本地任务执行队列的队列延迟,ui为IoT设备oi或者EFaaS中处理任务oi的函数实例的计算能力;
2)动作:是基于系统状态做出的任务卸载决策,每个任务决策是一个二进制选择,动作空间定义为ai∈{0,1},其中0表示任务在IoT设备执行,1表示任务卸载到EFaaS执行;
3)奖励:为最小化SEC系统延迟成本,因此定义奖励为系统成本的负值,即-Lsys,反映在时间步t采取动作At时的系统性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211114143.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种陶瓷洁具釉面烘干机
- 下一篇:一种彩色透光混凝土及制备方法





