[发明专利]基于元强化学习的缓存辅助任务协作卸载与资源分配方法有效
申请号: | 202110704204.3 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113434212B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 芮兰兰;高志鹏;陈世优;杨杨;李文璟 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06F9/50 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 高福勇 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 缓存 辅助 任务 协作 卸载 资源 分配 方法 | ||
1.基于元强化学习的缓存辅助任务协作卸载与资源分配方法,其特征在于,包括以下四个步骤:
S1、在移动协作式应用场景下建立缓存辅助的任务协作卸载与资源分配模型,包括边缘环境模型、计算任务模型、计算任务执行方式模型、时延模型、能耗模型、缓存效益模型、马尔可夫决策过程卸载模型;
步骤S1中时延模型建立方法为:任务在移动设备本地执行时延为其中,wi为任务i所需要的计算资源,fn为MDn的CPU计算能力;任务通过计算卸载到边缘执行的数据上传时延为其中,表示任务i的输入数据大小,Rn,m表示MDn到边缘节点m之间的链路数据率;任务通过计算卸载到边缘执行的任务处理时延为其中,fm为节点m的CPU计算能力;任务通过计算卸载到边缘执行的数据接收时延为其中,表示任务i的输出数据大小,Rn,m表示MDn到边缘节点n之间的链路数据率;任务通过计算卸载到边缘执行的任务间参数的传输时延包括一跳模式和两跳模式两种情况:1)一跳模式:任务i+1执行节点在任务i执行节点的通信范围内,任务i与任务i+1之间直接通信传递中间参数,设节点m需要的参数数据量大小可表示为Jm,则一跳模式下的参数传输时延为:2)两跳模式:任务i+1执行节点不在任务i执行节点的通信范围内,中间参数可通过一个任意的转发节点完成传输,设两跳模式下转发节点为n,则两跳模式下的参数传输时延为缓存辅助的应用程序卸载调度决策达成的应用程序执行总时延为:
步骤S1中能耗模型为:任务在移动设备本地执行能耗:其中,vn为MDn上每个CPU计算周期所消耗的能量,vn=κfn2,κ为能量系数;任务通过计算卸载的总能量消耗主要包括:向边缘服务器上传数据的能耗和从边缘服务器接收数据的能耗,分别为和Pn为MDn向边缘节点m的发送功率,为从边缘节点m的接收功率;缓存辅助的应用程序卸载调度决策完成的应用程序执行总能耗为:
S2、获取请求任务的缓存状态,S2包括以下步骤:
S201、输入缓存执行阈值δs和缓存删除阈值δd;
S202、计算缓存效益CU(i);
S203、决定任务缓存状态K,当缓存增益大于执行阈值δs时,将其缓存在移动边缘计算的节点上;当缓存增益小于删除阈值δd时,不进行缓存;
S3、获得学习模型,S3包括以下步骤:
S301:通过全拓扑排序算法求解任务执行序列QG;
S302:采样k个学习任务,初始化元策略参数θ;
S303:采样获得状态行为集合,采取相应的动作,评估奖励;
S304:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数集合{θ′1,θ′2,...,θ′k},当奖励不收敛或未达到迭代次数上限时,更新参数θ′k,同步评估网络和策略网络的参数返回步骤S302;
S305:通过Adam更新元策略参数;
S306:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,输出学习模型;当奖励不收敛或未达到迭代次数上限时,返回S304;
S4、求解卸载决策,S4包括以下步骤:
S401:采样获得状态行为集合,采取相应的动作,评估奖励;
S402:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或达到迭代次数上限时,输出卸载决策序列YG,资源分配序列XG,当奖励不收敛或未达到迭代次数上限时,更新参数θ,同步评估网络和策略网络的参数,返回S401。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110704204.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种桥梁浇灌系统
- 下一篇:一种分布式数据库测试数据的生成方法及装置