[发明专利]一种基于强化学习的边缘计算任务卸载方法有效
申请号: | 202111483883.2 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114138373B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 于银辉;郭思宇;程国豪;田子玉 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06F9/50;G06N20/00 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 崔自京 |
地址: | 130012 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 边缘 计算 任务 卸载 方法 | ||
1.一种基于强化学习的边缘计算任务卸载方法,其特征在于,包括以下步骤:
S1.建立边缘计算系统模型,边缘计算系统模型包括:普通用户节点、可租用用户节点、MEC服务器节点和SDN总控制器节点,其中,每个SDN总控制器节点下,包括N个泊松分布的普通用户节点N={u1,u2,u3,…,uN},可租用用户节点和MEC服务器节点作为服务节点共M个,记为K={k1,k2,k3,…,kM};
S2.普通用户节点产生任务上报至SDN总控制器节点,根据用户任务情况,选择本地计算或卸载计算,在需要进行卸载计算时,通过强化学习方法训练后的SDN总控制器节点根据实时网络状态,频谱资源和计算资源,获得基于边缘节点网络状态的最优卸载策略并反馈至普通用户节点;
S3.普通用户节点根据最优卸载策略将任务卸载给服务节点,服务节点执行分配到的计算任务,并将计算结果反馈至普通用户节点。
2.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法,其特征在于,S2中选择本地计算或卸载计算的具体内容包括:
普通用户节点产生的一个任务Ri包括:当前任务的数据包大小di,当前任务的最大可容忍时延当前任务计算能力需求αi;
根据本地计算能力获取在时隙t时任务计算执行时间具体方法为:
若当前任务本地执行所需时间不超过最大可容忍时延则在本地执行,若不是则选择卸载计算。
3.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法,其特征在于,对SDN总控制器节点进行强化学习训练的内容包括:
在每个时隙t,SDN总控制器节点根据当前环境状态st,发布卸载策略进行动作at选择,普通用户节点采取动作at,根据所采取的每个动作at返回一个奖赏值信号rt+1和一个新的状态st+1,将新的状态st+1更新当前环境状态st进行循环迭代;
针对每个环境状态st和动作at通过Q-learning函数计算Q值,并根据Q值通过Bellman最优方程获取最优策略,使总期望回报最大化;
其中,环境状态st∈S,S为所有状态的合集,每个环境状态s包括:系统总开销e,当前信道使用情况g,服务节点有效计算资源f;动作at∈A,A为所有动作的合集。
4.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法,其特征在于,在迭代过程中,通过学习率δ来进行更新Q值,Q值的更新表达式为:
其中,δ(0≤δ≤1)为学习率,表示当前学习的知识对先前学习的知识的影响。
5.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法,其特征在于,动作选择包括信道选择、功率选择和计算资源选择,表示为通道、功率、计算资源矩阵at=[cg,p,cf]。
6.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法,其特征在于,产生奖赏值信号的奖赏函数r为规定时隙t内所有任务的计算及传输能耗与可容忍时延满足情况的联合效用值:
其中,etran(t),ecomp(t)表示当前任务的传输能耗以及计算能耗,Ttran(t),Tcomp(t)分别为当任务卸载执行时,任务传输时间与计算时间,和均为权重系数,Pout表示当任务实际时延超过可容忍时延时产生的惩罚值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111483883.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电机散热扇
- 下一篇:一种应急车辆通行指挥系统及方法