[发明专利]一种基于深度强化学习的工业物联网图任务卸载方法及系统在审
| 申请号: | 202110923267.8 | 申请日: | 2021-08-12 |
| 公开(公告)号: | CN113590229A | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 韩瑜;李锦铭;古博;秦臻;张旭;姜善成;唐兆家 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06F9/445 | 分类号: | G06F9/445;G06F9/48;G06F9/50 |
| 代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 工业 联网 任务 卸载 方法 系统 | ||
1.一种基于深度强化学习的工业物联网图任务卸载方法,其特征在于,包括以下步骤:
S1、基于工业物联网中卸载任务场景构建移动边缘计算系统;
S2、基于移动边缘计算系统设定图任务卸载的优化目标,所述优化目标为最小化任务完成时间与数据交换消耗的权重之和;
S3、根据移动边缘计算系统中的环境状态和图任务卸载的优化目标,基于预构建深度Q网络进行强化学习,在动态时变环境下学习对计算密集型图任务进行卸载,得到最优动作;
所述预构建深度Q网络包括结构相同的train Q-网络和target Q-网络。
2.根据权利要求1所述一种基于深度强化学习的工业物联网图任务卸载方法,其特征在于,所述基于工业物联网中卸载任务场景构建移动边缘计算系统这一步骤,其具体包括:
S11、基于工业物联网中卸载任务场景构建移动边缘计算系统,所述卸载任务场景中包括一个任务发起者和多个任务执行者;
S12、将任务之间的依附关系用无向非循环图G={V,E}表示,其中包含一组任务V={Vi|i∈W},以及一组边E={eij|(i,j)∈w,i≠j},其中W表示任务总数,G中的每个边eij用作二进制指示符变量指示vi和vj之间是否存在数据交换;
对移动边缘计算系统中进行图任务卸载,所述图任务卸载存在传输时间消耗、执行时间消耗和数据交换消耗。
3.根据权利要求2所述一种基于深度强化学习的工业物联网图任务卸载方法,其特征在于,所述基于预构建深度Q网络进行强化学习的具体步骤包括:
状态空间,在t时刻的状态表示为其中代表着t时刻任务执行者i的通道收益,ft={ft,i|i∈m}代表着t时刻任务执行者i的cpu频率,ut={ut,i|i∈m}代表着t时刻任务执行者i的空闲间隙数量,Gt代表任务图的拓扑关系,dt={dt,i|i∈m}代表着t时刻任务执行者i与任务发起者的距离;
动作空间,当前任务vi的动作表示为ai{ai,1,ai,2,…ai,m|i∈m},其中,ai,j被设置为二进制指示符;
回报函数,系统的奖励设置为其中,T(u)表示时间消耗,E(b)表示数据交换消耗,α和(1-α)分别表示时间消耗和数据交换消耗的权重。
4.根据权利要求3所述一种基于深度强化学习的工业物联网图任务卸载方法,其特征在于,所述根据移动边缘计算系统中的环境状态和图任务卸载的优化目标,基于预构建深度Q网络进行强化学习,在动态时变环境下学习对计算密集型图任务进行卸载,得到最优动作这一步骤,其具体包括:
S31、根据移动边缘计算系统中的环境状态和图任务卸载的优化目标,在动态的环境下计算产生的时间消耗与数据交换消耗;
S32、确定动作a对应的回报r,将新的观测的环境状态s’输入到预构建深度Q网络中,并利用回报r来计算损失函数loss,进而通过反向梯度传递的方式对train Q-网络的参数进行更新;
S33、重复执行步骤S32,直至判断到回报r收敛并趋近最大化,则当前的动作为最优动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110923267.8/1.html,转载请声明来源钻瓜专利网。





