[发明专利]一种基于策略梯度的公交车辆计算任务卸载方法在审

专利信息
申请号: 202110654075.1 申请日: 2021-06-11
公开(公告)号: CN113382383A 公开(公告)日: 2021-09-10
发明(设计)人: 孔祥杰;倪琦超;段高辉;侯明良;夏锋 申请(专利权)人: 浙江工业大学
主分类号: H04W4/40 分类号: H04W4/40;H04W24/02;H04W24/06;H04W28/02;H04W28/08;G06F9/445;G06F9/50
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 策略 梯度 公交 车辆 计算 任务 卸载 方法
【权利要求书】:

1.一种基于策略梯度的公交车辆计算任务卸载方法,步骤如下:

(1)构造公交车辆网络的环境状态,包括公交车辆状态、车联网络信道增益的状态和边缘服务器可用的计算能力,其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小;环境状态综合可以表示为:

st=[Di(t),Γk(t),Fk(t)] (1)

其中Di(t)表示公交车辆状态,Γi(t)表示车联网络信道增益,Fi(t)表示边缘服务器可用的计算能力;

(2)构造公交车辆网络中的系统动作;在时间段t内,公交车辆网络采取的动作可以由边缘服务器k为公交车辆分配的计算资源fi,k(t)以及边缘服务器k为公交车辆分配的信道状态组成,具体表示为:

(3)构造公交车辆网络中的奖励函数;公交车辆i在时间t上卸载计算任务的瞬时效率Ri,k(t)由通信速率和瞬时计算率组成,如下式:

整个公交车任务卸载和资源分配的联合优化问题就变为最大化t时刻所有公交车辆的瞬时效率之和;

(4)收集当前公交车辆网络的状态空间,然后将状态空间通过元组的形式发送到“演员网络”,最后“演员网络”依据当下的动作策略Ω选择当下的动作:

at=Ω(t)=μ(st,θμ)+Nt (4)

其中,θμ是“演员-在线”神经网络的参数,Nt是随机噪声,st是当前的状态,μ是神经网络模拟的当前在线策略;

(5)公交车辆网络的状态空间依据上述步骤(4)的动作进行更新,得到新的交车辆网络的状态空间st+1;公交车辆按照上述步骤(4)的动作进行计算卸载,与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源;

(6)根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励Rt,“演员网络”将转换元组(st,at,Rt,St+1)储存于经验重放池中用来训练集更新“演员-在线”深度神经网络;

(7)“演员-目标”深度神经网络根据步骤(5)得到的新状态st+1,利用神经网络模拟目标动作a’t

a’t=μ’(st+1,θμ’)+N’t (5)

其中N’t是随机噪声,θμ’是“演员-目标”神经网络的参数,μ’是“演员-目标”神经网络模拟得到的目标在线策略;

(8)使用Q值来评估步骤(4)中的在线策略μ,来表示公交车辆网络在状态st下采取动作at,并且一直采用当前在线策略μ的情况下所得到的奖励期望值;公式如下:

Qμ(at,st,θμ)=E[r(at,st)+γQμ(st+1,μ(st+1,θQ),θμ)] (6)

其中,θQ为“评价-在线”神经网络的参数,γ为衰减系数,r(at,st)为奖励值计算Rt函数;“评价-在线”神经网络通过在经验重放池中取样带入Qμ(at,st,θμ)训练神经网络来求出Q值;

(9)“评价-目标”神经网络通过计算目标值来对“评价-在线”神经网络进行训练以及参数更新,在这里目标值的计算方法如下:

yt=r(at,st)+γQμ’(st+1,μ’(st+1θμ’),θQ’) (7)

其中,Qμ’使用“评价-目标”神经网络得到在状态st+1下使用策略μ’的Q值,γ为衰减系数,θQ’为“评价-目标”神经网络的参数;

(10)通过最小化均方差损失函数计算出最优的θQ值,其均方差损失函数定义如下:

其中,Qμ指通过“评价-在线”神经网络得到在st状态下采取at动作并且一直使用策略μ时的Q值,N表示从经验重放池中采样的数量;

(11)基于上述步骤(10)中得到最优的θQ参数与从经验重放池中取出的训练数据,使用函数J(μ)来评价策略μ的表现,通过使J(μ)最大化来找最优策略;采用蒙特-卡洛法求解函数J(μ)策略梯度:

其中,N在这里表示训练数据的数量,用来表示函数的梯度;

(12)通过软更新的办法使用“评价-在线”神经网络的参数与“演员-在线”神经网络的参数分别更新“评价-目标”神经网络的参数以及“演员-目标”神经网络的参数:

在这里τ是更新系数;优化目标函数是公交车辆网络系统中奖励函数的累计值,累计值在网络训练时趋于收敛,那么得到优化目标函数的最优解,即作为最优的资源分配方案。

2.如权利要求1所述的一种基于策略梯度的公交车辆计算任务卸载方法,其特征在于:步骤(12)中更新系数τ取值为0.001。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110654075.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top