[发明专利]一种基于策略梯度的公交车辆计算任务卸载方法在审

申请号：	202110654075.1	申请日：	2021-06-11
公开（公告）号：	CN113382383A	公开（公告）日：	2021-09-10
发明（设计）人：	孔祥杰;倪琦超;段高辉;侯明良;夏锋	申请（专利权）人：	浙江工业大学
主分类号：	H04W4/40	分类号：	H04W4/40;H04W24/02;H04W24/06;H04W28/02;H04W28/08;G06F9/445;G06F9/50
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于策略梯度公交车辆计算任务卸载方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于策略梯度的公交车辆计算任务卸载方法，步骤如下：

(1)构造公交车辆网络的环境状态，包括公交车辆状态、车联网络信道增益的状态和边缘服务器可用的计算能力，其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小；环境状态综合可以表示为：

s_t＝[D_i(t)，Γ_k(t)，F_k(t)] (1)

其中D_i(t)表示公交车辆状态，Γ_i(t)表示车联网络信道增益，F_i(t)表示边缘服务器可用的计算能力；

(2)构造公交车辆网络中的系统动作；在时间段t内，公交车辆网络采取的动作可以由边缘服务器k为公交车辆分配的计算资源f_i，k(t)以及边缘服务器k为公交车辆分配的信道状态组成，具体表示为：

(3)构造公交车辆网络中的奖励函数；公交车辆i在时间t上卸载计算任务的瞬时效率R_i，k(t)由通信速率和瞬时计算率组成，如下式：

整个公交车任务卸载和资源分配的联合优化问题就变为最大化t时刻所有公交车辆的瞬时效率之和；

(4)收集当前公交车辆网络的状态空间，然后将状态空间通过元组的形式发送到“演员网络”，最后“演员网络”依据当下的动作策略Ω选择当下的动作：

a_t＝Ω(t)＝μ(s_t，θ^μ)+N_t (4)

其中，θ^μ是“演员-在线”神经网络的参数，N_t是随机噪声，s_t是当前的状态，μ是神经网络模拟的当前在线策略；

(5)公交车辆网络的状态空间依据上述步骤(4)的动作进行更新，得到新的交车辆网络的状态空间s_t+1；公交车辆按照上述步骤(4)的动作进行计算卸载，与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源；

(6)根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励R_t，“演员网络”将转换元组(s_t，a_t，R_t，S_t+1)储存于经验重放池中用来训练集更新“演员-在线”深度神经网络；

(7)“演员-目标”深度神经网络根据步骤(5)得到的新状态s_t+1，利用神经网络模拟目标动作a’_t：

a’_t＝μ’(s_t+1，θ^μ’)+N’_t (5)

其中N’_t是随机噪声，θ^μ’是“演员-目标”神经网络的参数，μ’是“演员-目标”神经网络模拟得到的目标在线策略；

(8)使用Q值来评估步骤(4)中的在线策略μ，来表示公交车辆网络在状态s_t下采取动作a_t，并且一直采用当前在线策略μ的情况下所得到的奖励期望值；公式如下：

Q^μ(a_t，s_t，θ^μ)＝E[r(a_t，s_t)+γQ^μ(s_t+1，μ(s_t+1，θ^Q)，θ^μ)] (6)

其中，θ^Q为“评价-在线”神经网络的参数，γ为衰减系数，r(a_t，s_t)为奖励值计算R_t函数；“评价-在线”神经网络通过在经验重放池中取样带入Q^μ(a_t，s_t，θ^μ)训练神经网络来求出Q值；

(9)“评价-目标”神经网络通过计算目标值来对“评价-在线”神经网络进行训练以及参数更新，在这里目标值的计算方法如下：

y_t＝r(a_t，s_t)+γQ^μ’(s_t+1，μ’(s_t+1θ^μ’)，θ^Q’) (7)

其中，Q^μ’使用“评价-目标”神经网络得到在状态s_t+1下使用策略μ’的Q值，γ为衰减系数，θ^Q’为“评价-目标”神经网络的参数；

(10)通过最小化均方差损失函数计算出最优的θ^Q值，其均方差损失函数定义如下：

其中，Q^μ指通过“评价-在线”神经网络得到在s_t状态下采取a_t动作并且一直使用策略μ时的Q值，N表示从经验重放池中采样的数量；

(11)基于上述步骤(10)中得到最优的θ^Q参数与从经验重放池中取出的训练数据，使用函数J(μ)来评价策略μ的表现，通过使J(μ)最大化来找最优策略；采用蒙特-卡洛法求解函数J(μ)策略梯度：

其中，N在这里表示训练数据的数量，用来表示函数的梯度；

(12)通过软更新的办法使用“评价-在线”神经网络的参数与“演员-在线”神经网络的参数分别更新“评价-目标”神经网络的参数以及“演员-目标”神经网络的参数：

在这里τ是更新系数；优化目标函数是公交车辆网络系统中奖励函数的累计值，累计值在网络训练时趋于收敛，那么得到优化目标函数的最优解，即作为最优的资源分配方案。

2.如权利要求1所述的一种基于策略梯度的公交车辆计算任务卸载方法，其特征在于：步骤(12)中更新系数τ取值为0.001。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110654075.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载