[发明专利]一种基于深度强化学习算法的移动sink路径规划方法有效

申请号：	201910316246.2	申请日：	2019-04-19
公开（公告）号：	CN109936865B	公开（公告）日：	2021-01-15
发明（设计）人：	司鹏搏;刘雯琪;张正;徐广书;郝国超;于航;张延华	申请（专利权）人：	北京工业大学
主分类号：	H04W40/04	分类号：	H04W40/04;H04W40/32;H04W84/18;H04L12/24
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习算法移动 sink 路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习算法的移动sink路径规划方法，其特征在于，包含以下步骤：

步骤1：将无线传感器网络区域近似为一个正方形区域，并做栅格化处理，形成N*N个大小相等的正方形栅格；

步骤2：无线传感器节点随机散布在网络区域内，每个栅格内随机分布有预设数量的传感器节点，并且假设每个栅格内传感器节点携带的数据类型相同；

步骤3：在每个栅格内选举出一个汇聚节点，sink收集所在栅格内汇聚节点的数据；

步骤4：根据每个栅格内数据的时延要求及网络能效对栅格内数据进行优先级划分；

步骤5：将栅格化的网络模型映射为一个RGB图像，不同的颜色代表不同的优先级；

步骤6：将RGB图像作为状态输入到深度卷积神经网络中，以训练深度卷积神经网络；

步骤6.1：构建一个多层卷积神经网络，其中包括输入层、4层卷积层、改进的全连接层和输出层，其中，将传统的全连接层分为两部分，分别计算出状态价值及动作优势，并将两者相加作为输出Q值；

步骤6.2：移动sink在当前状态s下，从可行动作值列表中随机选取一个动作值并执行该动作，得到完成动作后的奖励值r以及网络的下一状态s′，获得样本值(s,a,r,s′)；持续采集样本，并存储在经验回放存储器中，形成样本集D，a为动作值；

步骤6.3：构建两个网络：深度卷积神经网络和目标深度卷积神经网络，并初始化权重，在样本集D中随机采样样本(s,a,r,s′)，将状态s以RGB图像的形式输入到深度卷积神经网络中，并计算出所有可行动作的Q值，并将对应的s′输入到目标深度卷积神经网络中计算出对应的最大Q值；

步骤6.4：不断迭代，更新深度卷积神经网络和目标深度卷积神经网络的参数，达到收敛后，得到训练好的网络参数；

步骤7：将网络状态映射为RGB图像后输入到训练好的深度卷积神经网络中，得到sink的最优路径。

2.如权利要求1所述的基于深度强化学习算法的移动sink路径规划方法，其特征在于，在步骤1中，规划的无线传感器网络的区域大小为100*100m，划分为10*10个单元格。

3.如权利要求1所述的基于深度强化学习算法的移动sink路径规划方法，其特征在于，在步骤6中，通过深度卷积神经网络对不同颜色特征进行学习和识别；深度强化学习算法更新公式为Q(s,a)＝r+γ(max(Q(s′,a′))),其中，s表示当前状态，a表示当前采取的动作值，r表示采取动作a之后获得的奖励值，s′表示在当前状态s下采取动作值a后得到得下一状态值，a′为当前状态的下一动作值；γ为折扣因子。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910316246.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种跨站切换中构建头压缩上下文的方法和装置
下一篇：一种基于服务质量保障的无线mesh网络机会路由方法

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W40-00 通信路由或通信路径查找
H04W40-02 .通信路由或路径选择，例如，基于功率的或最短路径路由
H04W40-24 .连接性信息管理，例如，连接性发现或连接性更新
H04W40-34 .现有路由的更改
H04W40-36 ..由于切换
H04W40-38 ..由于改变节点之间相对距离的适应

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习算法的移动sink路径规划方法有效

专利文献下载