[发明专利]一种深度强化学习驱动的网内缓存优化方法有效

专利信息
申请号: 202110798424.7 申请日: 2021-07-15
公开(公告)号: CN113676513B 公开(公告)日: 2022-07-01
发明(设计)人: 易波;屈志豪;陈佳豪;张婷婷;张卿祎 申请(专利权)人: 东北大学
主分类号: H04L67/568 分类号: H04L67/568;H04L67/60;G06N3/08;G06N3/04;G06K9/62
代理公司: 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 代理人: 孙奇
地址: 110169 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 深度 强化 学习 驱动 缓存 优化 方法
【权利要求书】:

1.一种深度强化学习驱动的网内缓存优化方法,其特征在于,首先通过智能地感知网络环境来对网络请求模式进行主动学习;然后计算出不同的最优缓存策略并分发给相应的路由节点执行;再由本地节点根据得到的策略做出缓存决策;结合主动式缓存和反应式缓存的优势,实现提高缓存命中率的最终目标;

每个路由节点为每个缓存的内容维护一个按流行程度排序的索引;某个特定内容的流行程度由自适应热窗口决定;此外,AHW还用于监测连续的时间序列请求;基于DRL的网络智能体部署在一个集中式的控制器中,用来聚合全网路由节点的时间序列数据提供给DRL算法,以此解决单个路由节点数据量不足的问题;然后,智能体输出一组动作,这些动作是AHW估计内容流行度的参数,再将得到的奖励作为反馈传递给网络智能体,以训练和改进驻留在智能体系统中的深度神经网络模型;

在每个路由节点中,某个特定内容被缓存后,会为其创建一个AHW,以监测请求的时间序列数并估计该内容的流行程度;AHW的目标是克服广泛使用的反应式缓存替换策略,包括最近最少使用、最近最频繁使用LFU及其变体方法的缺点;

DRL算法采用基本的策略梯度算法,考虑随机策略,即,根据动作集上的概率分布来选择某个状态下的动作;采用确定性策略梯度算法DPG来逼近预测的最优值;DPG是一种演员-评论家AC模型,将值函数与策略的显式表示相结合的确定性策略;AC维护一个参数化的Actor函数μθ来表示当前策略,并维护一个使用Bellman方程更新的评论家的深度神经网络V(s,a);将AHW参数优化问题表述为以下DRL学习问题:AC作为DRL模型,涉及到演员和评论家网络的训练;

状态空间state space:状态由两部分组成:每个路由节点上每个内容对象在一段时间内的时序请求和每个路由节点的标识符;形式上,定义为状态向量;

其中,K为网络内路由节点的总数,ICNk(1≤k≤K)代表第k个路由节点的标识符,这是智能体识别地域差异的关键;1≤i≤I,I是ICN节点可以缓存的内容数量的最大值;某个内容i从[t1,tM]时间段内在第k个路由节点中记录的时间序列访问数据表示为其中,tM表示当前时刻;全网节点的连续的时间序列访问数据作为一维的卷积层(1D-CONV)的输入;xi(tm)(1≤m≤M)表示某个节点的内容i在[tm-1,tm]时间段内的访问量;

动作空间action space:当在t时刻收到网络中路由器的缓存状态st时,系统智能体通过深度神经网络计算出相应动作at,即,节点的AHW参数;形式上,

奖励reward:奖励是当智能体在状态st时做出动作at时网络给予的反馈;由于智能体系统的最终目标是提升缓存命中率,所以我们将网络内节点的平均缓存命中率作为奖励函数,Hits表示命中率,即:

其中,K为网络内路由节点的总数,ICNk(1≤k≤K)代表第k个路由节点的标识符。

2.根据权利要求1所述的一种深度强化学习驱动的网内缓存优化方法,其特征在于,AHW有两个参数,即α和β分别控制窗口的高度和长度;AHW选择的数据用于估计内容流行度;事实上间歇性和低频率偶发性的请求会大大降低LRU的效率,并可能导致缓存污染,而α正是一个过滤这种“噪声”即间歇性和低频率偶发性,并识别突发的请求的参数值;LFU根据累计请求数量的多少决定缓存,但是无法处理一个经过数量很大的初始访问后长时间未被请求的内容对象;因此,LFU对请求模式的变化反应缓慢;

为此,AHW通过调整β参数来确定可以使用哪段时间的时间序列数据;当β的值增加时,AHW的长度会向右缩短,这表明最近当前的请求数量更能准确地估计该内容的流行程度;可以通过解决一个优化问题来计算α和β的值。

3.根据权利要求1所述的一种深度强化学习驱动的网内缓存优化方法,其特征在于,利用LRU和LFU的改进方法能够减轻缓存污染,但缺乏预测性;设计出通过DRL算法学习流量请求的模式,以此来持续优化α和β的值,并据此自动地调整AHW;基于DRL的缓存方法将发现并预测潜在的请求,如果一个内容对象被智能体预测即将进入冷阶段,即将不流行,其AHW的β值将迅速增加,即向右移动,窗口将急剧收缩;这表明估计的流行度将急剧下降;如果内容对象的请求频率较低且计数较少,则其AHW的α值将过滤这些请求;因此,内容对象将被替换,而不会被缓存;在接收到AHW的参数后,路由节点通过重新估计每个缓存内容的流行度并按降序排列来更新其索引;排名最低的内容对象将替换为新到达的内容;某个特定内容的流行度计算定义如下:

其中,NUMt表示在时间间隔[t-1,t]内的请求数量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110798424.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top