[发明专利]基于分布式软件定义架构的智能云的业务处理方法有效
申请号: | 201811070006.0 | 申请日: | 2018-09-13 |
公开(公告)号: | CN109120457B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 杨晓庆;余利;郝花雷;贺学剑;苏万荣 | 申请(专利权)人: | 余利 |
主分类号: | H04L41/0803 | 分类号: | H04L41/0803;H04L47/70;H04L67/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430061 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 软件 定义 架构 智能 业务 处理 方法 | ||
1.基于分布式软件定义架构的智能云的业务处理方法,其特征在于,基于软件定义架构的思想原理,由智能业务处理系统将数据层业务和控制层业务虚拟化的分开处理,实现基站智能化的处理用户请求业务和自主学习式的分配处理业务所需要的资源;所述的数据层业务表示数据引擎的业务,所述的控制层业务表示控制引擎的业务,所述的数据层业务和控制层业务虚拟化分开处理的运行步骤如下:
1)在基站端的控制引擎业务:
C1:结合用户状态和发送的业务指令给数据引擎发送优先级的信令;
C2:调用改进的线上线下学习算法;
C3:结合基站当前状态向数据引擎发送资源分配信令;
2)在基站端的数据引擎业务:
D1:执行控制引擎发送的资源分配的信令;
D2:根据式(1)计算改进的Q函数的目标函数值:
其中,θ表示QΩ(s,a)函数的权重,QΩ(s,a)表示改进的低维度的Q函数,所述的改进的低维度的Q函数是当系统处于状态s,采用相应的行为a的期望折扣累计代价或者回报;表示矩阵转置,s表示系统当前的状态,a表示系统执行的动作;
所述的Q函数表示:在强化学习中,智能体学习的目标函数;所述的智能体表示为智能学习组件经过不断的试错学习经验积累,其Q学习的目标是面对若干种资源,不同用户的状态需求,在某个策略π下,将学习环境的状态转换成最优的行为,即在状态-动作空间中做出二进制变量的智能决策;
在式(1)中,θ表示改进的权重由式(2)计算得出:
其中,t表示时刻,ξ是改进的Q函数更新的学习率,ξ∈[0,1),其根据改进的经典贝尔曼方程式(3)可以得到ξ的经验值,ξ=0.99,
表示从长期看,所获得的期望的奖励;R是在下一时刻即t+1时刻的立即回报,s′是下一状态;Pr(s′|s,a)是转移概率;和分别是状态和行为的可行解集;β是折扣因子,表示改进的低维度的Q函数的学习率,其范围是[0,1);改进的低维度的Q函数学习的最优策略通过式(4)获得:
所述(2)式中δ表示时间差分误差即TD error,即下一时刻的函数的近似值与当前值的差,时间差分误差由式(5)进行估计:
所述式(2)中的表示资格迹函数;所述资格迹函数的更新由式(6)计算出:
其中,表示迹-延迟参数,所述的资格迹函数将更新为当前达到的Q值;
D3:给用户返回推送的服务;
所述式(1)中改进的低维度的Q函数QΩ(s,a)通过用户体验质量即QoE分析将搜索空间:状态-行为对的空间降维,实现原理是基于基站端Q函数和用户端Q函数的定义而得出,所述基站端Q函数定义为其中表示用户u在t时刻占用逻辑子信道b的活动状态,其中,所述的用户u,u∈[1,2,...,U],U表示用户总数,所述的信道b,b∈[1,2,...,B],B表示子信道个数;表示在时刻t,当前云端资源c的状态,c∈[1,2,...,C],C表示云端的资源总数;表示二进制变量,其中,Y(t)表示用户当前t时刻是否与基站建立连接;X(t)表示用户的业务是否能够被基站完全处理,如果用户的业务不能被基站完全处理则将用户的部分业务卸载至云端处理;
对于用户设备,其是由有限的电池供电,请求业务和更新计算均消耗能量,因此,用户端Q函数的定义如下:其中,表示在t时刻用户端可用的能量,其中,Emax表示最大的电池能量,eloss(t)表示在t时刻消耗的能量;表示用户端在t时刻业务处理的紧急程度,所述的由用户发送的包的结构字段获知;
通过分别对所述基站端Q函数和所述用户端Q函数的定义,结合用户端的体验质量的需求,所述改进的低维度的Q函数QΩ(s,a)由式(7)得出:
其中,表示“定义上的等于”;
为降低由“状态-动作对”构成的Q表的空间维度,所述式(7)的右端第一项即用户端Q函数的定义表示为:
其中,求和符号表示所有用户发送的请求,若指示函数的条件成立,则其值为1,否则为0;而表示请求的平均代价,若用户u在时刻t时的可用能量大于收发信息的基本能量,ebase是维持通信的基本能量;在基站端用户的Q函数改写为:
其中,
相似地,在基站端所述的式(7)的右端第二项即基站端Q函数的定义表述为:
其中,若子信道被占用,业务由基站单独处理,则∈g,f表示系统的平均代价,第(g,f)个H×T矩阵,即:重写为为简便表示,若用Ω定义参数集,则式(7)的改进的低维度的QΩ(s,a)由式(8)重新定义:
因此,学习函数从原来的经典贝尔曼Q函数Q(s,a)转换为新的函数QΩ(s,a);相应地,所述的学习函数的复杂度从原来的指数空间降低到了多项式空间;
所述改进的低维度的Q函数QΩ(s,a)的更新,由式(9)计算:
其中,ξ是改进的Q函数更新的学习率,ξ∈[0,1),β是折扣因子,表示其学习率,其范围是[0,1);
所述改进的线上线下学习算法是带有用户体验质量分析即QoE分析的线上线下式的学习算法,其以请求式和推送式服务相互促进、及时反馈的良性循环模式进行高效的资源配置,通过推送基站有效的资源为用户提供更好的体验质量即QoE,具体运行步骤如下:
1)线上学习阶段:
V1:初始化参数,
V2:若t<T,其中,T表示一个周期,即最大的时隙数,t∈{1,2,...,T};
若成立,则转V3,若不成立,则转V8;
V3:利用概率ε贪婪选择下一时刻的行为,获得相应的回报和下一时刻的状态信息;
V4:观测学习环境状态和即刻代价或者回报R(t);
V5:将四元组(s,a,R(t),s′)保存到经验回放池;
V6:判断改进的Q函数是否收敛,若没有收敛,则根据式(10)更新改进的Q函数转V7;若收敛,则转到G1;
V7:返回在t+1时刻所述改进的Q函数的函数值
V8:进入下一周期;
2)线下学习阶段:
G1:权重参数赋初值;
G2:基站端计算的累计折扣回报或者代价R;
G3:判断经验池样本是否为空;若为空,转G4;若不为空,根据式(2)、(5)和(6)计算当前时刻误差权重值,并利用最小二乘法迭代更新下一时刻的权重误差函数值;
G4:判断权重误差是否小于收敛阈值,若是,则转G5;若不是,则转G6;
G5:利用梯度下降法更新参数集Ω,并根据式(8)计算改进的低维度的Q函数QΩ(s,a)的函数值;
G6:分别根据式(5)和式(6)更新时间差分误差和资格迹,根据式(11)更新改进的低维度的Q函数,转G7;
所述的式(11)如下:
G7:t++;转V2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于余利,未经余利许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811070006.0/1.html,转载请声明来源钻瓜专利网。