[发明专利]基于分布式软件定义架构的智能云的业务处理方法有效

申请号：	201811070006.0	申请日：	2018-09-13
公开（公告）号：	CN109120457B	公开（公告）日：	2022-01-28
发明（设计）人：	杨晓庆;余利;郝花雷;贺学剑;苏万荣	申请（专利权）人：	余利
主分类号：	H04L41/0803	分类号：	H04L41/0803;H04L47/70;H04L67/10
代理公司：	暂无信息	代理人：	暂无信息
地址：	430061 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于分布式软件定义架构智能业务处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于分布式软件定义架构的智能云的业务处理方法，其特征在于，基于软件定义架构的思想原理，由智能业务处理系统将数据层业务和控制层业务虚拟化的分开处理，实现基站智能化的处理用户请求业务和自主学习式的分配处理业务所需要的资源；所述的数据层业务表示数据引擎的业务，所述的控制层业务表示控制引擎的业务，所述的数据层业务和控制层业务虚拟化分开处理的运行步骤如下：

1)在基站端的控制引擎业务：

C1：结合用户状态和发送的业务指令给数据引擎发送优先级的信令；

C2：调用改进的线上线下学习算法；

C3：结合基站当前状态向数据引擎发送资源分配信令；

2)在基站端的数据引擎业务：

D1：执行控制引擎发送的资源分配的信令；

D2：根据式(1)计算改进的Q函数的目标函数值：

其中，θ表示Q_Ω(s，a)函数的权重，Q_Ω(s，a)表示改进的低维度的Q函数，所述的改进的低维度的Q函数是当系统处于状态s，采用相应的行为a的期望折扣累计代价或者回报；表示矩阵转置，s表示系统当前的状态，a表示系统执行的动作；

所述的Q函数表示：在强化学习中，智能体学习的目标函数；所述的智能体表示为智能学习组件经过不断的试错学习经验积累，其Q学习的目标是面对若干种资源，不同用户的状态需求，在某个策略π下，将学习环境的状态转换成最优的行为，即在状态-动作空间中做出二进制变量的智能决策；

在式(1)中，θ表示改进的权重由式(2)计算得出：

其中，t表示时刻，ξ是改进的Q函数更新的学习率，ξ∈[0，1)，其根据改进的经典贝尔曼方程式(3)可以得到ξ的经验值，ξ＝0.99，

表示从长期看，所获得的期望的奖励；R是在下一时刻即t+1时刻的立即回报，s′是下一状态；Pr(s′|s，a)是转移概率；和分别是状态和行为的可行解集；β是折扣因子，表示改进的低维度的Q函数的学习率，其范围是[0，1)；改进的低维度的Q函数学习的最优策略通过式(4)获得：

所述(2)式中δ表示时间差分误差即TD error，即下一时刻的函数的近似值与当前值的差，时间差分误差由式(5)进行估计：

所述式(2)中的表示资格迹函数；所述资格迹函数的更新由式(6)计算出：

其中，表示迹-延迟参数，所述的资格迹函数将更新为当前达到的Q值；

D3：给用户返回推送的服务；

所述式(1)中改进的低维度的Q函数Q_Ω(s，a)通过用户体验质量即QoE分析将搜索空间：状态-行为对的空间降维，实现原理是基于基站端Q函数和用户端Q函数的定义而得出，所述基站端Q函数定义为其中表示用户u在t时刻占用逻辑子信道b的活动状态，其中，所述的用户u，u∈[1，2，...，U]，U表示用户总数，所述的信道b，b∈[1，2，...，B]，B表示子信道个数；表示在时刻t，当前云端资源c的状态，c∈[1，2，...，C]，C表示云端的资源总数；表示二进制变量，其中，Y(t)表示用户当前t时刻是否与基站建立连接；X(t)表示用户的业务是否能够被基站完全处理，如果用户的业务不能被基站完全处理则将用户的部分业务卸载至云端处理；

对于用户设备，其是由有限的电池供电，请求业务和更新计算均消耗能量，因此，用户端Q函数的定义如下：其中，表示在t时刻用户端可用的能量，其中，E^max表示最大的电池能量，e_loss(t)表示在t时刻消耗的能量；表示用户端在t时刻业务处理的紧急程度，所述的由用户发送的包的结构字段获知；

通过分别对所述基站端Q函数和所述用户端Q函数的定义，结合用户端的体验质量的需求，所述改进的低维度的Q函数Q_Ω(s，a)由式(7)得出：

其中，表示“定义上的等于”；

为降低由“状态-动作对”构成的Q表的空间维度，所述式(7)的右端第一项即用户端Q函数的定义表示为：

其中，求和符号表示所有用户发送的请求，若指示函数的条件成立，则其值为1，否则为0；而表示请求的平均代价，若用户u在时刻t时的可用能量大于收发信息的基本能量，e_base是维持通信的基本能量；在基站端用户的Q函数改写为：

其中，

相似地，在基站端所述的式(7)的右端第二项即基站端Q函数的定义表述为：

其中，若子信道被占用，业务由基站单独处理，则∈_g，f表示系统的平均代价，第(g，f)个H×T矩阵，即：重写为为简便表示，若用Ω定义参数集，则式(7)的改进的低维度的Q_Ω(s，a)由式(8)重新定义：

因此，学习函数从原来的经典贝尔曼Q函数Q(s，a)转换为新的函数Q_Ω(s，a)；相应地，所述的学习函数的复杂度从原来的指数空间降低到了多项式空间；

所述改进的低维度的Q函数Q_Ω(s，a)的更新，由式(9)计算：

其中，ξ是改进的Q函数更新的学习率，ξ∈[0，1)，β是折扣因子，表示其学习率，其范围是[0，1)；

所述改进的线上线下学习算法是带有用户体验质量分析即QoE分析的线上线下式的学习算法，其以请求式和推送式服务相互促进、及时反馈的良性循环模式进行高效的资源配置，通过推送基站有效的资源为用户提供更好的体验质量即QoE，具体运行步骤如下：