[发明专利]基于平均强化学习和高斯过程回归的云作业接入控制方法在审

申请号：	201610261723.6	申请日：	2016-04-22
公开（公告）号：	CN105959353A	公开（公告）日：	2016-09-21
发明（设计）人：	崔得龙;彭志平;李启锐;许波;柯文德	申请（专利权）人：	广东石油化工学院
主分类号：	H04L29/08	分类号：	H04L29/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	郑永泉;邱奕才
地址：	525000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于平均强化学习和高斯过程回归的云作业接入控制方法，并针对调度过程中存在的连续状态‑动作空间而导致的最优策略生成过慢问题，采用高斯过程回归进行平均回报值和最优策略的逼近，大幅度减少了得到最优策略的学习迭代时间，提高了云资源的利用率。
搜索关键词：	基于平均强化学习过程回归作业接入控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于平均强化学习和高斯过程回归的云作业接入控制方法，其特征在于，包括：准备阶段：定义状态空间：将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间；定义动作空间：动作空间中包括2个动作，分别为接受当前被调度作业和拒绝当前被调度作业；定义回报函数：将用户愿意支付的费用定义为回报函数；执行阶段：第一步：初始化ρ和Q(s,a)，其中ρ表示平均回报，Q(s,a)为二维表格，行s为系统状态，列a为动作空间；第二步：设置更新步长，执行迭代；第三步：将变量i设置为0，将s设置为当前状态；第四步：从动作空间a中选择动作；第五步：执行选择的动作，得到当前状态的立即回报值r和下一个系统状态s’；第六步：按式Q(s,a)←Q(s,a)+α*[r‑ρ+max_a'Q(s',a')‑Q(s,a)]更新Q(s,a),其中，a’代表系统状态s’下的动作空间，α∈(0,1)代表学习速率；第七步：判断是否满足Q(s,a)＝max_aQ(s,a)，若是则更新平均回报ρ然后转第八步，若否则直接转第八步；第八步：令i＝i+1；第九步：若i小于更新步长，令s＝s’，转至第二步，若i不小于更新步长，则转至第十步；第十步：将Q(s,a)表格中的数据作为输入，使用高斯过程进行回归操作，得到回归结果；第十一步：使用第十步得到的回归结果修改Q(s,a)表格；第十二步：将第七步得到的平均回报ρ作为输入，使用高斯过程进行回归操作，得到回归结果；第十三步：使用第十二步得到的回归结果修改平均回报ρ；第十四步：转至第二步。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东石油化工学院，未经广东石油化工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610261723.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于平均强化学习和高斯过程回归的云作业接入控制方法在审

专利文献下载