[发明专利]基于平均强化学习和高斯过程回归的云作业接入控制方法在审
申请号: | 201610261723.6 | 申请日: | 2016-04-22 |
公开(公告)号: | CN105959353A | 公开(公告)日: | 2016-09-21 |
发明(设计)人: | 崔得龙;彭志平;李启锐;许波;柯文德 | 申请(专利权)人: | 广东石油化工学院 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 郑永泉;邱奕才 |
地址: | 525000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于平均强化学习和高斯过程回归的云作业接入控制方法,并针对调度过程中存在的连续状态‑动作空间而导致的最优策略生成过慢问题,采用高斯过程回归进行平均回报值和最优策略的逼近,大幅度减少了得到最优策略的学习迭代时间,提高了云资源的利用率。 | ||
搜索关键词: | 基于 平均 强化 学习 过程 回归 作业 接入 控制 方法 | ||
【主权项】:
一种基于平均强化学习和高斯过程回归的云作业接入控制方法,其特征在于,包括:准备阶段:定义状态空间:将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间;定义动作空间:动作空间中包括2个动作,分别为接受当前被调度作业和拒绝当前被调度作业;定义回报函数:将用户愿意支付的费用定义为回报函数;执行阶段:第一步:初始化ρ和Q(s,a),其中ρ表示平均回报,Q(s,a)为二维表格,行s为系统状态,列a为动作空间;第二步:设置更新步长,执行迭代;第三步:将变量i设置为0,将s设置为当前状态;第四步:从动作空间a中选择动作;第五步:执行选择的动作,得到当前状态的立即回报值r和下一个系统状态s’;第六步:按式Q(s,a)←Q(s,a)+α*[r‑ρ+maxa'Q(s',a')‑Q(s,a)]更新Q(s,a),其中,a’代表系统状态s’下的动作空间,α∈(0,1)代表学习速率;第七步:判断是否满足Q(s,a)=maxaQ(s,a),若是则更新平均回报ρ然后转第八步,若否则直接转第八步;第八步:令i=i+1;第九步:若i小于更新步长,令s=s’,转至第二步,若i不小于更新步长,则转至第十步;第十步:将Q(s,a)表格中的数据作为输入,使用高斯过程进行回归操作,得到回归结果;第十一步:使用第十步得到的回归结果修改Q(s,a)表格;第十二步:将第七步得到的平均回报ρ作为输入,使用高斯过程进行回归操作,得到回归结果;第十三步:使用第十二步得到的回归结果修改平均回报ρ;第十四步:转至第二步。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610261723.6/,转载请声明来源钻瓜专利网。
- 上一篇:应用推荐方法和应用推荐装置
- 下一篇:基于云计算的网络服务系统