[发明专利]结合高斯过程与强化学习的服务组合方法有效
申请号: | 201710055817.2 | 申请日: | 2017-01-25 |
公开(公告)号: | CN106850289B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 王红兵;李佳杰 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 过程 强化 学习 服务 组合 方法 | ||
1.一种结合高斯过程与强化学习的服务组合方法,其特征在于,包括如下步骤:
(1)将服务组合问题建模为如下四元组马尔可夫决策过程:
M=S,A,P,R
其中S是环境中有限状态的集合;A是可调用的动作的集合,A(s)表示在状态s下可进行的动作的集合;P是描述MDP状态转移的函数,P(s′|s,a)表示在状态s下调用动作a后转移到状态s′的概率;R是回报值函数,R(s,a)表示在状态s下调用动作a所得的回报值;
(2)应用基于Q-learning的强化学习方法求解四元组马尔可夫决策过程,得到最优策略;
(3)将最优策略映射为web服务组合的工作流;
所述步骤(2)应用基于Q-learning的强化学习方法求解四元组马尔可夫决策过程,得到最优策略,包括如下步骤:
(21)将状态动作对z=s,a作为输入,对应的Q值Q(z)作为输出,建立Q值高斯预测模型;
(22)初始化Q-learning中学习率σ,折扣率γ,贪心策略概率ε,当前状态st=0,当前时间步长t=0;
(23)用概率为ε的贪心策略选择当前服务at并执行;
(24)记录在当前状态st下执行当前服务at的回报值rt和执行当前服务at后的状态st+1;根据下式计算在状态动作对zt=st,at下的Q值:
其中Q(zt)为在状态动作对zt=st,at下的Q值,σ为学习率,rt为回报值,γ为折扣率,st+1为执行服务at后从当前状态st转移到的后继状态,at+1为在状态st+1下选择的服务,Q(st+1,at+1)表示在状态动作对st+1,at+1下的Q值;
(25)按照高斯预测模型更新Q值:
其中I为单位矩阵,ωn为不确定性参数,Z为历史状态动作对的集合,为与Z对应的历史Q值的集合,K(Z,Z)为历史状态动作对之间的协方差矩阵,其第i行j列元素为k(zi,zj),k(·)为核函数;K(Z,zt+1)为历史状态动作对与新输入的状态动作对zt+1之间的协方差矩阵;
根据状态动作对zt+1=st+1,at+1以及对应的Q值Q(zt+1)更新高斯预测模型;
(26)更新当前状态:st=st+1,当st为终止状态且满足收敛条件时,强化学习结束,得到最优策略;否则转步骤(23)。
2.根据权利要求1所述的结合高斯过程与强化学习的服务组合方法,其特征在于,高斯预测模型中的核函数k(·)为高斯核函数:
其中σk为高斯核函数的宽度。
3.根据权利要求1所述的结合高斯过程与强化学习的服务组合方法,其特征在于,步骤(26)中所述的收敛条件为:Q值的变化小于Q值门限Qth,即:|Q(zt)-Q(zt+1)|Qth。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710055817.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种终端控制方法、终端及系统
- 下一篇:汉琴