[发明专利]结合高斯过程与强化学习的服务组合方法有效

专利信息
申请号: 201710055817.2 申请日: 2017-01-25
公开(公告)号: CN106850289B 公开(公告)日: 2020-04-24
发明(设计)人: 王红兵;李佳杰 申请(专利权)人: 东南大学
主分类号: H04L12/24 分类号: H04L12/24;H04L29/08
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结合 过程 强化 学习 服务 组合 方法
【权利要求书】:

1.一种结合高斯过程与强化学习的服务组合方法,其特征在于,包括如下步骤:

(1)将服务组合问题建模为如下四元组马尔可夫决策过程:

M=S,A,P,R

其中S是环境中有限状态的集合;A是可调用的动作的集合,A(s)表示在状态s下可进行的动作的集合;P是描述MDP状态转移的函数,P(s′|s,a)表示在状态s下调用动作a后转移到状态s′的概率;R是回报值函数,R(s,a)表示在状态s下调用动作a所得的回报值;

(2)应用基于Q-learning的强化学习方法求解四元组马尔可夫决策过程,得到最优策略;

(3)将最优策略映射为web服务组合的工作流;

所述步骤(2)应用基于Q-learning的强化学习方法求解四元组马尔可夫决策过程,得到最优策略,包括如下步骤:

(21)将状态动作对z=s,a作为输入,对应的Q值Q(z)作为输出,建立Q值高斯预测模型;

(22)初始化Q-learning中学习率σ,折扣率γ,贪心策略概率ε,当前状态st=0,当前时间步长t=0;

(23)用概率为ε的贪心策略选择当前服务at并执行;

(24)记录在当前状态st下执行当前服务at的回报值rt和执行当前服务at后的状态st+1;根据下式计算在状态动作对zt=st,at下的Q值:

其中Q(zt)为在状态动作对zt=st,at下的Q值,σ为学习率,rt为回报值,γ为折扣率,st+1为执行服务at后从当前状态st转移到的后继状态,at+1为在状态st+1下选择的服务,Q(st+1,at+1)表示在状态动作对st+1,at+1下的Q值;

(25)按照高斯预测模型更新Q值:

其中I为单位矩阵,ωn为不确定性参数,Z为历史状态动作对的集合,为与Z对应的历史Q值的集合,K(Z,Z)为历史状态动作对之间的协方差矩阵,其第i行j列元素为k(zi,zj),k(·)为核函数;K(Z,zt+1)为历史状态动作对与新输入的状态动作对zt+1之间的协方差矩阵;

根据状态动作对zt+1=st+1,at+1以及对应的Q值Q(zt+1)更新高斯预测模型;

(26)更新当前状态:st=st+1,当st为终止状态且满足收敛条件时,强化学习结束,得到最优策略;否则转步骤(23)。

2.根据权利要求1所述的结合高斯过程与强化学习的服务组合方法,其特征在于,高斯预测模型中的核函数k(·)为高斯核函数:

其中σk为高斯核函数的宽度。

3.根据权利要求1所述的结合高斯过程与强化学习的服务组合方法,其特征在于,步骤(26)中所述的收敛条件为:Q值的变化小于Q值门限Qth,即:|Q(zt)-Q(zt+1)|Qth

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710055817.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top