[发明专利]基于多智能体强化学习的大规模服务组合优化方法在审
申请号: | 201310161238.8 | 申请日: | 2013-05-03 |
公开(公告)号: | CN103248693A | 公开(公告)日: | 2013-08-14 |
发明(设计)人: | 王红兵;王晓珺 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 杨晓玲 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多智能体强化学习的自适应组合服务优化方法,将强化学习与智能体概念相结合,定义强化学习的状态集为服务的前置后置条件,动作集为Web服务本身。初始化强化学习中Q学习的参数,包括学习率、折扣因子和Q值。每个智能体执行一个组合优化任务。智能体可以感知当前状态,并根据动作选择策略选择当前状态下的最优动作。根据Q学习算法计算与更新Q值。一轮学习过程结束则进入下一轮学习,直至Q值收敛,获得最优策略。本发明根据当时环境变化在线制定出相应的自适应行为策略,具有较高的灵活性与自适应性,具有较高的实用价值。 | ||
搜索关键词: | 基于 智能 强化 学习 大规模 服务 组合 优化 方法 | ||
【主权项】:
一种基于多智能体强化学习的大规模服务组合优化方法,其特征在于,该方法包括以下步骤:1)把Web服务组合的环境建模成一个6元组的Web服务组合马尔可夫决策过程状态转移图,即WSC‑MDP=,其中S为一系列原子动作从某个特定的初始状态s0开始执行的可达到的状态集合,s0表示初始状态,表示动作还没有发生时的状态,也即工作流的初值,st用户的目标状态,也即工作流的终态,A(s)表示Web服务组合智能体在某一状态s∈S是可执行的Web服务集合,P:[piaj]:为系统在某一状态时,调用该状态下的可用的Web服务,系统进入下一状态的概率,R:[riaj]为某个状态下调用服务的综合评价回报值;2)初始化强化学习中Q学习算法的学习速率、折扣因子、Q值和公共Q值Qp;3)把进行Web服务组合优化的软件实体作为能够感知环境并能够自主运行满足设计目标的Web服务组合智能体,所述Web服务组合智能体感知环境中的状态s;4)Web服务组合智能体根据动作选择策略选择并执行动作A(s),得到新的状态s′,同时从新的状态s′中得到回报值r;5)对Q学习中的Q值进行计算和更新,并将更新后为的Q值作为Web服务组合监督智能体的公共Q值,结束本次强化学习过程,所述Web服务组合监督智能体为指导与同步每个Web服务组合智能体学习过程的软件实体;6)判断Q值是否收敛,如是,则把本次强化学习的结果作为最优Web服务执行工作流,否则令k=k+1后回到步骤3),k为返回步骤3)的迭代次数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310161238.8/,转载请声明来源钻瓜专利网。