[发明专利]基于深度强化学习的自动协商智能体设计方法在审
申请号: | 202111318748.2 | 申请日: | 2021-11-09 |
公开(公告)号: | CN114139680A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 林杰;陈锶奇;郝建业;郑岩;马亿 | 申请(专利权)人: | 天津大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06Q10/10 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 自动 协商 智能 设计 方法 | ||
本发明公开了一种基于深度强化学习的自动协商多智能体设计方法,首先,每个智能体使用强化学习算法独立地学习一个策略;其次,使用长短期记忆网络(LSTM,LongShort‑Term Memory)来学习SARSA(λ)中的Q函数,将难以处理的状态空间减少到可管理的特征数;最后,结合强化学习算法SARSA(λ)和神经网络LSTM来构建智能体代理,每个智能体代理各自学习,将学习到的对环境状态的观察结果映射到要采取的行动的策略上,通过在环境中与其他代理交互更新自己的策略,最终学习到一个适当的行为策略来进行自动协商。与现有技术相比,本发明构建的智能体代理能够在自动协商中进行更优的获胜联盟选择,从而提高自身在协商中获得的收益。
技术领域
本发明涉及多智能体强化学习领域,特别是涉及一种多智能体强化学习方法。
背景技术
同一环境中的多个人工智能体相互影响,并通过协调它们的行动获得利益。许多任务对于单个智能体来说是非常棘手的,这时就需要一个协作团队。如,搜索和救援、多机器人巡逻、供应链管理等。在许多情况下,利益相关者可以选择与之合作的合作伙伴。
在有限的议价和环境中,夏普利值与核心和竞争均衡或纳什均衡之间存在多种联系。当特定类别的竞争性市场被建模为多人博弈以及交易者的集合均匀扩展时,夏普利值收敛到竞争均衡状态。虽然这些适用于各种市场领域,但它们并不能涵盖任意的谈判设置。同时,谈判等社会任务的成功需要多方面的智慧。之前的研究主要研究了合作博弈中交际的出现,如参照博弈、Lewis信号博弈的变体,其中信息被用来消除不同的可能指称之间的歧义。古典博弈论中有关谈判的工作通常使用简单形式的报价/还价讨价还价博弈,而这些博弈并没有明确解决沟通的问题。
深度多智能体强化学习(MARL)通过在学习的同时与其他代理(agent)反复互动,利用主体逐渐实现包括运动技能和语言交流在内复杂行为的引导。但是,在MARL的现有技术中所考虑的环境仅涉及两个代理,没有考虑团队的形成问题。从而避免了联盟选择的问题。“如何在博弈中通过交流信息组成对自己有利的联盟,从而在博弈中比其他方法构建的智能体代理获得更高的收益”是本发明亟待解决的技术问题。
发明内容
本发明旨在提出一种基于深度强化学习的自动协商智能体设计方法,实现了使用深度强化学习算法构建用于协商的智能体代理。
本发明采用以下的技术方案来实现:
一种基于深度强化学习的自动协商智能体设计方法,该方法包括以下步骤:
步骤1、每个智能体代理使用深度强化学习算法SARSA(λ)独立地学习一个策略;
步骤2、采用神经网络LSTM得到智能体代理在时间步长t的动作状态值:
步骤3、使用强化学习算法Sarsa(λ)和神经网络LSTM结合,来构建用于自动协商的智能体代理;每个智能体代理以获得更高的奖励值为唯一目标进行训练,各自学习将对环境状态的观察结果映射到要采取的行动的策略;每个智能体代理使用强化学习算法,通过在环境中与其他代理交互更新自己的策略,最终学习到一个适当的行为策略。
与现有技术相比,本发明与现有的智能体代理算法相比,具有以下优势:
1)相比于以往用于自动协商的需要手工设定规则的智能体代理,使用本深度强化学习算法构建的智能体代理具有良好的泛化型,能够应对不同的协商规则而无需手工调整应用此方法构建的智能体代理的设置;
2)使用本深度强化学习算法构建的智能体代理能够在自动协商中进行更优的获胜联盟选择,从而提高自身在协商中获得的收益。
附图说明
图1为本发明的一种基于深度强化学习的自动协商多智能体设计方法整体流程图
图2为基于深度强化学习算法结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111318748.2/2.html,转载请声明来源钻瓜专利网。