[发明专利]使用目标特定动作值函数的多目标强化学习在审
申请号: | 202180013425.4 | 申请日: | 2021-02-08 |
公开(公告)号: | CN115066695A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 阿巴斯·阿卜杜勒马利基;桑迪·涵·黄 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 目标 特定 动作 函数 多目标 强化 学习 | ||
提供了一种用于通过强化学习来训练神经网络系统的方法,该神经网络系统被配置为接收表征由智能体交互的环境的状态的输入观测并且根据旨在满足多个目标的策略来选择和输出动作。该方法包括获得一个或多个轨迹的集合。每个轨迹包括环境的状态、响应于状态根据先前策略由智能体应用于环境的动作、以及用于该动作的奖励集合,每个奖励与多个目标中的对应目标相关。该方法还包括基于一个或多个轨迹的所述集合来确定用于多个目标中的每个目标的动作值函数。每个动作值函数确定表示根据对应目标的估计回报的动作值,该估计回报将由智能体根据先前策略响应于给定状态执行给定动作而产生。该方法还包括基于用于多个目标的动作值函数的组合来确定更新的策略。
背景技术
本说明书涉及强化学习。
在强化学习系统中,智能体通过执行动作与环境进行交互的,所述动作是强化学习系统响应于接收到表征环境的当前状态的观测而选择的。
一些强化学习系统响应于接收到给定的观测根据神经网络的输出来选择智能体将要执行的动作。
神经网络是机器学习模型,所述机器学习模型对于接收的输入使用非线性单元的一个或多个层来预测输出。一些神经网络是除输出层以外还包括一个或多个隐藏层的深度神经网络。在网络中,每个隐藏层的输出被用作下一个层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入产生输出。
发明内容
本说明书一般描述用于训练强化学习系统的方法,该系统选择要由与环境交互的强化学习智能体执行的动作。这些方法可以用于训练具有多个潜在冲突目标的强化学习系统。
在一个方面,提供了一种用于通过强化学习来训练神经网络系统的方法,该神经网络系统被配置为接收表征由智能体交互的环境的状态的输入观测并且根据旨在满足多个目标的策略来选择和输出动作。该方法包括获得一个或多个轨迹的集合。每个轨迹包括环境的状态、响应于该状态根据先前策略由智能体应用于环境的动作、以及用于该动作的奖励集合,每个奖励与所述多个目标中的对应目标相关。该方法还包括基于一个或多个轨迹的所述集合来确定所述多个目标中的每个目标的动作值函数。每个动作值函数确定表示根据对应目标的估计回报的动作值,该估计回报将由智能体根据先前策略响应于给定状态执行给定动作而产生。该方法还包括基于所述多个目标的动作值函数的组合来确定更新的策略。
通过确定每个目标的单独动作值函数,本文描述的方法能够在强化学习期间有效地平衡竞争目标。当组合单独目标的动作值时,动作值函数克服了与确定最佳权重相关联的问题。此外,单独动作值函数提供关于每个目标的奖励的大小的尺度不变性,从而避免一个或多个目标通过其奖励的相对大小对学习占优。
一个或多个轨迹的所述集合可以从存储获得(即,可以预先计算),或者可以通过将智能体应用于一个或多个状态来获得。一个或多个轨迹的所述集合可以包括多个轨迹,从而允许批量学习。或者,作为在线学习的一部分,可以每个更新提供一个轨迹。
应当注意,虽然本文讨论术语“奖励”,但是这些奖励可能是负的。在奖励为负的情况下,这些奖励可以被等同地视为成本。在这种情况下,强化学习任务的总体目标将是最小化预期成本(而不是最大化预期奖励或回报)。
在一些实施方式中,每个动作值函数针对先前策略跨潜在状态-动作对的范围提供多个目标中的对应目标的动作值的分布。每个动作值函数可以在响应于给定状态选取给定动作时输出表示对应目标的预期累积折扣奖励的动作值。此累计折扣奖励可以在根据先前策略实现的多个后续行动上计算。每个目标的动作值函数可以被认为是目标特定动作值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180013425.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:生物标记物及其在治疗慢性乙型肝炎感染中的用途
- 下一篇:充气轮胎