[发明专利]用于模拟复杂的强化学习环境的系统和方法在审
申请号: | 201910354811.4 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110175678A | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | T.W.E.莱;S.S.纳韦卡;C.E.保蒂利尔 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 输出 计算系统 模拟实体 强化学习 实体模型 响应 代理模型 资源分配 简档 分配 实体分配 资源简档 偏好 配置 更新 | ||
公开了一种用于模拟向多个实体分配资源的计算系统。所述计算系统可以被配置为将描述模拟实体的偏好和/或需求的实体简档输入到强化学习代理模型中,并且接收作为强化学习代理模型的输出的分配输出,所述分配输出描述用于所述模拟实体的资源分配。所述计算系统可以基于所述分配输出描述的资源分配来选择一个或多个资源,并提供资源给实体模型,所述实体模型被配置为模拟描述模拟实体的响应的模拟响应输出。所述计算系统可以接收作为实体模型的输出的模拟响应输出,并基于所述模拟响应输出更新描述至少一个资源的资源简档和/或实体简档。
技术领域
本公开一般涉及用于模拟强化学习环境的系统和方法。更具体地,本公开涉及用于模拟系统的系统和方法,其能够测试或以其他方式学习各种不同的强化学习策略或模型。
背景技术
可以使用各种技术在模拟环境中训练强化学习代理(agent)。通常,强化学习代理基于其对模拟环境的动作被给予奖励。代理随着时间学习策略(policy),目的是最大化其收到的奖励。然而,现实环境通常比目前在强化学习系统中使用的模拟环境更复杂。
发明内容
本公开的实施例的方面和优点将部分地在以下描述中阐述,或者可以从描述中学习,或者可以通过实施例的实践来学习。
本公开的一个示例方面涉及一种用于模拟向多个实体分配资源的计算系统。计算系统可以包括一个或多个处理器和强化学习代理模型,其被配置为接收描述模拟实体的偏好或需求中的至少一个的实体简档(profile)。响应于接收实体简档,强化学习代理模型可以输出描述多个实体的对模拟实体的资源分配的分配输出。计算系统可以包括被配置为接收描述至少一个资源的数据的实体模型,并且响应于接收描述该至少一个资源的数据,模拟描述模拟实体对描述至少一个资源的数据的响应的模拟响应输出。计算系统可以包括共同存储指令的一个或多个非暂时性计算机可读介质,当由一个或多个处理器执行时,所述指令使计算系统执行操作。操作可以包括将实体简档输入到强化学习代理模型中;接收作为强化学习代理模型的输出的分配输出,其描述对模拟实体的资源分配;基于由分配输出描述的资源分配,选择要提供给实体模型的至少一个资源;向实体模型提供至少一个资源;接收作为实体模型的输出的模拟响应输出,其描述模拟实体对至少一个资源的响应;以及基于模拟响应输出更新描述至少一个资源或实体简档的资源简档中的至少一个。
本公开的另一示例方面涉及一种用于模拟向多个实体分配资源的方法。该方法可以包括由一个或多个计算设备向强化学习代理模型输入实体简档,所述实体简档描述模拟实体的偏好或需求中的至少一个。强化学习代理模型可以被配置为接收实体简档,并且响应于所接收的实体简档,输出描述对模拟实体的资源分配的分配输出。该方法可以包括由一个或多个计算设备接收作为强化学习代理模型的输出的分配输出,其描述对模拟实体的资源分配;基于由分配输出所描述的资源分配,由一个或多个计算设备选择至少一个资源以模拟向实体模型提供被配置为接收描述至少一个资源的数据的实体模型,并且响应于接收描述至少一个资源的数据,模拟描述模拟实体对描述至少一个资源的数据的响应的模拟响应输出;由一个或多个计算设备向实体模型提供描述至少一个资源的数据;由一个或多个计算设备接收作为实体模型的输出的模拟响应输出,其描述模拟实体对至少一个资源的响应;以及由所述一个或多个计算设备基于模拟响应输出更新描述至少一个资源的资源简档或实体简档中的至少一个。
本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。
参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。结合在本说明书中并构成本说明书的一部分的附图示出本公开的示例实施例,并与说明书一起用于说明相关原理。
附图说明
在参考了附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,其中:
图1A描绘了根据本公开的示例实施例的用于使用强化学习代理模型来模拟对多个实体的资源分配的示例计算系统的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910354811.4/2.html,转载请声明来源钻瓜专利网。