[发明专利]用于模拟复杂的强化学习环境的系统和方法在审
申请号: | 201910354811.4 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110175678A | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | T.W.E.莱;S.S.纳韦卡;C.E.保蒂利尔 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 公开了一种用于模拟向多个实体分配资源的计算系统。所述计算系统可以被配置为将描述模拟实体的偏好和/或需求的实体简档输入到强化学习代理模型中,并且接收作为强化学习代理模型的输出的分配输出,所述分配输出描述用于所述模拟实体的资源分配。所述计算系统可以基于所述分配输出描述的资源分配来选择一个或多个资源,并提供资源给实体模型,所述实体模型被配置为模拟描述模拟实体的响应的模拟响应输出。所述计算系统可以接收作为实体模型的输出的模拟响应输出,并基于所述模拟响应输出更新描述至少一个资源的资源简档和/或实体简档。 | ||
搜索关键词: | 输出 计算系统 模拟实体 强化学习 实体模型 响应 代理模型 资源分配 简档 分配 实体分配 资源简档 偏好 配置 更新 | ||
【主权项】:
1.一种用于模拟向多个实体分配资源的计算系统,所述计算系统包括:一个或多个处理器;强化学习代理模型,被配置为接收描述模拟实体的偏好或要求中的至少一个的实体简档,并且响应于接收到所述实体简档,输出描述对所述多个实体的所述模拟实体的资源分配的分配输出;实体模型,被配置为接收描述至少一个资源的数据,并且响应于接收描述所述至少一个资源的数据,模拟描述所述模拟实体对描述所述至少一个资源的数据的响应的模拟响应输出;一个或多个共同存储指令的非暂时性计算机可读介质,当由一个或多个处理器运行时,所述指令使所述计算系统执行操作,所述操作包括:将所述实体简档输入到所述强化学习代理模型;接收作为所述强化学习代理模型的输出的分配输出,所述分配输出描述了对所述模拟实体的资源分配;基于由所述分配输出描述的资源分配,选择要提供给所述实体模型的所述至少一个资源;向所述实体模型提供所述至少一个资源;接收作为所述实体模型的输出的模拟响应输出,所述模拟响应输出描述所述模拟实体对所述至少一个资源的响应;以及基于所述模拟响应输出,更新描述所述至少一个资源的资源简档或实体简档中的至少一个。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910354811.4/,转载请声明来源钻瓜专利网。