[发明专利]智能体训练方法及装置、存储介质及电子设备有效

专利信息
申请号: 202010901910.2 申请日: 2020-09-01
公开(公告)号: CN112036578B 公开(公告)日: 2023-06-27
发明(设计)人: 李焱;覃小春;李佶学 申请(专利权)人: 成都数字天空科技有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06N3/08;G06F8/30
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 蒋姗
地址: 610041 四川省成都市高新区中国*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 智能 训练 方法 装置 存储 介质 电子设备
【说明书】:

本申请涉及人工智能技术领域,提供一种智能体训练方法及装置、存储介质及电子设备。其中,智能体训练方法包括:接收第一算法侧发起的第一动作执行请求;向第一环境侧发送作为第一环境侧之前发起的第一动作获取请求的返回结果的第一动作,以使第一环境侧执行第一动作;接收第一环境侧发起的第二动作获取请求;向第一算法侧发送作为第一动作执行请求的返回结果的第二状态,以使第一算法侧根据第二状态更新智能体,并获取更新后的智能体选择出的第二动作,第二动作为第一算法侧之后要发起的第二动作执行请求中携带的动作。该方法使得算法设计人员和环境开发人员都可以按照自己习惯的逻辑进行程序开发,因此显著提高了算法和环境开发的效率。

技术领域

发明涉及人工智能技术领域,具体而言,涉及一种智能体训练方法及装置、存储介质及电子设备。

背景技术

强化学习是一种通过智能体与环境互动,不断搜集数据反馈,最终产生智能行为的一种机器学习方式,相比监督学习,强化学习不需要人工标注数据,可以使用在很多场景中。

以游戏环境为例,强化学习的过程主要涉及两端:算法和游戏,分别由算法设计人员和游戏开发人员负责开发。算法设计人员希望的逻辑是“算法驱动游戏”,即算法根据需要控制游戏何时执行动作;游戏开发人员希望的逻辑是“游戏驱动算法”,即游戏根据需要控制何时向算法请求要执行的动作;其中,游戏执行的动作由算法中的智能体根据游戏的当前状态等因素自动选择,强化学习所要训练的目标也就是该智能体。

然而,“算法驱动游戏”和“游戏驱动算法”两种逻辑存在一定矛盾,前者要求游戏开发适配于算法,因此游戏开发人员需付出较大的工作量,后者要求算法开发适配于游戏,因此算法设计人员需付出较大的工作量。因此,无论采用哪种逻辑都会导致开发效率不高。

发明内容

本申请实施例的目的在于提供一种智能体训练方法、模型训练方法及对应装置,以改善上述技术问题。

为实现上述目的,本申请提供如下技术方案:

第一方面,本申请实施例提供一种智能体训练方法,应用于中间平台,所述方法包括:接收第一算法侧发起的第一动作执行请求;其中,所述第一动作执行请求中携带有第一动作,所述第一动作为智能体根据第一状态选择出的动作,所述第一状态为第一环境侧在执行所述第一动作的上一动作后处于的状态;向所述第一环境侧发送作为所述第一环境侧之前发起的第一动作获取请求的返回结果的所述第一动作,以使所述第一环境侧执行所述第一动作;接收所述第一环境侧发起的第二动作获取请求;其中,所述第二动作获取请求中携带有第二状态,所述第二状态为所述第一环境侧在执行所述第一动作后处于的状态;向所述第一算法侧发送作为所述第一动作执行请求的返回结果的所述第二状态,以使所述第一算法侧根据所述第二状态更新所述智能体,并获取更新后的智能体选择出的第二动作;其中,所述第二动作为所述第一算法侧之后要发起的第二动作执行请求中携带的动作。

上述方法在算法侧和环境侧(包括但不限于游戏)之间设置一个中间平台,使得算侧和环境侧之间的交互都通过该中间平台实现。该中间平台对于环境侧和算法侧而言都是透明的,在算法侧看来,自己根据需要控制环境侧何时执行动作(通过发送针对环境侧的动作执行请求),即实现了“算法驱动环境”的逻辑;在环境侧看来,自己根据需要控制何时从算法请求要执行的动作(通过发送针对算法侧的动作获取请求),即实现了“环境驱动算法”的逻辑。从而,无论是算法设计人员还是环境开发人员,都可以按照自己习惯的逻辑进行程序开发,因此显著提高了算法开发和环境开发的效率,使得强化学习任务(即训练智能体)可以在较短时间内完成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数字天空科技有限公司,未经成都数字天空科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010901910.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top