[发明专利]一种感知行动回路决策的内在奖励生成方法在审

专利信息
申请号: 202211292921.0 申请日: 2022-10-21
公开(公告)号: CN115587615A 公开(公告)日: 2023-01-10
发明(设计)人: 孙国瀚;林恺;王博艺;高建;纪良运 申请(专利权)人: 大连理工大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;A63F13/46
代理公司: 辽宁鸿文知识产权代理有限公司 21102 代理人: 许明章;王海波
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 感知 行动 回路 决策 内在 奖励 生成 方法
【说明书】:

发明属于计算机应用技术领域,具体涉及一种感知行动回路决策的内在奖励生成方法。本发明中,首先,搭建状态预测网络,并收集智能体训练过程中的环境状态与智能体动作数据对环境状态变化进行预测建模。其次,在强化学习训练过程中利用已训练的状态预测网络模型预测环境状态变化并生成预测差内在奖励。最后,将生成的预测差内在奖励与外部奖励结合,形成新的奖励以供策略更新网络使用。本发明构建SGBRT网络对环境状态进行预测并生成内在奖励,且利用内在奖励以加快策略更新网络的训练过程并提高训练效果。

技术领域

本发明属于计算机应用技术领域,具体涉及一种感知行动回路决策的内在奖励生成方法。

背景技术

在人类进行如驾驶、格斗等过程性任务时,通常会形成感知行动的回路,即感知任务环境、决策要做的行动、做出行动、任务环境变化、重新感知,直到任务完成或任务失败。随着近些年人工智能的快速发展,利用人工智能来代替人类智能完成真实环境中的过程性任务也日渐成为社会的诉求,为了完成这一目标,需要使人工智能完成两部分任务,环境状态感知以及行为决策。针对行为决策,人工智能需要利用感知到的环境状态来决策具体行动,并将行动输出到环境中以完成感知行动回路中的一环,如此循环直至过程性任务完成。利用强化学习方法便可解决感知行动回路中利用感知到的状态进行行为决策这一部分的任务。

强化学习是机器学习的重要分支,有着两个重要的组成部分:环境和智能体,以及三种智能体训练过程中的主要数据:状态、行动和奖励。其中智能体为强化学习的训练主体,也是决策的主体,环境为所要完成的任务中涉及的智能体外部信息的集合。智能体从环境中获取可用的信息作为状态,根据状态以及智能体的策略做出行动,并根据当前状态和智能体做出的行动利用为环境设计的奖励函数来获得奖励,也可称为外部奖励。强化学习的训练过程便是不断更新智能体的策略以最大化外部奖励的过程。

然而,面向感知行为决策的强化学习有一个需要解决的重要问题,那便是奖励函数的设置。强化学习的训练目标是为智能体寻找能够有效完成任务的策略,而策略更新完全依靠由奖励函数为智能体生成的奖励。因此,奖励函数的设置需要和任务贴合,才能高效地训练得到良好的策略。而感知行为决策的强化学习多使用真实环境,对于真实环境,感知到的状态一般比较复杂,也难以判断这些复杂状态下的哪些行为对完成整体任务有利,因此设计密集的奖励函数非常困难,若仅对智能体明显对任务有利的行为进行奖励又会造成奖励的稀疏进而让训练难以进行。对类似问题,Pathak等人设计了带有逆环境模型的预测差内在奖励机制,加速智能体对环境的探索;Bellemare等人设计了虚拟计数的方式来衡量状态的新颖性;Florsensa等人通过添加辅助任务的方式,逐步增大任务难度来加速训练。然而,由于一些环境的状态特征较为复杂,上述方法难以对环境的状态变化做出有效的预测,进而拖慢智能体对环境的探索。同时,真实环境的状态可能有着固有的随机性而无法被预测时,在这种状况下使用内在奖励也可能导致智能体进行无用探索,在一系列纯随机状态下转圈圈。

发明内容

为了克服现有技术的不足,针对需要进行感知的形势复杂多变、难以预测的真实环境,本发明设计一种感知行动回路决策的内在奖励生成方法,以辅助感知行动回路中行为决策部分任务的完成。首先,搭建状态预测网络,并收集智能体训练过程中的环境状态特征与智能体动作数据对环境状态变化进行预测建模。其次,在行为决策强化学习训练过程中利用已训练的状态预测网络模型预测环境状态变化并生成预测差内在奖励。最后,将生成的预测差内在奖励与外部奖励结合,形成新的奖励以供行为决策的策略更新网络使用。本发明构建SGBRT网络对环境状态进行预测并生成内在奖励,且利用内在奖励以加快策略更新网络的训练过程并提高训练效果。

本发明大致分为两部分:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211292921.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top