[发明专利]优势估计方法、装置、电子设备和存储介质有效

申请号：	202110540754.6	申请日：	2021-05-18
公开（公告）号：	CN113240118B	公开（公告）日：	2023-05-09
发明（设计）人：	李小双;王晓;黄梓铭;王飞跃	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06N5/00	分类号：	G06N5/00;G06N3/0464;G06N3/0442;G06N3/084
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	张雅娜
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	优势估计方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种优势估计方法、装置、电子设备和存储介质，其中方法包括：获取当前环境状态；将当前环境状态输入至优势估计模型中，得到优势估计模型基于当前环境状态进行优势估计得到的优势动作；其中，优势估计模型是基于示教数据集，以及行为克隆模型训练得到的；示教数据集包括样本环境状态及其对应的样本动作，行为克隆模型是基于示教数据集训练得到的。本发明基于示教数据集和行为克隆模型训练优势估计模型，通过自适应的行为克隆模型，充分利用示教数据，自动挖掘历史示教数据中的专家经验，避免不完善的示教数据可能带来的不利影响，增强优势估计模型的优势估计性能，提高复杂场景下的优势估计准确性。

技术领域

本发明涉及强化学习技术领域，尤其涉及一种优势估计方法、装置、电子设备和存储介质。

背景技术

深度强化学习(Deep Reinforcement Learning，DRL)近年来取得了很大的进步，被广泛应用在电子游戏与棋牌类游戏等决策场景中。借助深度学习强大的特征提取和函数拟合能力，强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识，然后根据提取出的特征信息利用传统的强化学习算法学习决策控制策略，而无需人工提取或基于规则以及启发式地学习特征。

但目前，对于在真实环境中解决复杂决策控制问题(例如自动驾驶)的应用方面，深度强化学习技术仍然无法得到实际使用。由于复杂系统的多样性与不确定性，现有的仿真模拟环境很难与真实世界保持一致，而提高模拟系统的精度则成本高昂。因此，如何适应复杂的现实场景将成为DRL模型应用于复杂决策任务最迫切的问题之一。

针对复杂场景下的决策问题，人类专家在学习效率和决策表现方面具有很大的优势，因此在DRL模型中纳入专家知识是一种潜在的解决方案。从示教中进行Q学习的DQfD(Deep Q-learning from Demonstrations，学习演示的深度Q学习)方法可以通过学习示教数据，引导智能体学习得到示教数据所代表的策略，以指导和帮助智能体学习专家知识，并在此基础上进行自主学习，提高模型的决策能力。

然而，DQfD模型存在以下问题：(1)在DQfD学习过程中，历史示教数据集中的轨迹数据只在预训练中得到了使用，针对模型自主生成的轨迹数据，示教数据没有提供有效的指导；(2)示教数据集十分有限，无法覆盖足够的状态动作空间；而且，在某些实际应用中难以收集到足够的示教数据，比如极端情况在真实情况下较少发生，大量的样本都是正常情况下的数据；(3)DQfD算法忽略了现实应用中普遍存在的历史示教数据的不完善性，这种不完善会对模型性能提升在成负面的影响。另外，基于DQN(Deep Q-learning Network，深度Q学习网络)的方法虽然能够取得较好的效果，但存在Q值过估计的问题。

发明内容

本发明提供一种优势估计方法、装置、电子设备和存储介质，用以解决现有技术中复杂场景下自动决策的效果欠佳的缺陷。

本发明提供一种优势估计方法，包括：

获取当前环境状态；

将所述当前环境状态输入至优势估计模型中，得到所述优势估计模型基于所述当前环境状态进行优势估计得到的优势向量，并将所述优势向量中的最大值对应的动作确定为优势动作；

其中，所述优势估计模型是基于示教数据集，以及行为克隆模型训练得到的；

所述示教数据集包括样本环境状态及其对应的样本动作，所述行为克隆模型是基于所述示教数据集训练得到的。

根据本发明提供一种的优势估计方法，所述优势估计模型是基于如下步骤训练的：

基于所述示教数据集，训练得到行为克隆网络；

基于所述示教数据集，预训练优势估计模型；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载