[发明专利]基于环境模型的对手建模方法、装置、设备及存储介质有效
申请号: | 202110818583.9 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113599832B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 卢宗青;于晓彭 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N5/04;A63F13/213 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 付婧 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 环境 模型 对手 建模 方法 装置 设备 存储 介质 | ||
本发明公开了一种基于环境模型的对手建模方法、装置、设备及存储介质,方法包括:智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;重复执行上述步骤,直到得到调整后的多层想象对手策略;更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型。根据本实施例提供的基于环境模型的对手建模方法,可以解决多智能体对抗中对手建模的滞后性问题,以达到对于同样有思考能力的对手进行有效建模的目的。
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于环境模型的对手建模方法、装置、设备及存储介质。
背景技术
在多智能体环境中,例如网络游戏环境,一个智能体通常必须与不同的其他智能体(统称为对手)竞争或合作。在交互过程中,对手策略也在同时影响着智能体所经历的转移动态,与不同的对手相互作用使得智能体的外在环境处于非平稳状态。由于对手策略的复杂性和多样性,智能体想要在对抗中保持整体优势是非常具有挑战的。
明确地对对手的行为、目标或信念建模,而不是将它们作为环境的一部分,可以帮助智能体调整其策略以适应不同的对手。然而,对手也可能有同样的推理能力。此时,需要更高层次的推理和一些其他的对手建模技术来处理这些复杂的对手。当对手同时进行学习,对手建模过程将变得不稳定,利用历史经验拟合的对手策略模型也会产生滞后。
因此,如何解决多智能体对抗中对手建模的滞后性问题是本领域技术人员亟待解决的技术问题。
发明内容
本公开实施例提供了一种基于环境模型的对手建模方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本公开实施例提供了一种基于环境模型的对手建模方法,包括:
智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;
在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据对手最佳动作调整第一层想象对手策略,得到调整后的第一层想象对手策略;
重复执行上述步骤,直到得到调整后的多层想象对手策略;
更新想象对手策略权重,根据想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将对手混合策略作为对手模型。
在一个实施例中,智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略之前,还包括:
智能体使用近端策略优化算法与不同的对手进行交互,得到经验数据;
根据经验数据以及最小化均方误差训练环境模型,得到训练好的环境模型;
智能体与环境进行交互,得到对手的动作以及决策过程的状态。
在一个实施例中,根据如下公式计算第一层想象对手策略:
其中,s表示决策过程的状态,ao表示对手的动作,D表示经验数据库,φ0表示第一层想象对手策略。
在一个实施例中,根据如下公式计算对手最佳动作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110818583.9/2.html,转载请声明来源钻瓜专利网。