[发明专利]基于环境模型的对手建模方法、装置、设备及存储介质有效
申请号: | 202110818583.9 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113599832B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 卢宗青;于晓彭 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N5/04;A63F13/213 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 付婧 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 环境 模型 对手 建模 方法 装置 设备 存储 介质 | ||
1.一种基于环境模型的对手建模方法,其特征在于,包括:
智能体使用近端策略优化算法与不同的对手进行交互,得到经验数据;根据所述经验数据以及最小化均方误差训练所述环境模型,得到训练好的环境模型;智能体与环境进行交互,得到对手的动作以及决策过程的状态;
智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;
在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;包括:根据所述对手最佳动作以及决策过程的状态构造模拟数据;将所述模拟数据代入第一层想象对手策略公式,得到调整后的第一层想象对手策略;
重复执行上述步骤,直到得到调整后的多层想象对手策略;
更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型;
其中,根据如下公式计算第一层想象对手策略:
其中,表示决策过程的状态,表示对手的动作,表示经验数据库,表示第一层想象对手策略;
根据如下公式计算所述对手最佳动作:
其中,表示t时刻对手最佳动作,表示t时刻对手动作,表示t+1时刻到t+k时刻中对手动作序列服从均匀分布,表示贴现因子,表示对手的环境奖励,t表示时刻,表示对手的价值函数,表示决策过程的状态。
2.根据权利要求1所述的方法,其特征在于,更新所述想象对手策略权重,包括:
根据归一化概率分布算法以及贝叶斯公式计算所述想象对手策略权重。
3.根据权利要求1所述的方法,其特征在于,根据如下公式计算对手混合策略:
其中,表示对手混合策略,表示决策过程的状态,表示递归想象层数,i表示第i层递归想象,0≤i≤M-1,表示第i层想象对手策略的权重,表示第i层想象对手策略。
4.一种基于环境模型的对手建模装置,其特征在于,包括:
训练模块,用于智能体使用近端策略优化算法与不同的对手进行交互,得到经验数据;根据所述经验数据以及最小化均方误差训练所述环境模型,得到训练好的环境模型;智能体与环境进行交互,得到对手的动作以及决策过程的状态;
计算模块,用于智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;
调整模块,用于在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;包括:根据所述对手最佳动作以及决策过程的状态构造模拟数据;将所述模拟数据代入第一层想象对手策略公式,得到调整后的第一层想象对手策略;
重复执行模块,用于重复执行上述步骤,直到得到调整后的多层想象对手策略;
混合模块,用于更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型;
其中,根据如下公式计算第一层想象对手策略:
其中,表示决策过程的状态,表示对手的动作,表示经验数据库,表示第一层想象对手策略;
根据如下公式计算所述对手最佳动作:
其中,表示t时刻对手最佳动作,表示t时刻对手动作,表示t+1时刻到t+k时刻中对手动作序列服从均匀分布,表示贴现因子,表示对手的环境奖励,t表示时刻,表示对手的价值函数,表示决策过程的状态。
5.一种基于环境模型的对手建模设备,其特征在于,包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至3任一项所述的基于环境模型的对手建模方法。
6.一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至3任一项所述的一种基于环境模型的对手建模方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110818583.9/1.html,转载请声明来源钻瓜专利网。