[发明专利]面向不完全信息博弈的集成策略学习方法、装置和设备在审
申请号: | 202210539137.9 | 申请日: | 2022-05-18 |
公开(公告)号: | CN114881194A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 陈少飞;袁唯淋;胡振震;陆丽娜;李鹏;陈佳星;苏炯铭;刘鸿福 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08;G06Q10/06 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 李杨 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请涉及一种面向不完全信息博弈的集成策略学习方法、装置和设备。所述方法包括:通过集成策略学习模型中的梯度更新网络从训练数据中的动作状态数据提取对抗轨迹特征信息,基于注意力机制集成整合基础决策模型输出的基础策略信息,进一步集成得到预测策略信息,在完成梯度更新网络的训练后,得到训练数据中每个智能体的第二集成策略信息,通过集成策略学习模型中的神经演化模块基于策略评估值通过交叉和变异进行进化,其中由于训练数据是小批量数据,本方法通过评估并去除对抗得分值中的运气因素值,在有限轨迹数据的基础上实现了策略的准确评估。通过策略评估值选取表现优异的智能体,得到表现最优的集成策略信息。 | ||
搜索关键词: | 面向 不完全 信息 博弈 集成 策略 学习方法 装置 设备 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202210539137.9/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置