[发明专利]虚拟环境下的多智能体博弈训练方法及系统在审
申请号: | 202210011912.3 | 申请日: | 2022-01-06 |
公开(公告)号: | CN114444716A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 董琦;赵小虎;陈雨;江涵立;吴镇宇 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;A63F13/67;G06F8/30;G06T17/05 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 华枫 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 环境 智能 博弈 训练 方法 系统 | ||
本发明提出了一种虚拟环境下的多智能体博弈训练方法及系统,该方法包括:S100:构建地形模型、环境模型、地面建筑模型和待训练目标模型,并导入虚拟环境。S200:设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则。S300:在虚拟环境中对待训练目标进行多智能体博弈的训练。根据本发明提供的训练方法,通过构建地形模型、环境模型、地面建筑模型和待训练目标模型,并设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则,搭建了高逼真度的多智能体博弈环境,为多智能体博弈训练提供了场景支持,引入不同的学习算法、能够灵活变更初始想定,具有较高的泛用性和实用性。
技术领域
本发明涉及多智能体博弈技术领域,尤其涉及一种虚拟环境下的多智能体博弈训练方法及系统。
背景技术
近年来,深度强化学习的深入研究使得多智能体博弈训练算法得到了快速的发展,在其他领域也获得了广泛的应用。在真实度较高的虚拟环境中,博弈对抗的双方面临着许多问题,如双方都是复杂的拥有连续动作空间的多智能体系统,某一方可能拥有雷达/防空等对方无法得知的手段,天气、光照不断变化等,大大增加了学习的难度。
目前市场上的多智能体博弈训练环境大多是基于实时战略(RTS)游戏和自行构想的场景,也有一些基于GIS的仿真平台接入了深度强化学习算法进行智能推演和仿真。
发明内容
本发明要解决的技术问题是如何提高多智能体博弈训练的真实度,以及如何进行智能体集群的具体行为和控制,并提高训练多智能体的协同、博弈对抗能力,提供一种虚拟环境下的多智能体博弈训练方法及系统。
本发明提供一种虚拟环境下的多智能体博弈训练方法,包括:
构建地形模型、环境模型、地面建筑模型和待训练目标模型,并导入虚拟环境;
设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则;
在虚拟环境中对待训练目标进行多智能体博弈的训练。
根据本发明提供的虚拟环境下的多智能体博弈训练方法,通过构建地形模型、环境模型、地面建筑模型和待训练目标模型,并设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则,搭建了高逼真度的多智能体博弈环境,为多智能体博弈训练提供了场景支持,进而引入不同的学习算法、能够灵活变更初始想定的特点,具有较高的泛用性和实用性。
根据本发明的一些实施例,设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则具体为:
使用编程语言或蓝图脚本系统,对所述待训练目标的参数进行设置,对所述待训练目标的不同状态下的动作逻辑进行设置。
在本发明的一些实施例中,所述方法还包括:
通过待训练目标的接口将无人设备的控制函数映射为Python语言,在Python端建立智能体模型。
根据本发明的一些实施例,在虚拟环境中对待训练目标进行多智能体博弈的训练包括:
将待训练目标在虚拟环境中获取的数据,经过智能算法处理、学习后,智能算法输出控制信息,调用所述控制函数控制待训练目标的决策,并将决策映射到虚拟环境中。
在本发明的一些实施例中,智能算法的种类包括避障算法、航迹规划算法、深度强化学习算法。
根据本发明的一些实施例,所述地面建筑模型和待训练目标的交互规则包括:建筑物物理毁伤,建筑物类型、建筑物ID及建筑物坐标信息。
在本发明的一些实施例中,构建地形模型、环境模型、地面建筑模型和待训练目标模型包括:
通过3D扫描或仿真建模对地面建筑模型和待训练目标模型进行构建;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210011912.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型不锈钢模板结构
- 下一篇:一种基于学习的超先验边信息补偿图像压缩方法