[发明专利]一种基于多智能体深度强化学习算法的智能博弈系统在审
申请号: | 201910474339.8 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110428057A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 程茹茹;高阳 | 申请(专利权)人: | 南京大学;江苏万维艾斯网络智能产业创新中心有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 窦贤宇 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 博弈 多智能体 智能 强化学习算法 博弈系统 对象软件 强化学习 智能决策 构建 决策 展示 | ||
1.一种基于多智能体深度强化学习算法的智能博弈系统,其特征在于,所述算法建模方法和可视化平台构建技术包括:定义博弈环境中的状态空间、动作空间和奖赏函数;根据博弈环境的定义,设计可配置环境并且可进行人机交互的可视化的博弈平台;根据博弈环境的定义对状态空间和动作空间进行数据预处理,得到基础的算法输入数据;基于深度学习和多智能体技术对通讯单元和干扰单元分别建立可进行大规模博弈的策略模型;根据预处理好的状态、动作数据以及奖赏函数对多智能体深度强化学习算法模型进行训练,得到训练好的博弈策略模型;在可视化博弈平台,加载训练好的博弈策略模型,利用多智能体深度强化学习算法进行智能决策。
2.如权利要求1所述的方法,其特征在于,所述状态空间分层表示,包括本方通信兵的位置信息、对方干扰并的位置、对方干扰兵的干扰区域、本方通讯单元和干扰单元在全局中所处的位置。
3.如权利要求1所述的方法,其特征在于,所述基于深度学习和多智能体技术对通讯单元和干扰单元分别建立可进行大规模博弈的策略模型,包括:通讯模型和干扰模型,其中,通信兵主要的任务是通过选择相应的频段与自己的同伴进行通信,同时躲避对方的干扰兵,避免受到其干扰,而干扰兵的主要目的是去追捕对方的通信兵,在达到可攻击的地理范围之后通过选择相应的频段去干扰对方的通信兵,针对于这两种士兵的不同性质,目的也不同。
4.如权利要求1所述的方法,其特征在于,所述在可视化博弈平台,加载训练好的博弈策略模型,利用多智能体深度强化学习算法进行智能决策,其中,可视化智能决策平台可以表征智能博弈的特点,能够进行博弈、有胜负,并可以展示智能博弈的过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;江苏万维艾斯网络智能产业创新中心有限公司,未经南京大学;江苏万维艾斯网络智能产业创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910474339.8/1.html,转载请声明来源钻瓜专利网。