[发明专利]一种基于多智能体深度强化学习算法的智能博弈系统在审

申请号：	201910474339.8	申请日：	2019-05-31
公开（公告）号：	CN110428057A	公开（公告）日：	2019-11-08
发明（设计）人：	程茹茹;高阳	申请（专利权）人：	南京大学;江苏万维艾斯网络智能产业创新中心有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	南京泰普专利代理事务所(普通合伙) 32360	代理人：	窦贤宇
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	博弈多智能体智能强化学习算法博弈系统对象软件强化学习智能决策构建决策展示
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多智能体深度强化学习算法的智能博弈系统，其特征在于，所述算法建模方法和可视化平台构建技术包括：定义博弈环境中的状态空间、动作空间和奖赏函数；根据博弈环境的定义，设计可配置环境并且可进行人机交互的可视化的博弈平台；根据博弈环境的定义对状态空间和动作空间进行数据预处理，得到基础的算法输入数据；基于深度学习和多智能体技术对通讯单元和干扰单元分别建立可进行大规模博弈的策略模型；根据预处理好的状态、动作数据以及奖赏函数对多智能体深度强化学习算法模型进行训练，得到训练好的博弈策略模型；在可视化博弈平台，加载训练好的博弈策略模型，利用多智能体深度强化学习算法进行智能决策。

2.如权利要求1所述的方法，其特征在于，所述状态空间分层表示，包括本方通信兵的位置信息、对方干扰并的位置、对方干扰兵的干扰区域、本方通讯单元和干扰单元在全局中所处的位置。

3.如权利要求1所述的方法，其特征在于，所述基于深度学习和多智能体技术对通讯单元和干扰单元分别建立可进行大规模博弈的策略模型，包括：通讯模型和干扰模型，其中，通信兵主要的任务是通过选择相应的频段与自己的同伴进行通信，同时躲避对方的干扰兵，避免受到其干扰，而干扰兵的主要目的是去追捕对方的通信兵，在达到可攻击的地理范围之后通过选择相应的频段去干扰对方的通信兵，针对于这两种士兵的不同性质，目的也不同。

4.如权利要求1所述的方法，其特征在于，所述在可视化博弈平台，加载训练好的博弈策略模型，利用多智能体深度强化学习算法进行智能决策，其中，可视化智能决策平台可以表征智能博弈的特点，能够进行博弈、有胜负，并可以展示智能博弈的过程。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学;江苏万维艾斯网络智能产业创新中心有限公司，未经南京大学;江苏万维艾斯网络智能产业创新中心有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910474339.8/1.html，转载请声明来源钻瓜专利网。

上一篇：使用区块链的分散式机器学习的系统和方法
下一篇：联邦学习模型训练方法、装置、终端设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多智能体深度强化学习算法的智能博弈系统在审

专利文献下载