[发明专利]一种智能体群体交互的决策控制方法、装置及系统在审
| 申请号: | 202111676244.8 | 申请日: | 2021-12-31 |
| 公开(公告)号: | CN114298244A | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 余超;刘岳鑫 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/02 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 许羽冬 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 智能 群体 交互 决策 控制 方法 装置 系统 | ||
本发明公开了一种智能体群体交互的决策控制方法、装置及系统。该决策控制装置包括初始交互单元、模型训练单元以及决策控制单元。该决策控制系统还包括决策控制模块以及数据存储模块。通过构建包括顶层学习模型和底层学习模型的初始决策控制模型,并对该初始决策控制模型进行顶层和底层融合训练,从而获得最终决策控制模型进而进行决策控制,该决策控制方法、装置及系统提升了智能体群体交互时的决策控制的有效性。
技术领域
本发明智能体群体交互的决策控制领域,涉及一种智能体群体交互的决策控制方法、装置及系统。
背景技术
在大规模群体交互场景下,例如大型多人在线角色游戏、股权交易市场、广告在线拍卖、城市交通车流以及军事智能集群,海量个体并发式作用于同一环境并实时调整自身策略,动态性和规模性对多智能体强化学习算法提出新的挑战。
在现有技术中,通常通过基于中央式训练分布式执行(CTDE)学习模式的MADDPG算法、基于值分解思想的VDN算法或基于均值场理论的学习方法对群体交互进行决策控制;其中,基于中央式训练分布式执行(CTDE)学习模式的MADDPG算法在训练阶段利用中央控制的Critic网络来获取所有个体的状态、行为以及目标策略,在执行阶段每个智能体Actor根据局部信息进行决策;基于值分解思想的VDN算法,每个智能体通过最大化局部的收益函数实现全局的收益函数最大化,从而实现多个智能体的协同(这两者都是通过刻画个体之间的交互实现智能体之间的协同);基于均值场理论的学习方法能从群体层面对状态信息和动作信息进行宏观表示,从而更好地解决群体决策中的维度灾难,复杂交互问题。
但是,现有技术仍然存在如下缺陷:无法同时兼顾个体之间的协同、个体和邻域智能体的协同以及群体和群体的协同,从而使得群体交互时的决策控制的效果不佳。
因此,当前需要一种智能体群体交互的决策控制方法、装置及系统,从而克服现有技术中存在的上述缺陷。
发明内容
针对现存的上述技术问题,本发明的目的在于提供一种智能体群体交互的决策控制方法、装置及系统,从而提升智能体群体交互时的决策控制的有效性。
本发明提供了一种智能体群体交互的决策控制方法,所述决策控制方法包括:获取预设的初始决策控制模型,使智能体群体根据所述初始决策控制模型进行群体交互,从而获取初始决策控制数据组;所述初始决策控制模型包括顶层学习模型以及底层学习模型;利用所述初始决策控制数据组,训练所述顶层学习模型和所述底层学习模型,从而获得最终决策控制模型;根据所述最终决策控制模型,对所述智能体的群体交互进行决策控制。
在一个实施例中,获取预设的初始决策控制模型,使智能体群体根据所述初始决策控制模型进行群体交互,从而获取初始决策控制数据组,具体包括:获取预设的初始决策控制模型以及对手的预设的对手模型,对预设的群体交互平台进行初始化,并获取智能体的第一状态以及对手的第二状态;所述初始决策控制模型包括局部神经网络;将所述第一状态输入所述局部神经网络以获得第一行为以及第一奖励,将所述第二状态输入所述对手模型以获得第二行为以及第二奖励,并将所述第一状态、所述第二状态、所述第一行为、所述第二行为、所述第一奖励以及所述第二奖励存储入初始决策控制数据组中;将所述第一行为和所述第二行为输入所述群体交互平台中,从而对应获得所述智能体的第三状态和所述对手的第四状态;将所述第三状态输入所述局部神经网络以获得第三行为以及第三奖励,将所述第四状态输入所述对手模型以获得第四行为以及第四奖励,并将所述第三状态、所述第四状态、所述第三行为、所述第四行为、所述第三奖励以及所述第四奖励存储入初始决策控制数据组中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111676244.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钴锰溴催化剂及其制备方法
- 下一篇:牵引变流器功能试验装置





