[发明专利]一种智能体群体交互的决策控制方法、装置及系统在审

申请号：	202111676244.8	申请日：	2021-12-31
公开（公告）号：	CN114298244A	公开（公告）日：	2022-04-08
发明（设计）人：	余超;刘岳鑫	申请（专利权）人：	中山大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/02
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	许羽冬
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能群体交互决策控制方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种智能体群体交互的决策控制方法，其特征在于，所述决策控制方法包括：

获取预设的初始决策控制模型，使智能体群体根据所述初始决策控制模型进行群体交互，从而获取初始决策控制数据组；所述初始决策控制模型包括顶层学习模型以及底层学习模型；

利用所述初始决策控制数据组，训练所述顶层学习模型和所述底层学习模型，从而获得最终决策控制模型；

根据所述最终决策控制模型，对所述智能体的群体交互进行决策控制。

2.根据权利要求1所述的智能体群体交互的决策控制方法，其特征在于，获取预设的初始决策控制模型，使智能体群体根据所述初始决策控制模型进行群体交互，从而获取初始决策控制数据组，具体包括：

获取预设的初始决策控制模型以及对手的预设的对手模型，对预设的群体交互平台进行初始化，并获取智能体的第一状态以及对手的第二状态；所述初始决策控制模型包括局部神经网络；

将所述第一状态输入所述局部神经网络以获得第一行为以及第一奖励，将所述第二状态输入所述对手模型以获得第二行为以及第二奖励，并将所述第一状态、所述第二状态、所述第一行为、所述第二行为、所述第一奖励以及所述第二奖励存储入初始决策控制数据组中；

将所述第一行为和所述第二行为输入所述群体交互平台中，从而对应获得所述智能体的第三状态和所述对手的第四状态；

将所述第三状态输入所述局部神经网络以获得第三行为以及第三奖励，将所述第四状态输入所述对手模型以获得第四行为以及第四奖励，并将所述第三状态、所述第四状态、所述第三行为、所述第四行为、所述第三奖励以及所述第四奖励存储入初始决策控制数据组中。

3.根据权利要求2所述的智能体群体交互的决策控制方法，其特征在于，利用所述初始决策控制数据组，训练所述顶层学习模型和所述底层学习模型，从而获得最终决策控制模型，具体包括：

根据预设的组数，将智能体群体划分为对应数量的小组，根据所述初始决策控制数据组获取各个小组的平均行为值以及奖励和值；

根据各个小组的平均行为值以及奖励和值，获取学习目标；

根据所述学习目标以及所述初始决策控制数据组，训练所述顶层学习模型，从而获得第一顶层模型以及对应的第一平均值神经网络，并根据所述第一平均值神经网络以及所述初始决策控制数据组，训练所述底层学习模型，并记录训练次数；

判断所述训练次数是否达到预设的次数阈值；

当所述训练次数达到预设的次数阈值时，停止训练并输出最终决策控制模型。

4.根据权利要求3所述的智能体群体交互的决策控制方法，其特征在于，在判断所述训练次数是否达到预设的次数阈值之后，还包括：

当所述训练次数未达到预设的次数阈值时，继续进行模型训练。

5.一种智能体群体交互的决策控制装置，其特征在于，所述决策控制装置包括初始交互单元、模型训练单元以及决策控制单元，其中，

所述初始交互单元用于获取预设的初始决策控制模型，使智能体群体根据所述初始决策控制模型进行群体交互，从而获取初始决策控制数据组；

所述模型训练单元用于利用所述初始决策控制数据组，训练预设的顶层学习模型和预设的底层学习模型，从而获得最终决策控制模型；

所述决策控制单元用于根据所述最终决策控制模型，对所述智能体的群体交互进行决策控制。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111676244.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载