[发明专利]一种多智能体合作决策及训练方法有效

申请号：	201811210985.5	申请日：	2018-10-17
公开（公告）号：	CN109635917B	公开（公告）日：	2020-08-25
发明（设计）人：	卢宗青;姜杰川	申请（专利权）人：	北京大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	刘广达
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种多智能体合作决策及训练方法，包括如下步骤：S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码，编码为感受野内的特征向量；S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度，关系单元的关系卷积核将感受野内的特征向量整合为新的特征向量，迭代多次图卷积层，得到更大的感受野和更高阶的多头注意力机制的关系描述；S3:将感受野内的特征向量和图卷积层整合的新的特征向量拼接，送入价值网络，价值网络选择执行未来反馈期望最高的动作决策；S4:将智能体的局部观察集合及相关集合存储在缓冲区，在缓冲区采集样本进行训练，优化并改写损失函数。
搜索关键词：	一种智能合作决策训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种多智能体合作决策及训练方法，其特征在于，包括如下步骤：S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码，编码为感受野内的特征向量；S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度，所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量，迭代多次所述图卷积层，得到更大的感受野和更高阶的多头注意力机制的关系描述；S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接，送入价值网络，所述价值网络选择执行未来反馈期望最高的动作决策；S4:将所述智能体的局部观察集合及相关集合存储在缓冲区，在所述缓冲区采集样本进行训练，优化并改写损失函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811210985.5/，转载请声明来源钻瓜专利网。

上一篇：具有可变输出数据格式的深度神经网络的硬件实现
下一篇：基于云平台和预设模型的神经网络自动训练方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多智能体合作决策及训练方法有效

专利文献下载