[发明专利]基于注意力序列嵌入的合作型多智能体经验回放方法在审

申请号：	202310407398.X	申请日：	2023-04-17
公开（公告）号：	CN116663605A	公开（公告）日：	2023-08-29
发明（设计）人：	谢在鹏;计诚;沈思彤;汤磊	申请（专利权）人：	河海大学
主分类号：	G06N3/0442	分类号：	G06N3/0442;G06N3/092
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	陈月菊
地址：	210000 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力序列嵌入合作智能经验回放方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力序列嵌入的合作型多智能体经验回放方法，其特征在于，通过GRU单元的循环，获得经验序列的嵌入表征，所述嵌入表征中含有在一段连续时间内的聚合特征。

2.根据权利要求1所述的方法，其特征在于，具体步骤为：

假设一个经验回放池E中现有T条经验数据E＝{e₁,e₂,e₃,…,e_T}；

S1.确定连续采样步长k，经验样本的采样过程由传统的均匀采样一条数据变为采样连续的k条经验数据{e_i-k～e_i}_{{1+k≤i≤T}}；

S2.使用均匀分布随机采样一条经验e_i，创建大小为k的输入向量X＝{e_i-k～e_i}；

S3.循环开始的判断条件，0≤jk；

S4.获取当前的输入向量X，依次输出当前的经验数据；判断是否将X中元素全部计算完成，若完成，进入S5；否则，进入S4；

S5.计算适应度函数，用来生成适应度分数数组H^′，其中H^′＝H⊙q；符号⊙表示两个向量之间的点积；向量q表示注意力机制中的查询向量，由每个隐层输出组合而成；

S6.计算生成序列嵌入之间的自适应权重数组a_n＝SoftMax(H^′)，得到归一化的权重数组a_n；

S7.计算最终得到的具有连续k个时间步内的经验特征的经验序列嵌入：Seq＝a_n·H^T，这个序列嵌入拥有自适应权重的经验特征聚合；

S8.返回经验聚合结果Seq，送入多智能体的策略网络中进行训练。

3.根据权利要求2所述的方法，其特征在于，S3具体为，利用到门控循环单元来生成每个经验的嵌入表示，使用GRU的输出表示当前的循环神经网络的隐层输出h_j，而由于h_j的计算过程中又包含了h_j-1作为输入，所以最后一条经验的隐层嵌入表示中包含了这k步经验的全部特征信息。

4.根据权利要求3所述的方法，其特征在于，S4具体为获取当前的输入向量X，依次输出当前的经验数据；计算当前的GRU隐层输出：h_j＝GRU(e_j)；添加到序列嵌入数组H＝{h_i|0≤ik}；判断是否将X中元素全部计算完成，若完成，进入S5；否则，进入S4。

5.根据权利要求1所述的一种基于注意力序列嵌入的合作型多智能体经验回放方法，其特征在于，S6具体为计算生成序列嵌入之间的自适应权重数组a_n＝SoftMax(H^′)，得到归一化的权重数组a_n；在机器学习中，SoftMax函数通常用于将一组任意实数转化为概率分布，即将一个n维向量x＝[x₁,x₂,...,x_n]映射到一个n维向量a＝[a₁,a₂,...,a_n]，其中每个a_i表示x_i被转化为概率分布中的概率。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现如权利要求1～5中任一项所述的基于注意力序列嵌入的合作型多智能体经验回放方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～5中任一项所述的基于注意力序列嵌入的合作型多智能体经验回放方法中的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310407398.X/1.html，转载请声明来源钻瓜专利网。

上一篇：轮胎拆装工具、轮胎拆装设备及轮胎拆装方法
下一篇：一种氧化物绝缘层的制备方法与应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于注意力序列嵌入的合作型多智能体经验回放方法在审

专利文献下载