[发明专利]基于注意力序列嵌入的合作型多智能体经验回放方法在审
| 申请号: | 202310407398.X | 申请日: | 2023-04-17 |
| 公开(公告)号: | CN116663605A | 公开(公告)日: | 2023-08-29 |
| 发明(设计)人: | 谢在鹏;计诚;沈思彤;汤磊 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06N3/0442 | 分类号: | G06N3/0442;G06N3/092 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陈月菊 |
| 地址: | 210000 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 序列 嵌入 合作 智能 经验 回放 方法 | ||
1.一种基于注意力序列嵌入的合作型多智能体经验回放方法,其特征在于,通过GRU单元的循环,获得经验序列的嵌入表征,所述嵌入表征中含有在一段连续时间内的聚合特征。
2.根据权利要求1所述的方法,其特征在于,具体步骤为:
假设一个经验回放池E中现有T条经验数据E={e1,e2,e3,…,eT};
S1.确定连续采样步长k,经验样本的采样过程由传统的均匀采样一条数据变为采样连续的k条经验数据{ei-k~ei}{1+k≤i≤T};
S2.使用均匀分布随机采样一条经验ei,创建大小为k的输入向量X={ei-k~ei};
S3.循环开始的判断条件,0≤jk;
S4.获取当前的输入向量X,依次输出当前的经验数据;判断是否将X中元素全部计算完成,若完成,进入S5;否则,进入S4;
S5.计算适应度函数,用来生成适应度分数数组H′,其中H′=H⊙q;符号⊙表示两个向量之间的点积;向量q表示注意力机制中的查询向量,由每个隐层输出组合而成;
S6.计算生成序列嵌入之间的自适应权重数组an=SoftMax(H′),得到归一化的权重数组an;
S7.计算最终得到的具有连续k个时间步内的经验特征的经验序列嵌入:Seq=an·HT,这个序列嵌入拥有自适应权重的经验特征聚合;
S8.返回经验聚合结果Seq,送入多智能体的策略网络中进行训练。
3.根据权利要求2所述的方法,其特征在于,S3具体为,利用到门控循环单元来生成每个经验的嵌入表示,使用GRU的输出表示当前的循环神经网络的隐层输出hj,而由于hj的计算过程中又包含了hj-1作为输入,所以最后一条经验的隐层嵌入表示中包含了这k步经验的全部特征信息。
4.根据权利要求3所述的方法,其特征在于,S4具体为获取当前的输入向量X,依次输出当前的经验数据;计算当前的GRU隐层输出:hj=GRU(ej);添加到序列嵌入数组H={hi|0≤ik};判断是否将X中元素全部计算完成,若完成,进入S5;否则,进入S4。
5.根据权利要求1所述的一种基于注意力序列嵌入的合作型多智能体经验回放方法,其特征在于,S6具体为计算生成序列嵌入之间的自适应权重数组an=SoftMax(H′),得到归一化的权重数组an;在机器学习中,SoftMax函数通常用于将一组任意实数转化为概率分布,即将一个n维向量x=[x1,x2,...,xn]映射到一个n维向量a=[a1,a2,...,an],其中每个ai表示xi被转化为概率分布中的概率。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现如权利要求1~5中任一项所述的基于注意力序列嵌入的合作型多智能体经验回放方法中的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~5中任一项所述的基于注意力序列嵌入的合作型多智能体经验回放方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310407398.X/1.html,转载请声明来源钻瓜专利网。





