[发明专利]一种无人艇集群运行信息智能同步方法及系统在审
| 申请号: | 202210628745.7 | 申请日: | 2022-06-06 |
| 公开(公告)号: | CN115309041A | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 韩玮;王千一;曾江峰;谢杨柳;张馗;陈骁;陈卓;郭晓晔;马向峰;梁旭;王伟;董钉;胥凤驰;李哲;骆福宇;王一帆;刘如磊;王子帅;宋胜男;吴与伦;董洁琳;许埔宁;王伟蒙 | 申请(专利权)人: | 中国船舶集团有限公司系统工程研究院 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 中国船舶专利中心 11026 | 代理人: | 李朝翠 |
| 地址: | 100094*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 无人 集群 运行 信息 智能 同步 方法 系统 | ||
1.一种无人艇集群运行信息智能同步方法,其特征在于,包括:
建立无人艇集群的多智能体MDP离散时间模型;
根据所述多智能体MDP离散时间模型,确定最优动作策略;
按照所述最优动作策略,对多智能体进行一致性控制。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多智能体MDP离散时间模型,确定最优动作策略,包括:
采用结合势博弈理论的CQL算法,以智能体获取联合回报期望的最大值作为目标,自主学习迭代动作价值函数,以得到收敛的Q表,Q表为最优动作策略。
3.根据权利要求2所述的方法,其特征在于,所述建立无人艇集群的多智能体MDP离散时间模型,包括:
智能体与环境交互,根据从环境中受到的奖罚来学习规则,以概率转移函数表示交互结果,并通过回报函数表示奖惩;
集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和,价值函数为:
式(1)中,为智能体i在离散时间中未来j步的奖励;β为折扣因子;π为智能体的策略,表示基于状态S所选择的动作a;n为集群中智能体个体总数;
如果一组智能体采用联合策略π1,π2,π3...πn,那么动作价值函数Q函数的迭代公式定义为:
式(2)中,s′为后一时刻状态;a′为后一时刻状态下智能体所选择的动作。
4.根据权利要求3所述的方法,其特征在于,
集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和,迭代寻找满足多智能体的Q值收敛的期望均衡点。
5.根据权利要求4所述的方法,其特征在于,
当为多智能体的Q值收敛的期望均衡点时,对应的该组策略是最佳策略,对于智能体i在任意状态s下获得的收敛的Q值表示为:
将满足对于其他智能体的Q值同样收敛的条件
6.根据权利要求5所述的方法,其特征在于,所述迭代寻找满足多智能体的Q值收敛的期望均衡点,包括:
在CQL算法中应用势博弈理论的方法,将每个智能体不同策略下Q值的改变视为个体效用函数,并将它们映射到一个全局势函数上,使个体效用函数与全局势函数的单调性一致;
当势函数取得最大值时,所有智能体都达到了各自效用的最大值,得到满足多智能体的Q值收敛的期望均衡点。
7.根据权利要求6所述的方法,其特征在于,所述迭代寻找满足多智能体的Q值收敛的期望均衡点,具体包括:
在拥有n个智能体集合p的一致问题中,每个智能体pi∈p同样拥有状态集Si及对应的动作集Ai,那么其一致性个体效用函数Ui(S,A)通过学习过程中的Q函数定义为:
对应的全局一致性势函数表示为:
若智能体pi在同一状态下选择动作而不是动作其目标函数的变化满足了势博弈的单调性要求;
Q值的迭代公式中策略π对应的智能体i的动作,需要满足个体效用函数Ui(S,A)与全局势函数φ(S,A)最大的条件,该条件为:
在每次Q值迭代过程中,智能体i只须获取其他智能体的Q表,根据自己的状态St计算个体效用函数值,并选择对应最大值的动作at作为输出执行,进入下一次迭代,这样最终获得的Q值收敛值能够使所有智能体Q值的和最大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶集团有限公司系统工程研究院,未经中国船舶集团有限公司系统工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210628745.7/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





