[发明专利]一种基于强化学习的水下航行器对接控制方法有效
申请号: | 202210638552.X | 申请日: | 2022-06-08 |
公开(公告)号: | CN114721409B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 李沂滨;张天泽;缪旭弘;魏征;尤岳;周广礼;贾磊;庄英豪;宋艳 | 申请(专利权)人: | 山东大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 王楠 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 水下 航行 对接 控制 方法 | ||
1.一种基于强化学习的水下航行器对接控制方法,其特征在于,包括步骤如下:
步骤1、定义任务环境及模型
1-1、构建水下航行器所在的任务环境及水下航行器动力学模型;
任务环境包括固定在地理原点的坐标系、设置了三维地图尺寸的三维区域、三维锥体对接站区域;
水下航行器包括三个执行机构,分别为艉部推进器、艉部水平舵以及艉部垂直舵;
将三维运动投影到穿过锥体对接站中心轴的平面上,锥体对接站的入口形成入口三角形区域PAB,入口三角形区域PAB沿对接站中心轴向外延伸形成外部圆锥体区域,是入口AB的半径;设定成功对接的要求是:当航行器头部到达AB时,小于,小于;成功对接的最终约束为:
(1-1)
(1-2)
其中,与分别为半径安全裕度与角度安全裕度;为航行器头部与对接站中心轴的垂直距离,为航行器中轴线与对接站中心轴的夹角;为三角形的;
1-2、定义奖励函数
根据航行器对接控制任务的设定,构建如下奖励分量:水下航行器接近对接站终点的步进奖励、水下航行器接近对接站中轴线的步进奖励、带容差的惩罚函数与、水下航行器到达外部圆锥体区域时的奖励分量;
奖励函数设定为:
(1-8)
是权重;
1-3、定义状态空间S,,n为观察分量的数量,
(1-9)
其中,为航行器重心到对接站的距离、为航行器重心到对接站中心轴的距离、为航行器和最终期望姿态之间的角度、为航行器到终点P的导航角、为俯仰角、是水下航行器艉部推进器的推力大小、为艉部水平舵的偏转角度、为艉部垂直舵的偏转角度;为航行器相对于固定坐标系的姿态角角度,即艏向角;
1-4、定义动作空间,其中,F为推进器输出力的大小,为水平舵以及垂直舵的偏转角度;
1-5、根据海浪干扰,构建一个随机海浪模型;
1-6、根据海流干扰,在水平面上构建一个包含两个分量的流场;
步骤2、定义基于深度强化学习的对接控制算法
2-1、定义目标函数:策略网络输入为,输出为,即一个由状态到动作的映射关系,其策略网络的目标函数为:
(2-8)
(2-9)
(2-10)
为裁剪因子,为优势函数,为一轮训练t时刻智能体状态,为t时刻智能体所执行的动作,则为计算得到的t时刻的优势函数值,为自适应的回滚因子,为训练阶段近100轮的任务成功次数,通过自适应可靠边界回滚裁剪机制计算得到;
2-2、定义算法流程:
输入:初始化策略网络参数,初始化值网络参数;
(1)循环开始,遍历k = 0, 1, 2 , …进行以下步骤:
(2)使用策略网络,为更新策略网络的次序,收集若干条完整的训练轨迹存入,为收集到的训练轨迹次序;
(3)基于当前值网络计算优势函数的估计值;
(4)通过策略网络的梯度下降,最大化目标函数来更新ARAB-PPO网络参数,得到新的网络参数;
(2-11)
其中,是一个求取参数的函数,即是使得取得最大值所对应的变量点或的集合,表示策略网络的网络参数,,,表示存储若干条完整的训练轨迹的集合,对用计算机内存中的一部分缓存空间,表示用于网络更新的轨迹的长度,即该条轨迹的总时间步数;
(5)通过梯度下降法,基于均方根误差来拟合值网络:
(2-12)
是是一个求取参数 的函数,即是使得取得最小值所对应的变量点或的集合,表示值网络的网络参数;表示用于网络更新的轨迹的长度,即该条轨迹的总时间步数,表示对值函数的估计值,表示第i个时间步的状态的值网络输出值;
(6)结束循环;
步骤3、进行对接训练
3-1、初始化任务环境及水下航行器动力学模型;
3-2、根据设定好的海浪参数,计算海浪产生的干扰力及干扰力矩;
3-3、根据设定好的海流参数及具体形式,计算得到体坐标系下的海流速度在两个方向上的速度分量;
3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数;
3-5、策略网络根据t时刻获得的观察量,输出动作;
3-6、根据公式(1-8)计算环境给予航行器智能体的单步环境奖励,并根据公式(1-1)、(1-2)判断航行器是否满足对接控制约束,并记录近100轮训练成功次数;
若不满足,且t小于等于设定的单轮最大步数,则重复步骤3-6;
若满足,且t小于等于设定的单轮最大步数,则进行3-7;
若不满足,且t大于设定的单轮最大步数,则进行3-7;
3-7、将得到的完整训练轨迹,其中表示第0个时间步的航行器状态;表示第0时刻航行器智能体执行的动作;表示0时刻航行器智能体在执行动作后获得的奖励值;后续以此类推,存入;
3-8、设定更新频率,判断是否满足更新频率:
当满足更新频率时,进行步骤2-2中的步骤(3),基于当前值网络计算优势函数的估计值并继续执行3-9;
当不满足更新频率时,重复步骤3-6;
3-9、根据公式(2-10),根据,使用提出的自适应可靠边界回滚机制,计算策略网络的目标函数;
3-10、对目标函数求取梯度,并根据步骤2-2中的步骤(4)更新策略网络参数;
3-11、根据步骤2-2中的步骤(5)更新值网络参数;
3-12、重复3-6,直到达到设定的收敛目标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210638552.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仪表显示控制方法及控制装置
- 下一篇:一种功率型电解液及钠离子电池