[发明专利]一种基于强化学习的水下航行器对接控制方法有效

专利信息
申请号: 202210638552.X 申请日: 2022-06-08
公开(公告)号: CN114721409B 公开(公告)日: 2022-09-20
发明(设计)人: 李沂滨;张天泽;缪旭弘;魏征;尤岳;周广礼;贾磊;庄英豪;宋艳 申请(专利权)人: 山东大学
主分类号: G05D1/06 分类号: G05D1/06
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 王楠
地址: 250199 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 水下 航行 对接 控制 方法
【权利要求书】:

1.一种基于强化学习的水下航行器对接控制方法,其特征在于,包括步骤如下:

步骤1、定义任务环境及模型

1-1、构建水下航行器所在的任务环境及水下航行器动力学模型;

任务环境包括固定在地理原点的坐标系、设置了三维地图尺寸的三维区域、三维锥体对接站区域;

水下航行器包括三个执行机构,分别为艉部推进器、艉部水平舵以及艉部垂直舵;

将三维运动投影到穿过锥体对接站中心轴的平面上,锥体对接站的入口形成入口三角形区域PAB,入口三角形区域PAB沿对接站中心轴向外延伸形成外部圆锥体区域,是入口AB的半径;设定成功对接的要求是:当航行器头部到达AB时,小于,小于;成功对接的最终约束为:

(1-1)

(1-2)

其中,与分别为半径安全裕度与角度安全裕度;为航行器头部与对接站中心轴的垂直距离,为航行器中轴线与对接站中心轴的夹角;为三角形的;

1-2、定义奖励函数

根据航行器对接控制任务的设定,构建如下奖励分量:水下航行器接近对接站终点的步进奖励、水下航行器接近对接站中轴线的步进奖励、带容差的惩罚函数与、水下航行器到达外部圆锥体区域时的奖励分量;

奖励函数设定为:

(1-8)

是权重;

1-3、定义状态空间S,,n为观察分量的数量,

(1-9)

其中,为航行器重心到对接站的距离、为航行器重心到对接站中心轴的距离、为航行器和最终期望姿态之间的角度、为航行器到终点P的导航角、为俯仰角、是水下航行器艉部推进器的推力大小、为艉部水平舵的偏转角度、为艉部垂直舵的偏转角度;为航行器相对于固定坐标系的姿态角角度,即艏向角;

1-4、定义动作空间,其中,F为推进器输出力的大小,为水平舵以及垂直舵的偏转角度;

1-5、根据海浪干扰,构建一个随机海浪模型;

1-6、根据海流干扰,在水平面上构建一个包含两个分量的流场;

步骤2、定义基于深度强化学习的对接控制算法

2-1、定义目标函数:策略网络输入为,输出为,即一个由状态到动作的映射关系,其策略网络的目标函数为:

(2-8)

(2-9)

(2-10)

为裁剪因子,为优势函数,为一轮训练t时刻智能体状态,为t时刻智能体所执行的动作,则为计算得到的t时刻的优势函数值,为自适应的回滚因子,为训练阶段近100轮的任务成功次数,通过自适应可靠边界回滚裁剪机制计算得到;

2-2、定义算法流程:

输入:初始化策略网络参数,初始化值网络参数;

(1)循环开始,遍历k = 0, 1, 2 , …进行以下步骤:

(2)使用策略网络,为更新策略网络的次序,收集若干条完整的训练轨迹存入,为收集到的训练轨迹次序;

(3)基于当前值网络计算优势函数的估计值;

(4)通过策略网络的梯度下降,最大化目标函数来更新ARAB-PPO网络参数,得到新的网络参数;

(2-11)

其中,是一个求取参数的函数,即是使得取得最大值所对应的变量点或的集合,表示策略网络的网络参数,,,表示存储若干条完整的训练轨迹的集合,对用计算机内存中的一部分缓存空间,表示用于网络更新的轨迹的长度,即该条轨迹的总时间步数;

(5)通过梯度下降法,基于均方根误差来拟合值网络:

(2-12)

是是一个求取参数 的函数,即是使得取得最小值所对应的变量点或的集合,表示值网络的网络参数;表示用于网络更新的轨迹的长度,即该条轨迹的总时间步数,表示对值函数的估计值,表示第i个时间步的状态的值网络输出值;

(6)结束循环;

步骤3、进行对接训练

3-1、初始化任务环境及水下航行器动力学模型;

3-2、根据设定好的海浪参数,计算海浪产生的干扰力及干扰力矩;

3-3、根据设定好的海流参数及具体形式,计算得到体坐标系下的海流速度在两个方向上的速度分量;

3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数;

3-5、策略网络根据t时刻获得的观察量,输出动作;

3-6、根据公式(1-8)计算环境给予航行器智能体的单步环境奖励,并根据公式(1-1)、(1-2)判断航行器是否满足对接控制约束,并记录近100轮训练成功次数;

若不满足,且t小于等于设定的单轮最大步数,则重复步骤3-6;

若满足,且t小于等于设定的单轮最大步数,则进行3-7;

若不满足,且t大于设定的单轮最大步数,则进行3-7;

3-7、将得到的完整训练轨迹,其中表示第0个时间步的航行器状态;表示第0时刻航行器智能体执行的动作;表示0时刻航行器智能体在执行动作后获得的奖励值;后续以此类推,存入;

3-8、设定更新频率,判断是否满足更新频率:

当满足更新频率时,进行步骤2-2中的步骤(3),基于当前值网络计算优势函数的估计值并继续执行3-9;

当不满足更新频率时,重复步骤3-6;

3-9、根据公式(2-10),根据,使用提出的自适应可靠边界回滚机制,计算策略网络的目标函数;

3-10、对目标函数求取梯度,并根据步骤2-2中的步骤(4)更新策略网络参数;

3-11、根据步骤2-2中的步骤(5)更新值网络参数;

3-12、重复3-6,直到达到设定的收敛目标。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210638552.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top