[发明专利]一种基于强化学习的水下航行器对接控制方法有效

申请号：	202210638552.X	申请日：	2022-06-08
公开（公告）号：	CN114721409B	公开（公告）日：	2022-09-20
发明（设计）人：	李沂滨;张天泽;缪旭弘;魏征;尤岳;周广礼;贾磊;庄英豪;宋艳	申请（专利权）人：	山东大学
主分类号：	G05D1/06	分类号：	G05D1/06
代理公司：	济南金迪知识产权代理有限公司 37219	代理人：	王楠
地址：	250199 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习水下航行对接控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的水下航行器对接控制方法，其特征在于，包括步骤如下：

步骤1、定义任务环境及模型

1-1、构建水下航行器所在的任务环境及水下航行器动力学模型；

任务环境包括固定在地理原点的坐标系、设置了三维地图尺寸的三维区域、三维锥体对接站区域；

水下航行器包括三个执行机构，分别为艉部推进器、艉部水平舵以及艉部垂直舵；

将三维运动投影到穿过锥体对接站中心轴的平面上，锥体对接站的入口形成入口三角形区域PAB，入口三角形区域PAB沿对接站中心轴向外延伸形成外部圆锥体区域，是入口AB的半径；设定成功对接的要求是：当航行器头部到达AB时，小于，小于；成功对接的最终约束为：

（1-1）

（1-2）

其中，与分别为半径安全裕度与角度安全裕度；为航行器头部与对接站中心轴的垂直距离，为航行器中轴线与对接站中心轴的夹角；为三角形的；

1-2、定义奖励函数

根据航行器对接控制任务的设定，构建如下奖励分量：水下航行器接近对接站终点的步进奖励、水下航行器接近对接站中轴线的步进奖励、带容差的惩罚函数与、水下航行器到达外部圆锥体区域时的奖励分量；

奖励函数设定为：

（1-8）

是权重；

1-3、定义状态空间S，，n为观察分量的数量，

（1-9）

其中，为航行器重心到对接站的距离、为航行器重心到对接站中心轴的距离、为航行器和最终期望姿态之间的角度、为航行器到终点P的导航角、为俯仰角、是水下航行器艉部推进器的推力大小、为艉部水平舵的偏转角度、为艉部垂直舵的偏转角度；为航行器相对于固定坐标系的姿态角角度，即艏向角；

1-4、定义动作空间，其中，F为推进器输出力的大小，为水平舵以及垂直舵的偏转角度；

1-5、根据海浪干扰，构建一个随机海浪模型；

1-6、根据海流干扰，在水平面上构建一个包含两个分量的流场；

步骤2、定义基于深度强化学习的对接控制算法

2-1、定义目标函数：策略网络输入为，输出为，即一个由状态到动作的映射关系，其策略网络的目标函数为：

（2-8）

（2-9）

（2-10）

为裁剪因子，为优势函数，为一轮训练t时刻智能体状态，为t时刻智能体所执行的动作，则为计算得到的t时刻的优势函数值，为自适应的回滚因子，为训练阶段近100轮的任务成功次数，通过自适应可靠边界回滚裁剪机制计算得到；

2-2、定义算法流程：

输入：初始化策略网络参数，初始化值网络参数；

（1）循环开始，遍历k = 0, 1, 2 , …进行以下步骤：

（2）使用策略网络，为更新策略网络的次序，收集若干条完整的训练轨迹存入，为收集到的训练轨迹次序；

（3）基于当前值网络计算优势函数的估计值；

（4）通过策略网络的梯度下降，最大化目标函数来更新ARAB-PPO网络参数，得到新的网络参数；

（2-11）

其中，是一个求取参数的函数，即是使得取得最大值所对应的变量点或的集合，表示策略网络的网络参数，，，表示存储若干条完整的训练轨迹的集合，对用计算机内存中的一部分缓存空间，表示用于网络更新的轨迹的长度，即该条轨迹的总时间步数；

（5）通过梯度下降法，基于均方根误差来拟合值网络：

（2-12）

是是一个求取参数的函数，即是使得取得最小值所对应的变量点或的集合，表示值网络的网络参数；表示用于网络更新的轨迹的长度，即该条轨迹的总时间步数，表示对值函数的估计值，表示第i个时间步的状态的值网络输出值；

（6）结束循环；

步骤3、进行对接训练

3-1、初始化任务环境及水下航行器动力学模型；

3-2、根据设定好的海浪参数，计算海浪产生的干扰力及干扰力矩；

3-3、根据设定好的海流参数及具体形式，计算得到体坐标系下的海流速度在两个方向上的速度分量；

3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数；

3-5、策略网络根据t时刻获得的观察量，输出动作；

3-6、根据公式（1-8）计算环境给予航行器智能体的单步环境奖励，并根据公式（1-1）、（1-2）判断航行器是否满足对接控制约束，并记录近100轮训练成功次数；

若不满足，且t小于等于设定的单轮最大步数，则重复步骤3-6；

若满足，且t小于等于设定的单轮最大步数，则进行3-7；

若不满足，且t大于设定的单轮最大步数，则进行3-7；

3-7、将得到的完整训练轨迹，其中表示第0个时间步的航行器状态；表示第0时刻航行器智能体执行的动作；表示0时刻航行器智能体在执行动作后获得的奖励值；后续以此类推，存入；

3-8、设定更新频率，判断是否满足更新频率：

当满足更新频率时，进行步骤2-2中的步骤（3），基于当前值网络计算优势函数的估计值并继续执行3-9；

当不满足更新频率时，重复步骤3-6；

3-9、根据公式（2-10），根据，使用提出的自适应可靠边界回滚机制，计算策略网络的目标函数；

3-10、对目标函数求取梯度，并根据步骤2-2中的步骤（4）更新策略网络参数；

3-11、根据步骤2-2中的步骤（5）更新值网络参数；

3-12、重复3-6，直到达到设定的收敛目标。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210638552.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的水下航行器对接控制方法有效

专利文献下载