[发明专利]一种基于生成对抗模仿学习的船舶避碰决策方法在审

申请号：	202211394429.4	申请日：	2022-11-08
公开（公告）号：	CN115616917A	公开（公告）日：	2023-01-17
发明（设计）人：	张新宇;郑康洁;王程博;姜玲玲;齐怀远;刘震生	申请（专利权）人：	大连海事大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	大连东方专利代理有限责任公司 21212	代理人：	吴婷婷;李洪福
地址：	116026 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生成对抗模仿学习船舶决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于生成对抗模仿学习的船舶避碰决策方法，包括以下步骤：基于所述专家示范数据提取良好行为的状态‑动作对作为专家数据；初始化图像信息；将所述图像信息输入生成器中进行特征提取和对抗训练；获取生成器输出的状态‑动作对作为生成数据；将所述专家数据和所述生成数据输入至判别器中，所述判别器用于对所述生成数据进行二分类并输出对生成数据的真假判断值作为奖励信息；将所述奖励奖励信息反馈至环境输入中；反复执行上述步骤直至判别器输出的奖励信号都为真时，训练结束。本发明结合强化学习与模仿学习，既能够大大加快训练速度，又能够得到性能优越的避碰决策。

技术领域

本发明涉及船舶交通安全技术领域，具体而言，尤其涉及一种基于生成对抗模仿学习的船舶避碰决策方法。

背景技术

随着大数据与人工智能技术的发展，自主船舶已经出现在与造船、海上和航运相关的业务中，旨在保障海上运输安全，提高水路运输智能水平与加强海上环境保护。避碰决策技术是自主船舶实现航行安全的核心内容。从求解算法来看，智能化避碰决策是一个复杂的多约束动态规划问题。目前最常见的就是使用人工智能算法来求解。例如：基于COLREGs规则约束的实时避碰预测优化方法。或者通过量化DCPA和TCPA以确定船舶避碰动机。或者采用了模型预测控制算法(MPC)，将船舶运动模型、动态环境间的演变等不确定性约束引入到MPC中，实现最佳轨迹的计算。或者通过设计Q-learning算法求解动、静态障碍环境下的避碰模型。或者利用无模型深度Q学习算法求解未知环境下自主船舶避碰决策与自适应避障路径规划模型，并进行仿真验证。

上述方法只能适应简单的船舶会遇场景，如静态障碍物环境。但是开阔水域不确定因素颇多，通过传统算法已经无法满足需求。而人工智能方法中的强化学习算法由于可以解决序列决策问题，所以被广泛地应用在船舶避碰决策任务当中。虽然强化学习能够得到性能更好的智能体，但是训练成本高昂且不安全，往往训练时间漫长。

发明内容

根据上述提出现有基于强化学习的船舶避碰方法存在训练成本高、训练时间长的技术问题，而提供一种基于生成对抗模仿学习的船舶避碰决策方法。本发明结合强化学习与模仿学习，既能够大大加快训练速度，又能够得到性能优越的避碰决策。

本发明采用的技术手段如下：

一种基于生成对抗模仿学习的船舶避碰决策方法，包括以下步骤：

S101、获取专家示范数据，并基于所述专家示范数据提取良好行为的状态-动作对作为专家数据；

S102、初始化环境图像信息，所述环境图像信息包括船舶数量、船舶位置、船舶目标点、船舶航向以及船舶航速；

S103、将所述图像信息输入生成器中进行特征提取和对抗训练，所述生成器是由PPO算法训练的智能体；

S104、获取生成器输出的状态-动作对作为生成数据；

S105、将所述专家数据和所述生成数据输入至判别器中，所述判别器用于对所述生成数据进行二分类并输出对生成数据的真假判断值作为奖励信息；

S106、将所述奖励奖励信息反馈至环境输入中；

S107、反复执行上述S101至S107，直至判别器输出的奖励信号都为真时，训练结束。