[发明专利]一种基于生成对抗模仿学习的船舶避碰决策方法在审
| 申请号: | 202211394429.4 | 申请日: | 2022-11-08 |
| 公开(公告)号: | CN115616917A | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 张新宇;郑康洁;王程博;姜玲玲;齐怀远;刘震生 | 申请(专利权)人: | 大连海事大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 吴婷婷;李洪福 |
| 地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 生成 对抗 模仿 学习 船舶 决策 方法 | ||
1.一种基于生成对抗模仿学习的船舶避碰决策方法,其特征在于,包括以下步骤:
S101、获取专家示范数据,并基于所述专家示范数据提取良好行为的状态-动作对作为专家数据;
S102、初始化环境图像信息,所述环境图像信息包括船舶数量、船舶位置、船舶目标点、船舶航向以及船舶航速;
S103、将所述图像信息输入生成器中进行特征提取和对抗训练,所述生成器是由PPO算法训练的智能体;
S104、获取生成器输出的状态-动作对作为生成数据;
S105、将所述专家数据和所述生成数据输入至判别器中,所述判别器用于对所述生成数据进行二分类并输出对生成数据的真假判断值作为奖励信息;
S106、将所述奖励奖励信息反馈至环境输入中;
S107、反复执行上述S101至S107,直至判别器输出的奖励信号都为真时,训练结束。
2.根据权利要求1所述的一种基于生成对抗模仿学习的船舶避碰决策方法,其特征在于,初始化环境图像信息包括:对会遇场景进行划分,所述会遇场景包括:对遇场景、让路船情况下的交叉场景、直航船情况下的交叉相遇场景以及追越场景。
3.根据权利要求1所述的一种基于生成对抗模仿学习的船舶避碰决策方法,其特征在于,初始化环境图像信息还包括:搭建船舶运动学模型,所述船舶运动学模型为:
其中,(xO,yO)表示本船坐标,(xgoal,ygoal)表示终点坐标,(xT,yT)表示目标船坐标,θo表示本船与目标点的夹角,θT表示目标船速度夹角,θOT表示本船与目标船的相对航向角度,αT表示本船与目标船的夹角,Vo表示本船航速,VxO表示Vo在x轴的分量,VyO表示Vo在y轴的分量,VT表示目标船航速,VxT表示VT在x轴的分量,VyT表示VT在y轴的分量。
4.根据权利要求1所述的一种基于生成对抗模仿学习的船舶避碰决策方法,其特征在于,所述判别器为卷积神经网络,通过最小化二元交叉熵来优化,优化目标为:
其中,L为二元交叉熵,判别器D的范围为(0,1),D(s,a)为输入到判别器中的状态-动作对,是判别器对生成器生成数据的判别的期望,是判别器对专家数据的判别的期望。
5.根据权利要求1所述的一种基于生成对抗模仿学习的船舶避碰决策方法,其特征在于,将所述图像信息输入生成器中进行特征提取之前,所述生成器基于马尔可夫决策模型训练过程构建,构建马尔可夫决策模型包括:
基于图像状态观测方法构建状态空间,以每一时刻本船的可观测范围内的图像作为输入;
根据船舶控制特点构建动作空间,所述动作空间包括左舷、右舷以及保向动作,
根据生成对抗网络中的判别器定义奖励函数:
其中r表示奖励函数值。
6.根据权利要求5所述的一种基于生成对抗模仿学习的船舶避碰决策方法,其特征在于,所述生成器通过强化学习中的PPO算法进行训练,通过PPO算法将所述马尔可夫决策模型输入到生成器中实现对生成器的训练;
所述PPO算包含两个神经网络:Actor和Critic网络;
所述Actor网络用于学习一个策略以获得尽可能高的回报;
所述Critic网络用于对当前策略的价值函数的估计。
7.根据权利要求6所述的一种基于生成对抗模仿学习的船舶避碰决策方法,其特征在于,将所述图像信息输入生成器中进行特征提取,包括:通过CNN网络来提取图像的特征,所述CNN网络包括提取层和处理层,其中提取层是Conv2D,处理层是ReLU,结果在展平操作后由全连接层输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211394429.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种茶叶种植用浇灌装置
- 下一篇:一种麻醉辅助穿刺设备





