[发明专利]基于深度强化学习技术的仿生机器鱼群集导航模拟方法有效
申请号: | 202110687099.7 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113421345B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 高天寒;张岩 | 申请(专利权)人: | 东北大学 |
主分类号: | G06T19/00 | 分类号: | G06T19/00;G06N3/006;G06N3/084 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 技术 仿生 机器 鱼群 导航 模拟 方法 | ||
1.一种基于深度强化学习技术的仿生机器鱼群集导航模拟方法,其特征在于:
构建3D鱼群群集环境模型;
构建仿生机器鱼群集的智能体模型;所述智能体模型包括感知模型、运动模型和决策模型三部分;
构建鱼群群集的奖励函数,并在奖励函数中引入好奇心机制;
构建智能体模型的分布式训练框架,让智能体以学习的方式获得行为策略;
基于构建的分布式训练框架训练智能体模型,实现仿生机器鱼群集的导航模拟。
2.根据权利要求1所述的基于深度强化学习技术的仿生机器鱼群集导航模拟方法,其特征在于:所述构建3D鱼群群集环境模型的具体方法为:
一、构建鱼群群集环境;
以一个仿生机器鱼的长度为1单位,在Unity3D引擎系统中构建一个3D场景;3D场景的四周和顶部设置为透明的空气墙,3D场景底部模拟真实海洋地形,由凹凸不平的地面和水草组成;顶部和四周空气墙与底部地形通过碰撞体组成了一个密闭空间;
二、构建鱼群运动世界的坐标系;
设定3D场景的底部地形与四周空气墙交接的其中一个顶点为坐标原点;设定3D场景中有n条仿生机器鱼组成的鱼群,用F={f1,f2,…,fn}表示,则第i条仿生机器鱼fi的坐标被表示为pi(xi,yi,zi),i=1,2,…,n;在3D场景中,随机初始化一片区域为目标区域,作为奖励信号驱动鱼群群集行为。
3.根据权利要求2所述的基于深度强化学习技术的仿生机器鱼群集导航模拟方法,其特征在于:
所述感知模型的构建方法为:
设定每条仿生机器鱼代表一个智能体,每条鱼能感知到以其当前位置为中心,半径大小为r的球形领域内的所有环境状态信息,其中r为鱼的视距,可手动调整;当其它智能体进入到某仿生机器鱼的视域范围内,该智能体能够感知到其它智能体的位置信息和当前状态;当仿生机器鱼的视域接触到目标区域后,能够感知到目标的方位与距离;
此外,每个智能体的表层包裹有一个Unity3D引擎中的胶囊碰撞体,当智能体与其它智能体或障碍物发生碰撞时,智能体会感知到碰撞信息;注意Unity3D引擎中的碰撞原理是边界框的相交性检测,当碰撞体表层相交时触发碰撞;
所述运动模型的构建方法为:
在虚拟的3D场景中,构建具有连续性动作的智能体运动模型;设定智能体有三个连续动作,分别为向前移动、左右旋转和上下旋转;智能体通过观测信息→神经网络模型→动作决策输出集合的方式控制动作选择;其中,动作决策输出集合是一个浮点类型的决策动作数组vectorAction,每个元素的大小为-1~1的连续值,vectorAction[0]指的是智能体前进的动作,vectorAction[1]表示左右转向动作,vectorAction[2]表示上下转向动作;
所述决策模型的构建方法为:
设定智能体每m个时间步会给出一个决策,输入3D场景中以驱动智能体运动;根据动作模型控制智能体的前进和转向;其中,每个智能体的决策都由一个神经网络拟合得出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110687099.7/1.html,转载请声明来源钻瓜专利网。