[发明专利]基于深度强化学习技术的仿生机器鱼群集导航模拟方法有效
申请号: | 202110687099.7 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113421345B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 高天寒;张岩 | 申请(专利权)人: | 东北大学 |
主分类号: | G06T19/00 | 分类号: | G06T19/00;G06N3/006;G06N3/084 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 技术 仿生 机器 鱼群 导航 模拟 方法 | ||
本发明提供一种基于深度强化学习技术的仿生机器鱼群集导航模拟方法,涉及多智能体路径导航规划技术领域。该方法首先构建3D鱼群群集环境模型,然后在3D鱼群群集环境中构建仿生机器鱼群集的智能体模型;该智能体模型包括感知模型、运动模型和决策模型三部分;再构建鱼群群集的奖励函数,并在在奖励函数中引入好奇心机制;基于好奇心机制和PPO2算法构建智能体模型的分布式训练框架,让智能体以学习的方式获得行为策略;最后基于构建的分布式训练框架训练智能体模型,实现仿生机器鱼群集的导航模拟。该方法可以使虚拟鱼群在3D环境下学习到合理的鱼群行为,并应用到真实世界的仿生机器鱼群导航行为当中。
技术领域
本发明涉及多智能体路径导航规划技术领域,尤其涉及一种基于深度强化学习技术的仿生机器鱼群集导航模拟方法。
背景技术
鱼类的群集行为是典型的自组织现象。鱼在游动的过程中为了保证自身的生存会自然的聚集成群,并展示出复杂的集群行为。而每条鱼的游泳仅需遵循两个基本规则便可实现:跟随旁边的鱼;持续移动。如果只基于这两个简单规则去模拟自然鱼群行为,实现仿生机器鱼群集导航,目前大部分人造群体系统是很难实现的。
用来模拟鱼群群集行为实现仿生机器鱼群集导航的常用方法是人工鱼群算法(AFSA)。人工鱼群算法是一种基于模拟鱼群行为的优化算法,是由李晓磊等在2002年提出的一种新型的寻优算法。在一片水域中,鱼生存的数目最多的地方就是本水域中富含营养物质最多的地方,依据这一特点来模仿鱼群的觅食等行为,从而实现全局寻优,这就是鱼群算法的基本思想。
另一种较先进的方法是使用深度强化学习来模拟鱼群聚集行为实现仿生机器鱼群集导航。通过构建环境模型,智能体模型和奖励,使用深度强化学习算法训练鱼群智能体,来实现鱼群自组织行为模拟,然后将训练模型、传感模型直接部署到仿生机器鱼中即可。使用深度强化学习模拟鱼群自组织行为不仅为实现仿生机器鱼群集导航提供了新思路,也推动了深度强化学习在多智能体方向的发展。
人工鱼群算法(AFSA)存在收敛精度低、易陷入局部最优、后期收敛速度慢等问题。该算法对各个超参数十分敏感,容易受步长、种群规模和拥挤度因子的影响,因此具有很大局限性。
目前使用深度强化学习来模拟鱼群群集行为的方法为了简化训练,其仿真大都是简单的2D环境,动作空间与状态空间较小,不能真实地反应鱼群在自然界的群集行为。对实际应用如水下机器人、潜艇导航等意义较小,对研究自然界真实群集行为帮助也很小。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于深度强化学习技术的仿生机器鱼群集导航模拟方法,实现对仿生机器鱼群集的导航模拟。
为解决上述技术问题,本发明所采取的技术方案是:基于深度强化学习技术的仿生机器鱼群集导航模拟方法,具体包括:
构建3D鱼群群集环境模型;
构建仿生机器鱼群集的智能体模型;所述智能体模型包括感知模型、运动模型和决策模型三部分;
构建鱼群群集的奖励函数,并在奖励函数中引入好奇心机制;
构建智能体模型的分布式训练框架,让智能体以学习的方式获得行为策略;
基于构建的分布式训练框架训练智能体模型,实现仿生机器鱼群集的导航模拟。
进一步地,所述构建3D鱼群群集环境模型的具体方法为:
一、构建鱼群群集环境;
以一个仿生机器鱼的长度为1单位,在Unity3D引擎系统中构建一个3D场景;3D场景的四周和顶部设置为透明的空气墙,3D场景底部模拟真实海洋地形,由凹凸不平的地面和水草组成;顶部和四周空气墙与底部地形通过碰撞体组成了一个密闭空间;
二、构建鱼群运动世界的坐标系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110687099.7/2.html,转载请声明来源钻瓜专利网。