[发明专利]一种基于DM-DQN的移动机器人路径规划方法在审
| 申请号: | 202210673628.2 | 申请日: | 2022-06-13 |
| 公开(公告)号: | CN115047878A | 公开(公告)日: | 2022-09-13 |
| 发明(设计)人: | 顾玉宛;朱智涛;吕继东;石林;徐守坤;刘铭雨 | 申请(专利权)人: | 常州大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 常州市英诺创信专利代理事务所(普通合伙) 32258 | 代理人: | 张秋月 |
| 地址: | 213164 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 dm dqn 移动 机器人 路径 规划 方法 | ||
本发明涉及DQN算法技术领域,尤其涉及一种基于DM‑DQN的移动机器人路径规划方法,包括建立基于DM‑DQN的移动机器人路径规划模型;设计DM‑DQN算法的状态空间、动作空间、DM‑DQN网络模型和奖励函数;对DM‑DQN算法进行训练,获得了经验奖励值,完成机器人无碰撞的路径规划。本发明引入了竞争网络结构,将网络结构分解为价值函数和优势函数,从而将动作选择和动作评估进行解耦,使得状态不再完全依赖于动作的价值来进行判断,可以进行单独的价值预测,解决了其收敛速度慢的问题;并通过设计基于人工势场的奖励函数,解决了机器人过于靠近障碍物边缘的问题。
技术领域
本发明涉及DQN算法技术领域,尤其涉及一种基于DM-DQN的移动机器人路径规划方法。
背景技术
随着人工智能的发展潮流,机器人工业也朝着自主学习、自主探索的智能化方向发展,而移动机器人的路径规划是机器人运动中的核心问题,其目的在于能够找到一条从起点到终点无碰撞的最优或者次优路径;随着科技的不断发展,机器人所面临的环境越来越复杂,而且在未知环境中,我们无法获知整个环境的信息,因此传统的路径规划算法已经不能满足人们的需求,例如:人工势场算法、蚁群算法、遗传算法、粒子群算法等。针对这种情况,提出了深度强化学习,将深度学习与强化学习相结合,其中深度学习主要通过神经网络对输入的未知环境状态提取特征,实现环境状态到动作值函数的拟合;强化学习则根据深度神经网络的输出和探索策略完成决策,从而实现状态到动作的映射。深度学习与强化学习的结合解决了状态到动作映射所带来的维数灾难问题,能更好满足复杂环境下的机器人运动需求。
发明内容
针对现有算法的不足,本发明引入了竞争网络结构,将网络结构分解为价值函数和优势函数,从而将动作选择和动作评估进行解耦,使得状态不再完全依赖于动作的价值来进行判断,可以进行单独的价值预测,解决了其收敛速度慢的问题;并通过设计基于人工势场的奖励函数,解决了机器人过于靠近障碍物边缘的问题。
本发明所采用的技术方案是:一种基于DM-DQN的移动机器人路径规划方法包括以下步骤:
步骤一、建立基于DM-DQN的移动机器人路径规划模型;
步骤二、设计DM-DQN算法的状态空间、动作空间、DM-DQN网络模型和奖励函数;
进一步的,DM-DQN网络模型的结构分为价值函数V(s,ω,α)和优势函数A(s,a,ω,β),DM-DQN网络模型的输出表示为:
Q(s,a,ω,α,β)=V(s,ω,α)+A(s,a,ω,β) (4)
其中,s表示状态,a表示动作,ω为V和A的公共参数,α和β分别为V和A的参数,V值可以看成是s状态下Q值的平均数,A值是有平均数为0的限制,V值与A值的和就是原来的Q值。
进一步的,将优势函数进行集中化,DM-DQN网络模型的输出表示为:
其中,s表示状态,a表示动作,a'表示下一个动作,A是可供选择的动作,ω为V和A的公共参数,α和β分别为V和A的参数。
进一步的,奖励函数分为位置奖励函数和方向奖励函数,并根据位置奖励函数和方向奖励函数计算得到总的奖励函数。
进一步的,位置奖励函数中,首先使用引力势场函数构建目标引导奖励函数:
其中,ζ表示引力奖励函数常数,dgoal表示当前位置到目标点之间的距离;
其次,使用斥力势场函数构建避障奖励函数,该奖励为负奖励,随着机器人与障碍物的距离减小而减小:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州大学,未经常州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210673628.2/2.html,转载请声明来源钻瓜专利网。





