[发明专利]一种基于DM-DQN的移动机器人路径规划方法在审
| 申请号: | 202210673628.2 | 申请日: | 2022-06-13 |
| 公开(公告)号: | CN115047878A | 公开(公告)日: | 2022-09-13 |
| 发明(设计)人: | 顾玉宛;朱智涛;吕继东;石林;徐守坤;刘铭雨 | 申请(专利权)人: | 常州大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 常州市英诺创信专利代理事务所(普通合伙) 32258 | 代理人: | 张秋月 |
| 地址: | 213164 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 dm dqn 移动 机器人 路径 规划 方法 | ||
1.一种基于DM-DQN的移动机器人路径规划方法,其特征在于,包括以下步骤:
步骤一、建立基于DM-DQN的移动机器人路径规划模型;
步骤二、设计DM-DQN算法的状态空间、动作空间、DM-DQN网络模型和奖励函数;
步骤三、对DM-DQN算法进行训练,获得了经验奖励值,完成机器人无碰撞的路径规划。
2.根据权利要求1所述的基于DM-DQN的移动机器人路径规划方法,其特征在于,所述DM-DQN网络模型的结构分为价值函数V(s,ω,α)和优势函数A(s,a,ω,β),DM-DQN网络模型的输出表示为:
Q(s,a,ω,α,β)=V(s,ω,α)+A(s,a,ω,β) (4)
其中,s表示状态,a表示动作,ω为V和A的公共参数,α和β分别为V和A的参数,V值为s状态下Q值的平均数。
3.根据权利要求2所述的基于DM-DQN的移动机器人路径规划方法,其特征在于,将所述优势函数进行集中化,DM-DQN网络模型的输出表示为:
其中,s表示状态,a表示动作,a'表示下一个动作,A为供选择的动作,ω为V和A的公共参数,α和β分别为V和A的参数。
4.根据权利要求1所述的基于DM-DQN的移动机器人路径规划方法,其特征在于:所述奖励函数分为位置奖励函数和方向奖励函数,并根据位置奖励函数和方向奖励函数计算得到总的奖励函数。
5.根据权利要求4所述的基于DM-DQN的移动机器人路径规划方法,其特征在于,在所述位置奖励函数中,首先使用引力势场函数构建目标引导奖励函数:
其中,ζ表示引力奖励函数常数,dgoal表示当前位置到目标点之间的距离;
其次,使用斥力势场函数构建避障奖励函数:
其中,η表示斥力奖励函数常数,dobs表示当前位置到障碍物之间的距离,dmax表示障碍物的最大影响距离。
6.根据权利要求4所述的基于DM-DQN的移动机器人路径规划方法,其特征在于,所述方向奖励函数是根据机器人预期方向和实际方向之间的角度差表示,角度差公式为:
其中,Fq表示预期方向,Fa表示实际方向,表示预期方向与实际方向的夹角;
方向奖励函数表示为:
7.根据权利要求4所述的基于DM-DQN的移动机器人路径规划方法,其特征在于,所述总的奖励函数表示:
其中,rgoal表示以目标点为中心的目标区域半径,robs表示以障碍物为中心的碰撞区域半径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州大学,未经常州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210673628.2/1.html,转载请声明来源钻瓜专利网。





