[发明专利]一种基于改进DQN算法的室内巡逻机器人自主导航方法在审

申请号：	202210020980.6	申请日：	2022-01-10
公开（公告）号：	CN114706379A	公开（公告）日：	2022-07-05
发明（设计）人：	毛树人;郑剑锋;周海翔;吴振裕;孔鹏程	申请（专利权）人：	常州大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	常州市英诺创信专利代理事务所(普通合伙) 32258	代理人：	杨闯
地址：	213164 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进 dqn 算法室内巡逻机器人自主导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及DQN算法技术领域，尤其涉及一种基于改进DQN算法的室内巡逻机器人自主导航方法，包括S1、巡逻机器人感知自身周围的环境信息，并结合自身的位置信息和将到达的目标点组成一个状态空间，在状态空间中依次设置若干目标点，并作为DQN算法的输入；S2、对DQN算法的目标函数进行改进，使目标点不断变起始点，直到最后一个目标点；S3、通过对奖惩函数r进行改进，提高DQN算法收敛速度。本发明对DQN算法进行改进，避免算法陷入死循环的问题；将机器人行驶的路径分段化，大大减少了DQN算法的迭代次数；通过改进奖惩函数，使DQN算法收敛速度加快，从而完成室内巡逻机器人自主导航的任务。

技术领域

本发明涉及DQN算法技术领域，尤其涉及一种基于改进DQN算法的室内巡逻机器人自主导航方法。

背景技术

传统的安防体系是“人防+物防”来实现。可随着人口老龄化加重、劳动力成本飙升、安保人员流失率高等问题，已经难以适应现代安防需求，安防巡逻机器人产业迎来新的发展契机。安防巡逻机器人还处于起步阶段，但巨大的安防市场需求下，其发展潜力和未来前景广阔。由于深度强化学习中的深度Q 网络(deep Q network/DQN)算法在Q-learning的基础上利用神经网络进行融合，从而克服因Q-learning存储数据消耗的内存过大而导致的“维数灾难”问题的缺陷，使得搜索过程不断收敛，最终逼近最优解，已经被广泛应用于解决机器人的自主导航问题中；而室内巡逻机器人又与普通机器人不同，它们的巡逻路径相对统一，且当路径中有障碍出现应优先避开障碍。

Mnih等提出第一个深度强化学习模型，即深度Q网络(DQN)，该网络模型是将神经网络和Q-learning相结合，利用神经网络代替Q值表解决了 Q-learning中的维数灾难问题，但在网络训练时收敛速度较慢；TaiL等把DQN应用到了无模型避障的路径规划中，但存在状态-动作值过估计问题，造成移动机器人获得的奖惩稀疏，且规划出的路径并非最优。

传统的路径规划算法有A*算法、人工势场法以及快速扩展随机树法等。A* 算法有着目标点不可达时会造成大量性能消耗的特点；人工势场法的路径一般是平滑、安全的，但该方法存在局部最优点问题，容易陷入局部极小点，在相似的障碍物之间找不到路径，检测到新的环境障碍物后，人工势场法规划的路径可能发生振荡，在狭窄通道中摆动，快速扩展随机树法的一个弱点是难以在有狭窄通道的环境找到路径。

发明内容

为了克服上述现有技术的不足，本发明所采用的技术方案是：一种基于改进DQN算法的室内巡逻机器人自主导航方法包括以下步骤：

S1、巡逻机器人感知自身周围的环境信息，并结合自身的位置信息和将到达的目标点组成一个状态空间，在状态空间中依次设置若干目标点，并作为DQN 算法的输入，巡逻机器人从起始点出发；

巡逻机器人巡逻方式为按照规定环状路径巡逻，当规定的环状路径中突然出现障碍物时，巡逻机器人必须优先避障，其次才应该按照规定路径进行巡逻；

S2、通过对DQN算法的目标函数进行改进，巡逻机器人以当前位置和速度作为下一步动作的输出，当到达第一目标点后，以第一个目标点为起始点寻找下一个目标点，当机器人达到下一个目标点时即完成此段路径行走，依次不断循环，直至找到最后一个目标点，最后一个目标点即起点；

以有边界环状路线为巡逻机器人的行进路线，巡逻机器人在规定路线有限制条件的环境下朝向目标点运行的过程且最终能回到出发点，从而完成移动机器人的自主导航任务；

DQN算法结合神经网络和Q-learning，神经网络需要对Q表进行建模，Q-learning利用马尔科夫决策进行建模，采用马尔科夫决策中的当前状态、动作、奖惩、策略、下一步动作进行表示；DQN为了提高机器人的样本关联性和解决机器人的效率利用问题引入了经验回放机制，并利用目标Q值的唯一性来提高动作更新的平稳性；DQN包括建立目标函数、目标网络和引入经验回放这三个步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于常州大学，未经常州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210020980.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于大数据的农贸市场订单智能处理系统
下一篇：一种用于线缆破损的防护机构以及电缆

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于改进DQN算法的室内巡逻机器人自主导航方法在审

专利文献下载