[发明专利]一种基于深度强化学习的六足机器人实时步态规划方法在审

申请号：	201710763223.7	申请日：	2017-08-30
公开（公告）号：	CN107450555A	公开（公告）日：	2017-12-08
发明（设计）人：	唐开强;刘佳生;洪俊;孙建;侯跃南;钱勇;潘东旭	申请（专利权）人：	唐开强
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	南京天翼专利代理有限责任公司32112	代理人：	于忠洲
地址：	210000 江苏省南京***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习机器人实时步态规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种六足机器人实时步态规划的方法，尤其是一种基于深度强化学习的六足机器人实时步态规划方法。

背景技术

机器人技术是材料学、机构学、仿生学、机电一体化技术、控制技术、传感器技术、人工智能等学科的高度集成，是国家工业发展水平和科技实力的重要体现。自主完成步态规划的多足仿生机器人是高度智能化的移动机器人，能够对外界环境的自主学习和完成步态规划。路况环境复杂多样，六足机器人传统预先编程的步态规划方法存在很大的局限性。为了提高六足机器人的环境适应能力，六足机器人需要完成各种基本的作业任务比如整体移动导航、质心移动轨迹规划和落脚点选取的功能。通过多足机器人融合卫星导航和多传感器的信息来进行机器学习(如深度学习和强化学习)，与外界环境进行交互，特别是如何在经验学习中改善目标的性能，实现其感知、决策和行动等各项功能。六足机器人的相关研究一直备受各国专家学者的关注，但是如何提高六足机器人在非结构环境下的移动能力仍然是个悬而未决的课题。

发明内容

本发明要解决的技术问题是现有的六足机器人步态规划技术无法适应复杂的地形环境、以及远距离自主步行和终点位置不固定的情况。

为了解决上述技术问题，本发明提供了一种基于深度强化学习的六足机器人实时步态规划方法，包括如下步骤：

步骤1，由六足机器人通过卫星地图获取环境路况信息，并根据环境路况信息制定整体运动轨迹；

步骤2，六足机器人利用安装在机身上的摄像头获取周边环境照片，再根据周边环境照片利用双目测距方法计算出运动轨迹的目标位置信息，并由六足机器人根据运动轨迹的目标位置信息规划出机器人质心运动轨迹；

步骤3，六足机器人根据机器人质心运动轨迹进行移动，并在机器人腿的足端摆动空间范围内，利用安装在机身上的摄像头拍摄路况环境照片，并通过预先训练过的基于DDPG的深度强化学习网络来对路况环境照片进行数据降维和特征提取；

步骤4，六足机器人根据数据降维和特征提取结果得出六足机器人的控制策略，并根据控制策略来控制六足机器人每个关节驱动机构完成关节自由度运动，从而实现六足机器的实时步态规划行走。

作为本发明的进一步限定方案，步骤2中根据照片利用双目测距方法计算出运动轨迹的实时位置信息的具体步骤为：

步骤2.1，获取摄像头的焦距f、左右两个摄像头的中心距T_x以及路况中运动轨迹上的目标点在左右两个摄像头的像平面的投影点到各自像平面最左侧的物理距离x^l和x^r，左右两个摄像头对应的左侧的像平面和右侧的像平面均为矩形平面，且位于同一成像平面上，左右两个摄像头的光心投影分别位于相应像平面的中心处，即O_l、O_r在成像平面的投影点，则视差d为：

d＝x^l-x^r (1)

步骤2.2，利用三角形相似原理建立Q矩阵为：

式(2)和(3)中，(X,Y,Z)为目标点在以左摄像头光心为原点的立体坐标系中的坐标，W为旋转平移变换比例系数，(x,y)为目标点在左侧的像平面中的坐标，c_x和c_y分别为左侧的像平面和右侧的像平面的坐标系与立体坐标系中原点的偏移量，c_x'为c_x的修正值；

步骤2.3，计算得到目标点到成像平面的空间距离为：

将左摄像头的光心所在位置作为机器人所在位置，将目标点的坐标位置信息(X,Y,Z)作为运动轨迹的目标位置信息。

作为本发明的进一步限定方案，步骤3中通过预先训练过的基于DDPG的深度强化学习网络来对路况环境照片进行数据降维和特征提取的具体步骤为：

步骤3.1，利用目标足端自主选择落脚点过程符合强化学习且满足马尔科夫性质的条件，计算t时刻之前的观察量和动作的集合为：

s_t＝(x₁,a₁,...,a_t-1,x_t)＝x_t (5)

式(5)中，x_t和a_t分别为t时刻的观察量以及所采取的动作；

步骤3.2，利用策略值函数来描述足端自主选择落脚点过程的预期收益为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载