[发明专利]基于深度强化学习的无人机自主避障系统及方法有效

申请号：	202210195266.0	申请日：	2022-03-02
公开（公告）号：	CN114326821B	公开（公告）日：	2022-06-03
发明（设计）人：	王钦辉;陈志龙;魏军儒;何昌其;王云宪;焦萍;闫茜茜	申请（专利权）人：	中国人民解放军陆军指挥学院
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	南京冠誉至恒知识产权代理有限公司 32426	代理人：	夏恒霞
地址：	210045 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习无人机自主系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深度强化学习的无人机自主避障系统的避障方法，其特征在于，包括如下步骤：

S1、获取无人机单目摄像机采集的原始RGB图像；

S2、采用完全卷积神经网络，对原始RGB图像进行训练，获得深度信息；所述步骤S2的具体过程为：采集观察区域内像素值的加权和，卷积操作后采用非线性激活函数输出特征值；具体地，采用完全卷积神经网络FCNN学习方式进行深度信息感知，系统接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征图进行上采样, 使其恢复到与输入图像相同的尺寸，从而对每个像素都产生了一个预测，得到深度图像信息；所述FCNN每个阶段的操作均包括如下三个步骤：卷积、非线性激活、池化；

S3、基于预设离散的无人机飞行动作：线速度和角速度，采用基于策略迭代方法的强化学习方法，对深度图像进行训练，获得下一时刻无人机应采取的最优飞行动作；

所述步骤S3中的强化学习对策略进行直接迭代，用函数来近似地表示策略，其中，表示无人机的状态，状态描述用多维向量表示，包括无人机的飞行状态、飞行位置和环境信息；表示无人机的动作，包括飞行角速度和飞行线速度；表示包含可调节参数的函数，使用参数对所获得的策略进行近似；表示状态下采取动作的概率；算法的目标是最大化策略的期望收益，其中表示在当前状态下执行了动作得到的奖赏；

其中，由期望收益得到参数的更新计算方法为：，其中是微分算子；

更新Actor网络时采用剪切代理的方法，最大化，其中是Actor函数的参数，和分别表示旧策略和新策略；上述公式的前半部分是梯度更新，Actor在旧策略上，根据势修改新策略，如果势较大，则修改幅度大，使得新策略更可能发生；上述公式的后半部分包含一个惩罚项，即KL散度，用参数表示散度项的影响因子；如果新旧策略差异大，则KL散度也大，这样不利于收敛；

所述剪切代理的方法为：记，代理对象记为，剪切代理对象限制了代理的变化幅度；最终优化目标变为：，其中，表示裁剪函数，表示调节参数，表示势；

更新Critic时，最小化，其中，表示Critic函数的参数，表示带参数的状态值函数，T表示一个时间段，表示从当前时刻开始进行搜索的搜索时刻，为可变动参数；

S4、服务器得出无人机预采取的飞行动作：线速度和角速度，再反馈给无人机，无人机基于此选择飞行动作，实现自主避障。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军指挥学院，未经中国人民解放军陆军指挥学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210195266.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的无人机自主避障系统及方法有效

专利文献下载