[发明专利]基于深度强化学习的无人机自主避障系统及方法有效

专利信息
申请号: 202210195266.0 申请日: 2022-03-02
公开(公告)号: CN114326821B 公开(公告)日: 2022-06-03
发明(设计)人: 王钦辉;陈志龙;魏军儒;何昌其;王云宪;焦萍;闫茜茜 申请(专利权)人: 中国人民解放军陆军指挥学院
主分类号: G05D1/10 分类号: G05D1/10
代理公司: 南京冠誉至恒知识产权代理有限公司 32426 代理人: 夏恒霞
地址: 210045 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 强化 学习 无人机 自主 系统 方法
【权利要求书】:

1.基于深度强化学习的无人机自主避障系统的避障方法,其特征在于,包括如下步骤:

S1、获取无人机单目摄像机采集的原始RGB图像;

S2、采用完全卷积神经网络,对原始RGB图像进行训练,获得深度信息;所述步骤S2的具体过程为:采集观察区域内像素值的加权和,卷积操作后采用非线性激活函数输出特征值;具体地,采用完全卷积神经网络FCNN学习方式进行深度信息感知,系统接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图进行上采样, 使其恢复到与输入图像相同的尺寸,从而对每个像素都产生了一个预测,得到深度图像信息;所述FCNN每个阶段的操作均包括如下三个步骤:卷积、非线性激活、池化;

S3、基于预设离散的无人机飞行动作:线速度和角速度,采用基于策略迭代方法的强化学习方法,对深度图像进行训练,获得下一时刻无人机应采取的最优飞行动作;

所述步骤S3中的强化学习对策略进行直接迭代,用函数来近似地表示策略,其中,表示无人机的状态,状态描述用多维向量表示,包括无人机的飞行状态、飞行位置和环境信息;表示无人机的动作,包括飞行角速度和飞行线速度;表示包含可调节参数的函数,使用参数对所获得的策略进行近似;表示状态下采取动作的概率;算法的目标是最大化策略的期望收益,其中表示在当前状态下执行了动作得到的奖赏;

其中,由期望收益得到参数的更新计算方法为:,其中 是微分算子;

更新Actor网络时采用剪切代理的方法,最大化,其中是Actor函数的参数,和分别表示旧策略和新策略;上述公式的前半部分是梯度更新,Actor在旧策略上,根据势修改新策略,如果势较大,则修改幅度大,使得新策略更可能发生;上述公式的后半部分包含一个惩罚项,即KL散度,用参数表示散度项的影响因子;如果新旧策略差异大,则KL散度也大,这样不利于收敛;

所述剪切代理的方法为:记,代理对象记为,剪切代理对象限制了代理的变化幅度;最终优化目标变为:,其中,表示裁剪函数,表示调节参数,表示势;

更新Critic时,最小化,其中,表示Critic函数的参数,表示带参数的状态值函数,T表示一个时间段,表示从当前时刻开始进行搜索的搜索时刻,为可变动参数;

S4、服务器得出无人机预采取的飞行动作:线速度和角速度,再反馈给无人机,无人机基于此选择飞行动作,实现自主避障。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军指挥学院,未经中国人民解放军陆军指挥学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210195266.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top