[发明专利]基于深度强化学习的无人机自主避障系统及方法有效
申请号: | 202210195266.0 | 申请日: | 2022-03-02 |
公开(公告)号: | CN114326821B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 王钦辉;陈志龙;魏军儒;何昌其;王云宪;焦萍;闫茜茜 | 申请(专利权)人: | 中国人民解放军陆军指挥学院 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 南京冠誉至恒知识产权代理有限公司 32426 | 代理人: | 夏恒霞 |
地址: | 210045 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 无人机 自主 系统 方法 | ||
1.基于深度强化学习的无人机自主避障系统的避障方法,其特征在于,包括如下步骤:
S1、获取无人机单目摄像机采集的原始RGB图像;
S2、采用完全卷积神经网络,对原始RGB图像进行训练,获得深度信息;所述步骤S2的具体过程为:采集观察区域内像素值的加权和,卷积操作后采用非线性激活函数输出特征值;具体地,采用完全卷积神经网络FCNN学习方式进行深度信息感知,系统接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图进行上采样, 使其恢复到与输入图像相同的尺寸,从而对每个像素都产生了一个预测,得到深度图像信息;所述FCNN每个阶段的操作均包括如下三个步骤:卷积、非线性激活、池化;
S3、基于预设离散的无人机飞行动作:线速度和角速度,采用基于策略迭代方法的强化学习方法,对深度图像进行训练,获得下一时刻无人机应采取的最优飞行动作;
所述步骤S3中的强化学习对策略进行直接迭代,用函数来近似地表示策略,其中,表示无人机的状态,状态描述用多维向量表示,包括无人机的飞行状态、飞行位置和环境信息;表示无人机的动作,包括飞行角速度和飞行线速度;表示包含可调节参数的函数,使用参数对所获得的策略进行近似;表示状态下采取动作的概率;算法的目标是最大化策略的期望收益,其中表示在当前状态下执行了动作得到的奖赏;
其中,由期望收益得到参数的更新计算方法为:,其中 是微分算子;
更新Actor网络时采用剪切代理的方法,最大化,其中是Actor函数的参数,和分别表示旧策略和新策略;上述公式的前半部分是梯度更新,Actor在旧策略上,根据势修改新策略,如果势较大,则修改幅度大,使得新策略更可能发生;上述公式的后半部分包含一个惩罚项,即KL散度,用参数表示散度项的影响因子;如果新旧策略差异大,则KL散度也大,这样不利于收敛;
所述剪切代理的方法为:记,代理对象记为,剪切代理对象限制了代理的变化幅度;最终优化目标变为:,其中,表示裁剪函数,表示调节参数,表示势;
更新Critic时,最小化,其中,表示Critic函数的参数,表示带参数的状态值函数,T表示一个时间段,表示从当前时刻开始进行搜索的搜索时刻,为可变动参数;
S4、服务器得出无人机预采取的飞行动作:线速度和角速度,再反馈给无人机,无人机基于此选择飞行动作,实现自主避障。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军指挥学院,未经中国人民解放军陆军指挥学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210195266.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卫星气体数据补全方法和系统
- 下一篇:一种鳙鱼的水槽养殖方法