[发明专利]基于强化学习的无人机知识模型分时调用方法及装置有效
申请号: | 202211344077.1 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115470894B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 张驭龙;冯旸赫;陈丽;刘忠;徐越;李敏;张龙飞;梁星星;刘昀;阳方杰 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N5/02;G05B13/04 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 彭小兰 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 无人机 知识 模型 分时 调用 方法 装置 | ||
本申请涉及一种基于强化学习的无人机知识模型分时调用方法及装置。所述方法包括:利用无人机知识模型在预先设置的周期内对目标区域执行任务,对所有无人机知识模型的环境及时反馈值进行计算,根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,根据更新后的神经网络对不同时刻的无人机知识模型进行评估,利用得到的不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。采用本方法能够提高无人机工作效率。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质。
背景技术
随着无人机技术的发展和对无人机的深入研究,无人机技术的不断发展,无人机在航拍、农业、快递运输、灾难救援、野生动物观测、传染病监控、测绘、新闻报道、电力巡检、救灾、影视拍摄等诸多领域有着广泛的应用。随着无人机平台功能的不断增强、应用场景需求不断增加,无人机需要根据场景切换不同的工作模式,以实现不同功能并提高工作效率。
然而,目前的无人机工作模式切换的方法,存在效率低下、准确率低等问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高无人机工作效率的基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质。
一种基于强化学习的无人机知识模型分时调用方法,所述方法包括:
获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;
利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,得到更新后的神经网络;
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
在其中一个实施例中,对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
其中,表示环境及时反馈值,表示预先设置的周期,表示周期内的任意时刻,表示在
在其中一个实施例中,根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
其中,表示当前时刻环境中的态势信息,表示多步时长状态转移概率,表示下一时刻环境中的态势信息,表示下一时刻选择的无人机知识模型,表示在当前时刻的态势信息的评估值,表示当前态势信息下选择的知识模型的评估值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211344077.1/2.html,转载请声明来源钻瓜专利网。