[发明专利]一种机器人的控制信号确定方法、装置及存储介质有效
申请号: | 202110347399.0 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113134834B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 张春良;翁润庭;王明;朱厚耀;朱健业;岳夏;王晨 | 申请(专利权)人: | 广州大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器人 控制 信号 确定 方法 装置 存储 介质 | ||
本发明公开了一种机器人的控制信号确定方法、装置及存储介质,本发明通过获取机器人的第一状态,将第一状态输入评价网络,得到第一输出结果,将第一输出结果输入动作网络,得到第二输出结果,使得第一网络参数所确定的第一输出结果能够基于期望状态确定一个有效的评分,使得基于评分得到的第二输出结果为能够对机器人进行快速有效控制的输出结果;而根据第二输出结果与信号输出阈值,确定控制信号,能够使得最终确定的控制信号在用于对机器人进行控制时,机器人能够在最大限度上作出最佳的动作,以最快的速度到达目的位置。本发明可广泛应用于机器人技术领域。
技术领域
本发明涉及机器人技术领域,尤其是一种机器人的控制信号确定方法、装置及存储介质。
背景技术
现今,随着科学技术的发展机器人技术得到快速发展,机器人的引用领域也越来越广泛,例如巡逻、生产线、灭火等等。例如具有灭火功能的机器人,为了减少着火带来的危险和损失,需要对机器人进行控制使得机器人能够以最快的速度到达着火点的位置进行灭火,因此如何确定对机器人的控制信号,以使得机器人能够在最大限度上作出最佳的动作,以最快的速度到达目的位置至关重要。
发明内容
有鉴于此,为了解决上述技术问题,本发明的目的是提供一种机器人的控制信号确定方法、装置及存储介质。
本发明采用的技术方案是:
一种机器人的控制信号确定方法,包括:
获取机器人的第一状态;
将所述第一状态输入评价网络,得到第一输出结果;所述第一输出结果根据所述评价网络的第一网络参数确定,所述第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定;
将所述第一输出结果输入动作网络,得到第二输出结果;所述第二输出结果根据所述动作网络的第二网络参数确定,所述第二网络参数根据所述第一网络参数以及所述训练状态进行训练确定;
根据所述第二输出结果与信号输出阈值,确定控制信号。
进一步,所述第一网络参数的确定过程包括:
获取训练状态;
计算所述训练状态与所述期望状态的第一误差;
根据所述第一误差与预设误差阈值,确定性能指标;
根据所述性能指标、第一误差函数以及评价函数确定第二误差;所述评价函数基于第三网络参数确定;
根据所述第二误差对所述第三网络参数进行更新;
根据更新后的所述第三网络参数,确定所述第一网络参数。
进一步,所述根据所述第一误差与预设误差阈值,确定性能指标,包括:
当所述第一误差小于等于所述预设误差阈值,确定所述性能指标为第一数值,否则确定所述性能指标为第二数值;所述第二数值大于所述第一数值。
进一步,所述根据所述第二误差对所述第三网络参数进行更新,包括:
根据所述第二误差确定代价函数;
根据所述代价函数对所述第三网络参数进行求导处理,得到求导结果;
计算所述求导结果与评价网络的第一学习率的乘积;
根据所述第三网络参数与所述乘积的差值对所述第三网络参数进行更新。
进一步,所述第二网络参数的确定过程包括:
获取训练状态并根据训练状态确定输入状态;
根据第四网络参数与预设理想网络参数确定估计误差;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110347399.0/2.html,转载请声明来源钻瓜专利网。