[发明专利]多机器人强化学习协同搜索方法及系统有效

专利信息
申请号: 201711416891.9 申请日: 2017-12-25
公开(公告)号: CN107967513B 公开(公告)日: 2019-02-15
发明(设计)人: 徐雪松;陈晓红;杨胜杰;陈荣元;蒋伟进 申请(专利权)人: 徐雪松
主分类号: G06N3/00 分类号: G06N3/00
代理公司: 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人: 魏彦
地址: 410000 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请实施例提供的多机器人强化学习协同搜索方法及系统中,第一机器人判断是否搜索到目标物;若是,第一机器人根据第一公式进行Q学习,更新Q函数规则,不断优化并靠近目标物,并发出协同搜索信号;若第二机器人收到协同搜索信号,则第二机器人根据第二公式更新Q函数,并不断靠近第一机器人,同时第二机器人判断是否搜索到目标物;若是,第二机器人根据第一公式进行Q函数更新,靠近目标物。本申请提供的方法会根据f(T)以及f(T*)的阈值来判断是否进行相应的Q学习,与现有技术中直接不断进行Q学习来迭代Q值的方法相比,由于在迭代Q值之前可以先进行f(T)以及f(T*)的判断,然后在决定是否进行Q值的迭代,减少了较大的计算量。
搜索关键词: 机器人 强化 学习 协同 搜索 方法 系统
【主权项】:
1.一种多机器人强化学习协同搜索方法,其特征在于,所述方法包括:第一机器人判断是否搜索到目标物;若是,所述第一机器人根据第一公式进行Q学习并根据学习结果移动以靠近所述目标物,所述第一公式为:其中,а表示学习率,为常数,为t+1时刻,第i个机器人所处联合状态空间状态,为当前第i个机器人所采用的联合行动,为t+1时刻的学习规则,通过采用策略实现联合状态空间到联合动作空间的一个映射,为个体发生触发响应前t‑l时刻的学习规则,l表示个体响应触发和当前时刻的差值,为第i个机器人t+1时刻的即时回报,其中,γ∈[0,1],代表折扣因子,所述第一公式包括f(T),所述f(T)根据公式获得,其中,Tik以距离个体与目标距离d成反比的函数,表示为单位i机器人检测到目标信号k的强度;mk为群机器人中共同搜索目标信号k的数量,θik为第i个机器人对检测信号的响应阈值,η为距离响应调节参数,用于控制个体对信号敏感度,d*ik表示当前机器人i检测到最强目标信号k时的距离;若f(T)超过第一阈值,所述第一机器人发出协同搜索信号;若第二机器人收到所述协同搜索信号,则所述第二机器人根据第二公式进行Q学习并根据学习结果移动以靠近所述第一机器人,所述第二公式为:其中,β表示学习率,为常数,为t+1时刻,第i个机器人所处联合状态空间状态,为当前第i个机器人所采用的联合行动,为t+1时刻的学习规则,通过采用策略实现联合状态空间到联合动作空间的一个映射,为个体发生触发响应前t‑l时刻的学习规则,l表示个体响应触发和当前时刻的差值,为第i个机器人t+1时刻的即时回报,其中,γ∈[0,1],代表折扣因子,所述第二公式包括f(T*),所述f(T*)根据公式获得,其中,Tjk以距离个体与目标距离d成反比的函数,表示为单位j机器人检测到目标信号k的强度;mk为群机器人中共同搜索目标信号k的数量,θjk为第j个机器人对检测信号的响应阈值,η为距离响应调节参数,用于控制个体对信号敏感度,d*jk表示当前机器人j检测到最强目标信号k时的距离,同时所述第二机器人判断是否搜索到所述目标物;若是,且所述第二机器人判断f(T)大于f(T*),则所述第二机器人根据所述第一公式进行Q学习并根据学习结果移动以靠近所述目标物。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐雪松,未经徐雪松许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711416891.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top