[发明专利]一种基于强化学习的足球机器人带球策略选择方法有效
| 申请号: | 202010857210.8 | 申请日: | 2020-08-24 |
| 公开(公告)号: | CN112149344B | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 刘成菊;张浩;陈启军 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F111/06 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 叶敏华 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 足球 机器人 带球 策略 选择 方法 | ||
本发明涉及一种基于强化学习的足球机器人带球策略选择方法,足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,方法步骤包括:构建足球机器人‑球‑目标位置模型;将足球机器人‑球‑目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;对各个独立学习者进行训练,采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择。与现有技术相比,本发明具有使机器人的带球过程更快速,对球更具掌控性,提升收敛性等优点。
技术领域
本发明涉及足球机器人运动技术领域,尤其是涉及一种基于强化学习的足球机器人带球策略选择方法。
背景技术
在RoboCup标准平台组比赛中,带球是一种复杂的行为,在此期间,机器人球员试图以非常受控的方式操纵球,同时朝向期望的目标移动。对于双足机器人,需要考虑球,机器人和地面之间的相互作用,以得到前向,横向和转动三个方向上的速度,这使得该任务具有高度动态的和非线性的特征。由此,目前的技术方案中,带球行为大多通过定速度、定角度去控制球,也就是说,机器人以预先给定好的速度去与球进行交互,无论机器人,足球,目标点三者之间呈何种关系,机器人总以给定的转角速度和横向移动的速度调整至三点一线,然后带球去往目标点,整个过程中,速度始终为恒定值,在整个带球过程中,三个方向的速度并不能更改,也没有进行协调。目前的技术方案既不能保证最快地将球带往目标点,也不能保证在整个过程中始终将球控制在合适的距离内。此外,目前技术方案中大多采用将球场分割化的方式为足球机器人建立状态空间,这样巨大的状态空间需要大量的内存及计算单元,影响足球机器人的运行速度,且无法对不同状态空间下选用不同的策略,适用不够灵活。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的足球机器人带球策略选择方法,该方法通过将强化学习引入足球机器人带球策略选择中,将三个维度的运动分解为三个独立学习者,再使用频率调整学习方法使三个智能体同步收敛,既能够动态进行速度调整,也避免了强化学习维度过高难以收敛的问题。
本发明的目的可以通过以下技术方案来实现:
一种基于强化学习的足球机器人带球策略选择方法,所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,该方法具体包括如下步骤:
S1:采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。
所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α,足球机器人与球之间的距离ρ,以及足球机器人-球-目标角度的补角β作为状态参数,所述足球机器人-球-目标位置模型以足球机器人的速度向量[Vx,Vy,Vz]为动作参数,,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标。
S2:判断足球机器人-球-目标位置模型是否可在动作空间进行分解,若可分解,将足球机器人-球-目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;具体步骤包括:
21)确定RoboCup仿真平台的状态空间与动作空间,判断动作空间的维度是否大于1,若不是,则集中强化学习方法,若是,则将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的智能体;
22)对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和奖励函数,否则,定义总体目标及奖励函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010857210.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速蒸汽发生装置及蒸汽烹饪设备
- 下一篇:基于HPLC台区的集采运维系统





