[发明专利]一种基于强化学习的足球机器人带球策略选择方法有效
| 申请号: | 202010857210.8 | 申请日: | 2020-08-24 |
| 公开(公告)号: | CN112149344B | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 刘成菊;张浩;陈启军 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F111/06 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 叶敏华 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 足球 机器人 带球 策略 选择 方法 | ||
1.一种基于强化学习的足球机器人带球策略选择方法,其特征在于,所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,该方法包括下列步骤:
1)构建足球机器人-球-目标位置模型;
2)判断足球机器人-球-目标位置模型是否可在动作空间进行分解,若可分解,将足球机器人-球-目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;
3)对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;
4)分别对各个独立学习者进行训练,同时采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择;
所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α,足球机器人与球之间的距离ρ,以及足球机器人-球-目标角度的补角β作为状态参数,所述足球机器人-球-目标位置模型以足球机器人的速度向量[Vx,Vy,Vz]为动作参数, Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标;
步骤3)中,构建的基于SARSA(λ)的强化学习模型的表达式为:
δ=r+γQ(s',a')-Q(s,a)
式中:为每个动作的学习步长,s,a为当前环境下的状态动作对,s′,a′为更新λ步之后的状态动作对,r为智能体接受奖惩值,E(s,a)为资格迹,Q(s,a)为动作价值,δ为临时参数;
引入RBF网络参数θ对智能体m的动作价值进行估计,则更新表达式为:
δ←rm+γQm(s′,a′)-Qm(s,a)
式中:为智能体m对应的动作a的网络参数,/为智能体m的特征值,rm是智能体m接受的奖惩值,δ为临时参数,Qm(s,a)为智能体m在状态动作对s,a下的动作价值,Em(s,a)为智能体m的资格迹,
步骤4)中,采用频率调整学习方法对各个独立学习者得到同步收敛的具体内容为:
41)采用softmax选择由动作价值Q(s,a)得到动作a的概率分布:
/
式中,τ为用以调整动作选择概率的间距的人工系数,a为动作;
42)对于每个状态s,选择概率P(s,a)中最大值Pa*对应的动作a*执行,然后在更新时调整每个动作的学习步长来补偿频率差异,即当时,将Q值更新为:
当时,将Q值更新保持为:
式中,为用以改变频率调整学习的子空间的大小的人工参数。
2.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,步骤1)中,采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。
3.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,步骤2)具体包括以下步骤:
21)确定RoboCup仿真平台的状态空间与动作空间,判断动作空间的维度是否大于1,若不是,则集中强化学习方法,若是,则将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的智能体;
22)对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和奖励函数,否则,定义总体目标及奖励函数;
23)确定各智能体的智能状态空间是否可分散,若可分散,则采用联合状态空间完善环境细节,为各智能体选择算法,否则,定义分散状态空间,完善环境细节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010857210.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速蒸汽发生装置及蒸汽烹饪设备
- 下一篇:基于HPLC台区的集采运维系统





