[发明专利]一种基于强化学习的足球机器人带球策略选择方法有效

申请号：	202010857210.8	申请日：	2020-08-24
公开（公告）号：	CN112149344B	公开（公告）日：	2023-03-28
发明（设计）人：	刘成菊;张浩;陈启军	申请（专利权）人：	同济大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06F111/06
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	叶敏华
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习足球机器人带球策略选择方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的足球机器人带球策略选择方法，其特征在于，所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上，该方法包括下列步骤：

1)构建足球机器人-球-目标位置模型；

2)判断足球机器人-球-目标位置模型是否可在动作空间进行分解，若可分解，将足球机器人-球-目标位置模型分解为多个独立智能体，获取共用同一状态空间且具有不同速度空间的多个独立学习者，并对每个独立学习者分别设置奖励函数；

3)对每个独立学习者，构建基于SARSA(λ)的强化学习模型，并采用RBF网络对动作价值进行近似处理；

4)分别对各个独立学习者进行训练，同时采用频率调整学习方法使其得到同步收敛，获取完整模型，完成带球策略选择；

所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α，足球机器人与球之间的距离ρ，以及足球机器人-球-目标角度的补角β作为状态参数，所述足球机器人-球-目标位置模型以足球机器人的速度向量[V_x,V_y,V_z]为动作参数， V_x、V_y、V_z分别为足球机器人在X、Y、Z三个维度方向运动的速度，所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标；

步骤3)中，构建的基于SARSA(λ)的强化学习模型的表达式为：

δ＝r+γQ(s',a')-Q(s,a)

式中：为每个动作的学习步长，s,a为当前环境下的状态动作对，s′,a′为更新λ步之后的状态动作对，r为智能体接受奖惩值，E(s,a)为资格迹，Q(s,a)为动作价值，δ为临时参数；

引入RBF网络参数θ对智能体m的动作价值进行估计，则更新表达式为：

δ←r^m+γQ^m(s′,a′)-Q^m(s,a)

式中：为智能体m对应的动作a的网络参数，/为智能体m的特征值，r^m是智能体m接受的奖惩值，δ为临时参数，Q^m(s,a)为智能体m在状态动作对s,a下的动作价值，E^m(s,a)为智能体m的资格迹，

步骤4)中，采用频率调整学习方法对各个独立学习者得到同步收敛的具体内容为：

41)采用softmax选择由动作价值Q(s,a)得到动作a的概率分布：

式中，τ为用以调整动作选择概率的间距的人工系数，a为动作；

42)对于每个状态s，选择概率P(s,a)中最大值Pa^＊对应的动作a^＊执行，然后在更新时调整每个动作的学习步长来补偿频率差异，即当时，将Q值更新为：

当时，将Q值更新保持为：

式中，为用以改变频率调整学习的子空间的大小的人工参数。