[发明专利]一种不完全感知环境下的机器人kNN路径规划方法在审

申请号：	201210455666.7	申请日：	2012-11-05
公开（公告）号：	CN102929281A	公开（公告）日：	2013-02-13
发明（设计）人：	江虹;黄玉清;李强;秦明伟;李小霞;张晓琴;石繁荣	申请（专利权）人：	西南科技大学
主分类号：	G05D1/02	分类号：	G05D1/02;G05B13/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	621010 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种不完全感知环境机器人 knn 路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种适用于不完全感知环境下的机器人kNN路径规划方法，其特征在于：POMDP模型建立，POMDP模型求解、迭代模型构建三个步骤：

(a)POMDP模型建立：采用栅格地图将机器人规划环境划分为小栅格，每个小栅格单元对应POMDP模型状态集S中的一个状态s，动作集A有东(East)、西(West)、南(South)、北(North)四个动作，机器人可以在下一时刻处于相邻4个无障碍栅格单元之一，机器人到达目标状态可获得回报值0，其它情况回报值均为-1，在机器人与环境交互中，转换概率设置为以较大概率正确执行最优策略选择的动作，以较小概率滑向该动作的左右两侧；

(b)POMDP模型求解：机器人求解最优策略需要所经历的动作与观测状态的历史信息，历史信息可以利用信念状态(Belief State)来取代，信念状态b(s)为状态集S上的一个概率分布，求解时以信念状态代替状态，POMDP问题转化为基于信念状态的MDP问题，动作选择策略π转化为由信念状态到动作的映射：π(b)→a，在最优策略π*下，所有信念状态的折扣累积奖赏值组成最优值函数Q(b，a)；

(c)迭代模型构建：机器人设置起始位置与目标位置后，利用基于强化学习算法的机器人路径规划方法，强化学习算法给每个(s，a)定义了一个状态-动作值函数Q，即机器人在当前状态选择某一动作更新到下一状态时获得的折算累积回报值，动作选择策略依据该Q值选择最优动作，以使累积回报值最大，迭代学习算法的具体步骤如下：

Step1：初始化

初始化状态-动作值函数表Q Table，对Q(s，a)、资格迹e(s，a)、初始信念状态b(s)，参数k、学习因子α，以及随机动作选择概率值ε赋初始值，

Step 2：获取当前状态s_t及其k个最近邻状态的信念状态集B

1)将机器人的起始位置作为当前状态s_t；

2)计算s_t与状态集S中欧氏距离最小的k个状态构成的状态集knn；

3)计算状态集knn中各个状态的信念状态值b_t(s)：b_t(s)＝1/(|S|)，

Step3：获取信念状态值函数

信念状态b_t(s)对应的值函数由下式计算：

Q(b,a)=Σi∈knnQ(i,a)b(i)]]>

即Q(s，a)表中当前状态s_t的k最近邻集knn中所有状态值函数Q(i，a)与信念状态b(i)乘积之和，

Step4：选择动作

依据ε-greedy动作选择策略选择动作：

π(a)=argmaxaΣs∈SQ(s,a)b(s)(U≥ϵ)rand(a)(U<ϵ)]]>

其中，U为(0，1)之间均匀分布的随机数，概率值ε在每个学习周期(Episode)中以0.99倍的速率衰减，即在学习周期的初始阶段以较大的概率选择随机动作，避免算法陷入局部最优；随着Q值有效信息的增加，ε逐渐降低，保证了算法收敛性，

Step5：执行动作

执行动作a_t后转换到新状态s_t+1，同时获得观测状态z及回报值R，

Step6：计算回报值R

机器人执行了动作a_t后到达新位置，判断该位置是否为目标位置，如果不是，则获得回报值-1，执行Step7；否则，获得回报值0，执行Step10，

Step 7：获取下一状态s_t+1对应的信念状态集B′

1)计算s_t+1与状态集S中欧氏距离最小的k个状态构成的状态集knn′，

2)计算状态集knn′中各个状态的信念状态值b_t+1(s′)：

bt+1(s′)=O(s′,a,z)Σs∈ST(s,a,s′)bt(s)Σs′∈SO(s′,a,z)Σs∈ST(s,a,s′)bt(s).]]>

3)重复执行Step3-Step4，

Step8：更新

1)资格迹按下式定义：

e(s,j)=b(s)j=a,0j≠a.(s∈knn).]]>

2)对机器人所处状态的所有k最近邻状态的状态-动作值函数Q(i，a)进行更新：

Δqa(s)=α(r+γmaxa′Q(b′,a′)-Q(s,a)b(s))e(s,a),(s∈knn)]]>

Q_t+1(s，a)＝Q_t(s，a)+Δq_a(s)(s∈knn)

3)s_t＝s_t+1，a_t＝a_t+1，knn＝knn′，e_t+1＝γλe_t，b_t(s)＝b_t+1(s′)，

Step9：转向Step5，

Step10：一次迭代学习过程结束，转到Step 2进入下一个迭代学习过程，直到Q值收敛到最优或近似最优。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西南科技大学，未经西南科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210455666.7/1.html，转载请声明来源钻瓜专利网。

上一篇：用于免大盘轮胎拆装机增压传动锁紧机构的旋转气缸
下一篇：一种风机叶轮

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种不完全感知环境下的机器人kNN路径规划方法在审

专利文献下载