[发明专利]一种基于环境交互的机器人实时控制方法有效
申请号: | 201710492773.X | 申请日: | 2017-06-26 |
公开(公告)号: | CN107292344B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 朱斐;朱海军;伏玉琛;刘全;陈冬火 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;B25J9/16 |
代理公司: | 苏州简理知识产权代理有限公司 32371 | 代理人: | 朱亦倩 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 环境 交互 机器人 实时 控制 方法 | ||
1.一种基于环境交互的机器人实时控制方法,其特征在于:通过影像采集设备采集视频数据,获得机器人当前的状态信息,该状态信息通过以太网传输到后台服务器,所述后台服务器内安装有实时控制软件程序,由实时控制软件程序计算出机器人下一步应该执行的动作,该动作的控制信息再通过以太网传回给机器人,控制机器人执行动作;其中,所述实时控制软件程序是K-means聚类算法和基于ε-Greedy贪心策略的核方法的结合,计算出机器人基于环境交互的实时动作;
所述基于ε-Greedy贪心策略的核方法,其计算值函数为:其中:s表示状态,a表示执行动作,(s,a)表示状态动作对,k为向量,D为初始化数据字典,θ为值函数参数;向量其中(si,ai)∈D,β((s,a),(si,ai))是一个指示函数,当状态动作对(s,a)与(si,ai)存在一定关系,则β((s,a),(si,ai))=1;否则等于0;
所述执行动作a的最短路径为δl,是数据字典D中样本离状态动作对(s,a)最短的距离,δl=k((s,a),(s,a))+k((si,ai),(si,ai))-2k((s,a),(si,ai)),当δlμ3时,将数据(s,a)加入数据字典D,同时更新向量k(s',a'),资格迹e以及值函数参数θ;更新否则Qs,a等于Qs′,a′,μ3为预设范围;
所述K-means聚类算法和基于ε-Greedy贪心策略的核方法的结合方法是:
⑴根据需要执行的动作a,随机设定N个完成该动作的路径样本,然后通过K-means聚类算法在N个样本中选择其中K个接近聚类中心的样本点,并初始化数据字典D;
⑵利用ε-Greedy贪心策略的探索方法,在上述K个样本点中,分别执行动作a,收集到相应的环境反馈状态s′以及下一个执行动作a′,并记录执行动作后获得的奖赏值r,一并汇总为Q值表,同时该Q值表内的数据将被每一次的尝试数据所更新;
⑶根据Q值表中的记录数据,找出完成所述执行动作a的最短路径δl,即为适合的控制方式,传送给所述机器人。
2.根据权利要求1所述的基于环境交互的机器人实时控制方法,其特征在于:所述步骤⑴中,N个路径样本为所述K个接近聚类中心的样本点为每个样本点距离中心点的距离小于μ1,μ1为预设阈值。
3.根据权利要求1所述的基于环境交互的机器人实时控制方法,其特征在于:所述步骤⑵中的奖赏值r为,当执行动作a走的路径越短,为立即奖赏参数r加入奖励值,相反则为立即奖赏参数r减去惩罚值,根据奖赏参数r的数值大小,帮助ε-Greedy贪心策略选择最有可能成为适合的路径进行尝试。
4.根据权利要求1所述的基于环境交互的机器人实时控制方法,其特征在于:所述ε-Greedy贪心策略在与Q值表参数结合确定环境反馈状态s′以及下一个执行动作a′时,随机选择一个0~1的实数ε作为探索因子,计算得到所有可行动作的个数m,然后以ε/m的概率等概率地在可行动作集合中随机选择一个可行动作,或者以1-ε的概率选择,到当前为止情况下,Q值表中最大的Q值所对应的动作;所述可行动作为完成所述执行动作a可采用的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710492773.X/1.html,转载请声明来源钻瓜专利网。