[发明专利]基于自适应策略优化的家庭清洁机器人控制系统有效
申请号: | 201810199176.2 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108523768B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 刘全;徐进;朱斐;周小科 | 申请(专利权)人: | 苏州大学 |
主分类号: | A47L11/00 | 分类号: | A47L11/00;A47L11/40;G06N3/04 |
代理公司: | 苏州简理知识产权代理有限公司 32371 | 代理人: | 朱亦倩 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于自适应策略优化的家庭清洁机器人控制系统,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统。本发明通过在清洁机器人的控制系统中采用自适应策略优化方法,处理来自传感系统获取的环境信息,然后选择合适的行动,并利用传感系统传递控制系统的控制信号到驱动系统和清洁系统,使清洁机器人执行对应的行动来清洁家庭环境。 | ||
搜索关键词: | 基于 自适应 策略 优化 家庭 清洁 机器人 控制系统 | ||
【主权项】:
1.一种基于自适应策略优化的家庭清洁机器人控制方法,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统,其自适应策略控制方法包括如下步骤:⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;⑶采用残差网络处理获取的环境信息,将高维度的环境视觉信息转换成低纬度的特征信息,低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态st;⑷由策略网络控制机器人的行动,值网络评价行动的好坏:在状态st根据当前策略计算所采取的行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt,并通过值网络计算强化学习算法评价函数V(t)的值,用来评价行动at的好坏;⑸更新策略网络与值网络的参数,采用Adam梯度下降更新方式更新参数;所述策略网络损失函数Lπ(θ)计算方式如下:
其中πθ(at|st)表示新策略在状态st,选择行动at的概率,πθold(at|st)表示旧策略在状态st,选择行动at的概率,
表示优势值;所述值网络的损失函数Lv(θ)的计算方式为:
其中V(t)为评价函数,
为梯度下降算法中的损失函数;所述Adam梯度下降更新方式计算损失函数为:
其中πθ(at|st)/πθold(at|st)的值采用自适应区间裁剪方法来计算,c1和c2是常数,S[πθ](st)表示的是策略πθ在状态st处的熵,
表示在未来时间步内获得的累积折扣奖赏,折扣因子γ(0≤γ≤1);⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环,否则结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810199176.2/,转载请声明来源钻瓜专利网。
- 上一篇:无二次污染的一机多用吸尘器
- 下一篇:一种办公用品用办公桌清洗设备