[发明专利]基于多分类生成对抗模仿学习算法的化学合成机器人系统有效
| 申请号: | 202210426787.2 | 申请日: | 2022-04-22 |
| 公开(公告)号: | CN114779661B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 于欣波;王远航;闫子晨;朱戎;孙亮;贺威;鄂维南 | 申请(专利权)人: | 北京科技大学 |
| 主分类号: | G05B17/02 | 分类号: | G05B17/02 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;邓琳 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 分类 生成 对抗 模仿 学习 算法 化学合成 机器人 系统 | ||
1.一种基于多分类生成对抗模仿学习算法的化学合成机器人系统,其特征在于,包括:
基于Mujoco仿真平台搭建的化学合成操作仿真模块,用于模拟真实化学实验环境;
多分类生成对抗模仿学习算法框架,用于根据当前实验任务和机器人状态信息,利用多分类生成对抗模仿学习算法生成当前实验任务的期望轨迹;
算法优化模块,用于对多分类生成对抗模仿学习算法进行优化;
所述多分类生成对抗模仿学习算法描述如下:
用C={c0,c1,...,cN}表示多种模态的模态集合,其中ci表示第i种专家策略模态,所有模态都服从先验概率ci~p(c),专家轨迹用一系列的状态-动作对(s,a,c)表示,其中s表示当前机械臂所处的状态,a表示机械臂在状态s下应采取的动作,而某种状态对应于何种动作取决于当前的策略π,多分类生成对抗模仿学习算法通过对专家轨迹进行模仿去学习专家策略中的多种模态以此达到逼近甚至超越专家策略的策略;定义每次采样轨迹和专家轨迹样本表示为τ=(s0,a0,...,sh,ah|c),其中h代表轨迹的长度,则专家轨迹样本集合表示为TE={τ1,τ2,...,τn};
多分类生成对抗模仿学习算法框架中的生成器根据当前的机械臂状态s和策略模态类别c,策略πc生成动作a=πc(s);根据当前机械臂状态s和机械臂下一时刻所做动作a,判别器输出该动作属于专家策略的概率值;分类器输入具有隐式模态信息的专家轨迹状态-动作对样本,输出该样本属于哪种策略模态类别;策略π所生成的样本(s,a)的模态标签表示为c,该变量c随机采样生成且服从离散均匀分布,C(s,a)表示分类器将样本划分为每种模态类别的概率;
分类器通过对生成器生成策略进行重新分类,来强制生成器生成的策略与输入的策略模式分量强相关;
由于分类器和判别器都是对状态-动作对进行处理,这里共享分类器和判别器隐层的参数,仅最后输出层权值不一样,通过共享参数减少计算量,提高算法性能。
2.根据权利要求1所述的基于多分类生成对抗模仿学习算法的化学合成机器人系统,其特征在于,所述基于Mujoco仿真平台搭建的化学合成操作仿真模块具体用于:
对机器人和实验物理环境进行建模,包括对机械臂、试管架、试管、移液枪和末端夹爪在内的物品建立毫米级三维模型及动力学模型;
对仿真环境进行封装并提供相应接口,以供多分类生成对抗模仿学习算法进行训练和仿真,包括提供状态信息接口、奖励值接口、帧更新接口;
基于仿真环境接口,应用PID控制算法对机械臂的各个关节量进行控制,以达到机械臂整体运动控制的需求。
3.根据权利要求2所述的基于多分类生成对抗模仿学习算法的化学合成机器人系统,其特征在于,基于Mujoco仿真平台的仿真环境模型文件包括三个部分:STL文件,用于定义三维模型;XML文件,用于定义运动学和动力学模型;py文件,用于定义多分类生成对抗模仿学习算法的接口程序,创建可交互环境供算法调用。
4.根据权利要求1所述的基于多分类生成对抗模仿学习算法的化学合成机器人系统,其特征在于,所述多分类生成对抗模仿学习算法框架具体用于:
获取机器人的当前状态数据,以及当前实验任务中机器人的目标状态数据;所述状态数据包括机器人的机械臂关节的位姿、速度和加速度;
采集专家示教轨迹,作为样本集用于多分类生成对抗模仿学习算法进行学习和训练;
根据获取到的机器人的当前状态数据和目标状态数据,利用训练好的多分类生成对抗模仿学习算法生成期望轨迹;
根据生成的期望轨迹,调用Mujoco接口程序对机器人进行控制以完成实验任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210426787.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合式3D打印扫描方法
- 下一篇:一种变距并行分料装置及方法





