[发明专利]规则数据双驱动的机器人复杂操作过程人机混合决策方法在审

申请号：	202210364512.0	申请日：	2022-04-07
公开（公告）号：	CN114662404A	公开（公告）日：	2022-06-24
发明（设计）人：	刘星;黄攀峰;刘正雄;常海涛;马志强	申请（专利权）人：	西北工业大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06N7/00;G06N20/00;G06F111/08
代理公司：	西安维赛恩专利代理事务所(普通合伙) 61257	代理人：	刘春
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	规则数据驱动机器人复杂操作过程人机混合决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.规则数据双驱动的机器人复杂操作过程人机混合决策方法，其特征在于，包括以下步骤：

步骤1)定义机器人操控过程的马尔科夫决策过程S,A,p,R,S0,γ，设计机器人操作过程的状态空间S、动作空间A以及奖励函数R、状态转移概率为p，奖励函数为R，S0为状态初值，γ为折扣率；

步骤2)设计所述步骤1)中的机器人操控过程的基于规则的参数化策略，并得到规则参数；

步骤3)对步骤2中得到的所述规则参数的期望值进行初始化，并设计所述规则参数的分布为高斯分布，并人为设置参数的探索方向和探索方差；

步骤4)根据步骤3中规则参数的概率分布情况，生成机器人操作过程的N个控制策略；

步骤5)将步骤4生成的N个操作控制策略逐次发送给机器人，所述机器人每次执行操作任务的过程中，测量所述机器人的实际位置、实际速度、执行时间和接触力数据，并计算所述机器人每次执行操作任务过程中的累加奖励函数；

步骤6)利用步骤5)中累加奖励的概率分布估计机器人操作过程值函数；

步骤7)利用步骤6)估计得值函数的策略梯度调整经所述步骤3中初始化的规则参数；

步骤8)如果经步骤7)调整后的规则参数收敛，则使用当前规则参数执行操控任务，否则，则返回步骤3)步继续执行，直至算法收敛。

2.如权利要求1所述的规则数据双驱动的机器人复杂操作过程人机混合决策方法，其特征在于，所述步骤2)具体为：

采用参数化规则，构建人-机器人协作操控系统参数化规则网络；将机器人操作过程中的状态参数s_t作为输入信号输入到规则网络模型中，得到机器人控制输出，如下：

a_i＝π_θ(s_t)，

其中，S_t表示机器人-环境交互系统状态参数，θ表示参数化规则中的规则参数，π表示机器人参数化策略。

3.如权利要求1或2所述的规则数据双驱动的机器人复杂操作过程人机混合决策方法，其特征在于，所述步骤3)中，初始化的规则参数由人员示教数据提取得到，或由人员根据操作经验指定；算法迭代过程中的规则参数的探索方向和探索方差由人员根据先验经验设定。

4.如权利要求1或2所述的规则数据双驱动的机器人复杂操作过程人机混合决策方法，其特征在于，所述步骤7)中，利用累加奖励概率分布方法近似目标值函数；对每个参数来说，从高斯随机分布中取得N个参数值，其中，高斯分布的取值方向和方差由人为根据经验确定，以加快策略搜索速度；每个参数值运行M回合，得到M个累加奖励值，利用累加奖励的概率分布对这M个奖励值进行计算得到参数θ_i的期望奖励值，然后再对N个参数的平均奖励值求平均作为参数θ的期望奖励值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210364512.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]规则数据双驱动的机器人复杂操作过程人机混合决策方法在审

专利文献下载