[发明专利]训练模型参数的方法、决策确定方法、装置及电子设备有效
申请号: | 202210356733.3 | 申请日: | 2022-04-06 |
公开(公告)号: | CN114841338B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 王凡;田浩;熊昊一;吴华;何径舟;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/0985 | 分类号: | G06N3/0985 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 霍莉莉;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 模型 参数 方法 决策 确定 装置 电子设备 | ||
1.一种训练机器人动作控制模型的方法,所述方法包括:
获取初始化的元参数;
根据所述元参数生成扰动参数,并基于所述扰动参数制定决策信息,根据所述决策信息做出决策,并在做出决策后获取一次训练环境的第一观测信息;其中,所述决策信息为机器人行走路线或行走方向,所述第一观测信息为所述一次训练环境的环境信息;
根据所述第一观测信息确定所述扰动参数的评价参数;
根据所述扰动参数以及所述扰动参数的评价参数,生成更新后的元参数;
若根据所述元参数和更新后的元参数确定符合停止一次训练的条件,则将更新后的所述元参数确定为目标元参数,得到初始模型;
根据所述目标元参数确定与二次训练任务对应的目标记忆参数,得到所述机器人动作控制模型;所述目标记忆参数和所述目标元参数用于做出与预测任务对应的决策,所述预测任务与所述二次训练任务对应,所述预测任务为预测机器人行走方向或者预测躲避障碍物行走的行走路线;
所述第一观测信息包括所述机器人与目标物体之间的距离,所述评价参数用于表征基于扰动参数做出的决策是否合理,所述根据所述第一观测信息确定所述扰动参数的评价参数,包括:
根据基于扰动参数做出决策后所述机器人与目标物体之间的距离变化,确定所述评价参数。
2.根据权利要求1所述的方法,其中,若根据所述元参数和更新后的元参数确定不符合停止一次训练任务的条件,则利用更新后的元参数继续执行所述根据所述元参数生成扰动参数的步骤。
3.根据权利要求1所述的方法,其中,所述根据所述元参数生成扰动参数,包括:
生成多个随机扰动值;
在所述元参数基础上分别叠加所述随机扰动值,得到多个扰动参数。
4.根据权利要求1所述的方法,其中,所述基于所述扰动参数制定决策信息,根据所述决策信息做出决策,并在做出决策后获取一次训练环境的第一观测信息,包括:
获取初始化的一次记忆参数;
获取一次训练环境的第一当前观测信息,并根据所述一次记忆参数、所述扰动参数生成与所述第一当前观测信息对应的一次决策信息;
根据所述一次决策信息做出决策,并在做出决策后采集所述一次训练环境的第一观测信息;
根据所述一次记忆参数、所述扰动参数和所述第一观测信息对所述一次记忆参数进行更新,得到更新后的一次记忆参数,并利用更新后的一次记忆参数继续执行根据所述一次记忆参数和所述扰动参数,采集一次训练环境的第一观测信息的步骤,直到确定出所述扰动参数的T个第一观测信息为止。
5.根据权利要求4所述的方法,其中,所述根据所述一次记忆参数、所述扰动参数和所述第一观测信息对所述一次记忆参数进行更新,得到更新后的一次记忆参数,包括:
根据所述一次记忆参数、所述扰动参数、所述一次决策信息和所述第一观测信息对所述一次记忆参数进行更新,得到更新后的一次记忆参数。
6.根据权利要求1-5任一项所述的方法,其中,所述扰动参数对应有多个第一观测信息;
所述根据所述第一观测信息确定所述扰动参数的评价参数,包括:
根据所述扰动参数的各第一观测信息,确定所述扰动参数的评价参数。
7.根据权利要求1-5任一项所述的方法,其中,所述根据所述扰动参数以及所述扰动参数的评价参数,生成更新后的元参数,包括:
根据所述扰动参数的评价参数,在所述扰动参数中确定目标扰动参数;
根据所述目标扰动参数生成更新后的元参数。
8.根据权利要求1-5任一项所述的方法,其中,若所述元参数和更新后的元参数之间的差值小于预设参数阈值,则确定符合停止一次训练任务的条件。
9.根据权利要求1-5任一项所述的方法,还包括:
根据所述元参数的扰动参数的评价参数,确定所述元参数的评价参数;
若元参数的评价参数和更新后的元参数的评价参数之间的差值小于预设评价阈值,则确定符合停止一次训练任务的条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210356733.3/1.html,转载请声明来源钻瓜专利网。