[发明专利]训练模型参数的方法、决策确定方法、装置及电子设备有效
申请号: | 202210356733.3 | 申请日: | 2022-04-06 |
公开(公告)号: | CN114841338B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 王凡;田浩;熊昊一;吴华;何径舟;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/0985 | 分类号: | G06N3/0985 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 霍莉莉;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 模型 参数 方法 决策 确定 装置 电子设备 | ||
本公开提供的训练模型参数的方法、决策确定方法、装置及电子设备,涉及深度学习技术,包括:根据元参数生成扰动参数,并基于扰动参数获取一次训练环境的第一观测信息;根据第一观测信息确定扰动参数的评价参数;根据扰动参数以及扰动参数的评价参数,生成更新后的元参数;若根据元参数和更新后的元参数确定符合停止一次训练的条件,则将更新后的元参数确定为目标元参数;根据目标元参数确定与二次训练任务对应的目标记忆参数,目标记忆参数和目标元参数用于做出与预测任务对应的决策。本公开提供的方案,在一次训练和二次训练过程中,都不需要预先准备训练数据,而是通过多次迭代的方式学习到参数,无需人工干预,能够提高训练效率。
技术领域
本公开涉及人工智能技术领域中的深度学习技术,尤其涉及一种训练模型参数的方法、决策确定方法、装置及电子设备。
背景技术
在人工智能领域,通常会利用训练数据进行预训练,得到初始模型,再利用与特定训练任务对应的训练数据对初始模型进行二次训练,得到与该训练任务对应的模型。
为了避免二次训练时需要准备大量的高质量的训练数据,导致训练成本高的问题,需要提供一种不需要准备高质量的训练数据就能够进行模型训练的方案。
发明内容
本公开提供了一种训练模型参数的方法、决策确定方法、装置及电子设备,在不需要准备高质量的训练数据的情况下能够实现模型训练过程。
根据本公开的第一方面,提供了一种训练用于做出决策的模型参数的方法,包括:
获取初始化的元参数;
根据所述元参数生成扰动参数,并基于所述扰动参数获取一次训练环境的第一观测信息;
根据所述第一观测信息确定所述扰动参数的评价参数;
根据所述扰动参数以及所述扰动参数的评价参数,生成更新后的元参数;
若根据所述元参数和更新后的元参数确定符合停止一次训练的条件,则将更新后的所述元参数确定为目标元参数;
根据所述目标元参数确定与二次训练任务对应的目标记忆参数,所述目标记忆参数和所述目标元参数用于做出与预测任务对应的决策,所述预测任务与所述二次训练任务对应。
根据本公开的第二方面,提供了一种决策确定方法,包括:
获取当前观测信息;
根据预设的目标元参数和目标记忆参数,确定与所述当前观测信息对应的决策信息;
执行所述决策信息;
其中,所述目标元参数和所述目标记忆参数是基于第一方面所述的方法训练得到的。
根据本公开的第三方面,提供了一种训练用于做出决策的模型参数的装置,包括:
初始化单元,用于获取初始化的元参数;
执行单元,用于根据所述元参数生成扰动参数,并基于所述扰动参数获取一次训练环境的第一观测信息;
评价单元,用于根据所述第一观测信息确定所述扰动参数的评价参数;
元更新单元,用于根据所述扰动参数以及所述扰动参数的评价参数,生成更新后的元参数;
目标元确定单元,用于若根据所述元参数和更新后的元参数确定符合停止一次训练的条件,则将更新后的所述元参数确定为目标元参数;
二次训练单元,用于根据所述目标元参数确定与二次训练任务对应的目标记忆参数,所述目标记忆参数和所述目标元参数用于做出与预测任务对应的决策,所述预测任务与所述二次训练任务对应。
根据本公开的第四方面,提供了一种决策确定装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210356733.3/2.html,转载请声明来源钻瓜专利网。