[发明专利]训练模型参数的方法、决策确定方法、装置及电子设备有效

申请号：	202210356733.3	申请日：	2022-04-06
公开（公告）号：	CN114841338B	公开（公告）日：	2023-08-18
发明（设计）人：	王凡;田浩;熊昊一;吴华;何径舟;王海峰	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06N3/0985	分类号：	G06N3/0985
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	霍莉莉;臧建明
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练模型参数方法决策确定装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供的训练模型参数的方法、决策确定方法、装置及电子设备，涉及深度学习技术，包括：根据元参数生成扰动参数，并基于扰动参数获取一次训练环境的第一观测信息；根据第一观测信息确定扰动参数的评价参数；根据扰动参数以及扰动参数的评价参数，生成更新后的元参数；若根据元参数和更新后的元参数确定符合停止一次训练的条件，则将更新后的元参数确定为目标元参数；根据目标元参数确定与二次训练任务对应的目标记忆参数，目标记忆参数和目标元参数用于做出与预测任务对应的决策。本公开提供的方案，在一次训练和二次训练过程中，都不需要预先准备训练数据，而是通过多次迭代的方式学习到参数，无需人工干预，能够提高训练效率。

技术领域

本公开涉及人工智能技术领域中的深度学习技术，尤其涉及一种训练模型参数的方法、决策确定方法、装置及电子设备。

背景技术

在人工智能领域，通常会利用训练数据进行预训练，得到初始模型，再利用与特定训练任务对应的训练数据对初始模型进行二次训练，得到与该训练任务对应的模型。

为了避免二次训练时需要准备大量的高质量的训练数据，导致训练成本高的问题，需要提供一种不需要准备高质量的训练数据就能够进行模型训练的方案。

发明内容

本公开提供了一种训练模型参数的方法、决策确定方法、装置及电子设备，在不需要准备高质量的训练数据的情况下能够实现模型训练过程。

根据本公开的第一方面，提供了一种训练用于做出决策的模型参数的方法，包括：

获取初始化的元参数；

根据所述元参数生成扰动参数，并基于所述扰动参数获取一次训练环境的第一观测信息；

根据所述第一观测信息确定所述扰动参数的评价参数；

根据所述扰动参数以及所述扰动参数的评价参数，生成更新后的元参数；