[发明专利]模型生成方法、装置、电子设备及存储介质在审

申请号：	202010598998.5	申请日：	2020-06-28
公开（公告）号：	CN111767832A	公开（公告）日：	2020-10-13
发明（设计）人：	希滕;张刚;温圣召	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	北京市铸成律师事务所 11313	代理人：	杨瑾瑾;武晨燕
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种模型生成方法，包括：

在执行第i次迭代操作的过程中，基于第i个模型编码生成器得到第i个待训练的模型，基于第i个延时惩罚编码生成器得到第i个延时惩罚策略；其中，i为大于等于1的整数；

对所述第i个待训练的模型进行训练得到收敛的模型，确定是否将收敛的模型作为搜索得到的目标模型；

其中，确定是否将收敛的模型作为搜索得到的目标模型，包括：

若迭代操作的累计次数达到预设阈值N，则确定所述收敛的模型为搜索得到的目标模型；其中，N为大于等于2的整数；

若迭代操作的累计次数未达到预设阈值N，则确定所述收敛的模型所对应的第i个性能奖励值，以及基于所述第i个延时惩罚策略确定所述收敛的模型的第i个延时奖励值；基于所述第i个性能奖励值以及第i个所述延时奖励值，对第i个模型编码生成器和/或第i个延时惩罚编码生成器进行更新，得到第i+1个模型编码生成器和/或第i+1个延时惩罚编码生成器。

2.根据权利要求1所述的方法，其中，所述基于第i个模型编码生成器得到第i个待训练的模型，包括：

基于所述第i个模型编码生成器生成第i个模型编码；

基于模型搜索空间对所述第i个模型编码进行解码，得到第i个待训练的模型。

3.根据权利要求1所述的方法，其中，所述基于第i个延时惩罚编码生成器得到第i个延时惩罚策略，包括：

基于所述第i个延时惩罚编码生成器生成第i个延时惩罚编码；

基于延时惩罚编码搜索空间对所述第i个延时惩罚编码进行解码，得到第i个延时惩罚策略。

4.根据权利要求1所述的方法，其中，所述基于所述第i个性能奖励值以及第i个所述延时奖励值，对第i个模型编码生成器和/或第i个延时惩罚编码生成器进行更新，得到第i+1个模型编码生成器和/或第i+1个延时惩罚编码生成器，还包括：

若i等于1，则将所述第i个性能奖励值以及第i个所述延时奖励值进行叠加得到第i次奖励值叠加结果；

基于第i次奖励值叠加结果对第i个模型编码生成器进行更新，得到第i+1个模型编码生成器；其中，所述第i+1个模型编码生成器用于执行第i+1次迭代操作。

5.根据权利要求1所述的方法，其中，所述基于所述第i个性能奖励值以及第i个所述延时奖励值，对第i个模型编码生成器和/或第i个延时惩罚编码生成器进行更新，得到第i+1个模型编码生成器和/或第i+1个延时惩罚编码生成器，还包括：

若i大于1，则将所述第i个性能奖励值以及第i个所述延时奖励值进行叠加得到第i次奖励值叠加结果；

基于第i次奖励值叠加结果对第i个模型编码生成器进行更新，得到第i+1个模型编码生成器；