[发明专利]模型生成方法、装置、电子设备及存储介质在审
申请号: | 202010598998.5 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111767832A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 希滕;张刚;温圣召 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 生成 方法 装置 电子设备 存储 介质 | ||
1.一种模型生成方法,包括:
在执行第i次迭代操作的过程中,基于第i个模型编码生成器得到第i个待训练的模型,基于第i个延时惩罚编码生成器得到第i个延时惩罚策略;其中,i为大于等于1的整数;
对所述第i个待训练的模型进行训练得到收敛的模型,确定是否将收敛的模型作为搜索得到的目标模型;
其中,确定是否将收敛的模型作为搜索得到的目标模型,包括:
若迭代操作的累计次数达到预设阈值N,则确定所述收敛的模型为搜索得到的目标模型;其中,N为大于等于2的整数;
若迭代操作的累计次数未达到预设阈值N,则确定所述收敛的模型所对应的第i个性能奖励值,以及基于所述第i个延时惩罚策略确定所述收敛的模型的第i个延时奖励值;基于所述第i个性能奖励值以及第i个所述延时奖励值,对第i个模型编码生成器和/或第i个延时惩罚编码生成器进行更新,得到第i+1个模型编码生成器和/或第i+1个延时惩罚编码生成器。
2.根据权利要求1所述的方法,其中,所述基于第i个模型编码生成器得到第i个待训练的模型,包括:
基于所述第i个模型编码生成器生成第i个模型编码;
基于模型搜索空间对所述第i个模型编码进行解码,得到第i个待训练的模型。
3.根据权利要求1所述的方法,其中,所述基于第i个延时惩罚编码生成器得到第i个延时惩罚策略,包括:
基于所述第i个延时惩罚编码生成器生成第i个延时惩罚编码;
基于延时惩罚编码搜索空间对所述第i个延时惩罚编码进行解码,得到第i个延时惩罚策略。
4.根据权利要求1所述的方法,其中,所述基于所述第i个性能奖励值以及第i个所述延时奖励值,对第i个模型编码生成器和/或第i个延时惩罚编码生成器进行更新,得到第i+1个模型编码生成器和/或第i+1个延时惩罚编码生成器,还包括:
若i等于1,则将所述第i个性能奖励值以及第i个所述延时奖励值进行叠加得到第i次奖励值叠加结果;
基于第i次奖励值叠加结果对第i个模型编码生成器进行更新,得到第i+1个模型编码生成器;其中,所述第i+1个模型编码生成器用于执行第i+1次迭代操作。
5.根据权利要求1所述的方法,其中,所述基于所述第i个性能奖励值以及第i个所述延时奖励值,对第i个模型编码生成器和/或第i个延时惩罚编码生成器进行更新,得到第i+1个模型编码生成器和/或第i+1个延时惩罚编码生成器,还包括:
若i大于1,则将所述第i个性能奖励值以及第i个所述延时奖励值进行叠加得到第i次奖励值叠加结果;
基于第i次奖励值叠加结果对第i个模型编码生成器进行更新,得到第i+1个模型编码生成器;
基于第i次奖励值叠加结果、以及第i-1次奖励值叠加结果,对第i个延时惩罚编码生成器进行更新,得到第i+1个延时惩罚编码生成器;
其中,所述第i+1个模型编码生成器、以及第i+1个延时惩罚编码生成器用于执行第i+1次迭代操作。
6.根据权利要求1-5任一项所述的方法,其中,所述方法还包括:
获取待识别人脸图像;其中,所述待识别人脸图像中的部分人脸区域处于遮挡状态;
基于所述目标模型以及所述待识别人脸图像,得到人脸图像的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010598998.5/1.html,转载请声明来源钻瓜专利网。