[发明专利]网络模型训练方法、图像目标识别方法、装置和电子设备在审
申请号: | 202010950541.6 | 申请日: | 2020-09-10 |
公开(公告)号: | CN112232506A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 李泽民 | 申请(专利权)人: | 北京迈格威科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何少岩 |
地址: | 100086 北京市海淀区科*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 模型 训练 方法 图像 目标 识别 装置 电子设备 | ||
1.一种网络模型训练方法,其特征在于,所述方法应用于服务器,包括:
应用与第一网络模型相同的样本对集合训练第二网络模型,其中,所述第一网络模型的计算量大于所述第二网络模型的计算量;
当所述第二网络模型完成本轮迭代训练时,获取所述第一网络模型对于第一样本对的第一预测结果和所述第二网络模型对于所述第一样本对的第二预测结果;
如果所述第二预测结果优于所述第一预测结果,将所述第一样本对从所述样本对集合中删除,得到样本对更新集合;
基于所述样本对更新集合确定所述第二网络模型的总损失函数值;
如果所述总损失函数值大于预设值,应用所述总损失函数值更新所述第二网络模型的参数,并应用所述样本对集合对更新后的所述第二网络模型继续进行下一轮迭代训练,直到所述总损失函数值收敛至所述预设值为止,得到训练好的第二网络模型。
2.根据权利要求1所述的方法,其特征在于,获取所述第一网络模型对于第一样本对的第一预测结果和所述第二网络模型对于所述第一样本对的第二预测结果的步骤,包括:
计算所述第一网络模型对于所述第一样本对的第一特征距离,计算所述第二网络模型对于所述第一样本对的第二特征距离;
基于所述第一网络模型计算所述第一样本对所属样本类的第一特征距离均值,基于所述第二网络模型计算所述第一样本对所属样本类的第二特征距离均值;其中,所述样本类包括同类样本或异类样本;
应用所述第一特征距离均值对所述第一特征距离进行归一化处理,将所述第一特征距离归一化结果作为所述第一网络模型对于所述第一样本对的第一预测结果;
应用所述第二特征距离均值对所述第二特征距离进行归一化处理,将所述第二特征距离归一化结果作为所述第二网络模型对于所述第一样本对的第二预测结果。
3.根据权利要求2所述的方法,其特征在于,所述特征距离为所述第一样本对的特征对应的欧式距离或余弦相似度。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述第一样本对所属样本类,通过比较所述第一预测结果和所述第二预测结果,判断所述第二预测结果是否优于所述第一预测结果。
5.根据权利要求4所述的方法,其特征在于,所述特征距离为所述第一样本对的特征对应的欧式距离;
基于所述第一样本对所属样本类,通过比较所述第一预测结果和所述第二预测结果,判断所述第二预测结果是否优于所述第一预测结果的步骤,包括:
如果所述第一样本对所属样本类为同类样本,将所述第一预测结果减去所述第二预测结果,得到第一差值;
如果所述第一差值大于0或者大于预设第一正值,确定所述第二预测结果优于所述第一预测结果。
6.根据权利要求4所述的方法,其特征在于,所述特征距离为所述第一样本对的特征对应的欧式距离;
基于所述第一样本对所属样本类,通过比较所述第一预测结果和所述第二预测结果,判断所述第二预测结果是否优于所述第一预测结果的步骤,包括:
如果所述第一样本对所属样本类为异类样本,计算所述第一预测结果减去所述第二预测结果,得到第二差值;
如果所述第二差值小于0或者小于预设第二负值,确定所述第二预测结果优于所述第一预测结果。
7.根据权利要求1所述的方法,其特征在于,基于所述样本对更新集合确定所述第二网络模型的总损失函数值的步骤,包括:
基于所述样本对更新集合确定所述第二网络模型的同类样本蒸馏损失值和异类样本蒸馏损失值;
基于所述同类样本蒸馏损失值和所述异类样本蒸馏损失值,确定所述第二网络模型的总损失函数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迈格威科技有限公司,未经北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010950541.6/1.html,转载请声明来源钻瓜专利网。