[发明专利]神经网络模型迁移方法和系统、电子设备、程序和介质有效
申请号: | 201711214166.3 | 申请日: | 2017-11-28 |
公开(公告)号: | CN108229652B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 邵婧;闫俊杰 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06K9/62 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 迁移 方法 系统 电子设备 程序 介质 | ||
本发明实施例公开了一种神经网络模型迁移方法和系统、电子设备、程序和介质,其中,方法包括:分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型,直至满足预设训练完成条件。本发明实施例实现了基于多个大神经网络模型对小神经网络模型的共同训练,可将多个大神经网络的性能迁移到小神经网络模型。
技术领域
本发明涉及人工智能技术,尤其是一种神经网络模型迁移方法和系统、电子设备、程序和介质。
背景技术
在当今的图像识别任务中的一个普遍共识是在样本数据足够、训练方法恰当、网络模型设计科学的条件下,所使用的网络模型越大、越复杂,往往能够得到越精确的识别结果。虽然网络模型越大、越复杂,识别结果越精确可靠,但是,由于体量庞大、计算复杂的问题,从而使得其在实际应用中会占用大量的存储和计算资源。
发明内容
本发明实施例提供一种用于进行神经网络模型迁移的技术方案。
根据本发明实施例的一个方面,提供一种神经网络模型迁移方法,包括:
分别向训练好的至少两个第一神经网络模型和一待训练的第二神经网络模型输入相同的待处理对象;其中,所述第二神经网络模型的大小小于每个所述第一神经网络模型的大小;
基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型,直至满足预设训练完成条件。
可选地,在本发明上述各方法实施例中,所述第二神经网络模型的大小小于所述第一神经网络模型的大小,包括:
第二神经网络模型的参数量小于所述第一神经网络模型的参数量;和/或
第二神经网络模型的网络层数小于所述第一神经网络模型的网络层数。
可选地,在本发明上述各方法实施例中,所述基于所述至少两个第一神经网络模型对所述待处理对象的处理结果,共同训练所述第二神经网络模型,包括:
分别获取所述至少两个第一神经网络模型的分类层输出的分类结果、以及所述第二神经网络模型的分类层输出的分类结果;
分别获取每个第一神经网络模型的分类层输出的分类结果与所述第二神经网络模型的分类层输出的分类结果之间的第一差异,得到至少两个第一差异;
至少根据所述至少两个第一差异对所述第二神经网络模型进行网络训练。
可选地,在本发明上述各方法实施例中,还包括:获取所述第二神经网络模型的分类层输出的分类结果与所述待处理对象的标注分类结果之间的第二差异;
所述至少根据所述至少两个第一差异对所述第二神经网络模型进行网络训练,包括:根据所述第二差异和所述至少两个第一差异,对所述第二神经网络模型进行网络训练。
可选地,在本发明上述各方法实施例中,根据所述第二差异和所述至少两个第一差异,对所述第二神经网络模型进行网络训练,包括:
分别针对每个第一差异,获取第一差异与该第一差异对应的第一神经网络模型的权重系数的乘积,得到至少两个乘积;
以所述第二差异和所述至少两个乘积作为所述第二神经网络模型的分类代价函数值,对所述第二神经网络模型进行网络训练。
可选地,在本发明上述各方法实施例中,以所述第二差异和所述至少两个乘积作为所述第二神经网络模型的分类代价函数值,对所述第二神经网络模型进行网络训练,包括:
根据所述分类代价函数值调整所述第二神经网络模型中所述分类层及以下各网络层的权重参数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711214166.3/2.html,转载请声明来源钻瓜专利网。