[发明专利]一种基于浅度学习的神经网络迁移方法有效
申请号: | 201811388026.2 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109558942B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 牛新征;刘鹏飞;徐畅;李柯江;朱家辉;陈加伟;朱戈;潘袁湘 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 杨保刚 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 神经网络 迁移 方法 | ||
本发明公开了一种基于浅度学习的神经网络迁移方法,方法步骤为:步骤1、分类划分目标任务数据集并进行标记,存储标记数据作为浅度神经网络的训练数据x0;步骤2、输入x0至浅度神经网络,逐层训练得到预训练的浅度神经网络模型,x0经预训练神经网络模型后输出数据为x2;步骤3、将得到的预训练浅度神经网络模型的输出数据x2作为目标任务的深度神经网络模型的输入,以目标任务的带标记数据训练整个深度神经网络,对整个网络参数进行微调,完成神经网络迁移。本发明使用逐层训练的浅度神经网络学习模型作为任务迁移的基础模型,使迁移任务简单高效,扩展性强,解决了传统端到端深度神经网络迁移效果波动不定,甚至适得其反的问题。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于浅度学习的神经网络迁移方法。
背景技术
浅度学习:即采用低层次神经网络用于机器学习。是机器学习对数据进行表征学习的方法。构建含少数隐藏层的学习结构来学习属性类别或特征,以发现数据的分布式特征表示。浅度的监督式神经网络比深度神经网络更容易被解释、分析和优化,但表征能力却不及深度神经网络。
迁移学习:即把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移学习我们可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习(starting from scratch,tabula rasa)。
目前的神经网络迁移方法步骤为:
1.寻找与目标任务相关的源任务,源任务要与目标任务差距不大。例如如果你要训练一个神经网络来识别肺部X光片中是否包含肿瘤,那么使用VGG16的网络就不如使用一个已训练好的判断脑部是否包含肿瘤的神经网络。后者与当前的任务有相似的场景,很多底层的神经员可以做相同的事,而用来识别日常生活中照片的网络,则难以从X光片中提取有效的特征。
2.使用大量标记数据和海量显卡资源预先训练好一个能够解决源任务的深度神经网络,通常称之为Base Network。
3.把Base Network的前n层中每个节点的权重迁移到目标任务的神经网络(Target Network)的前n层。
4.将Target Network的其它层的训练参数随机初始化。
5.开始训练目标任务神经网络。其中,在做反向传播的时候,有两种方法可以选择:(1)把迁移过来的这前n层冻结起来,即在训练目标任务神经网络的时候,不改变这n层的值;(2)不冻结这前n层,而是会不断调整全局神经网络的值(包括前n层),称为微调。这个主要取决于目标任务数据集的大小和前n层的参数个数,如果目标任务数据集很小,而参数个数很多,为了防止过拟合,通常采用冻结的方法;反之,采用微调参数。
现有方法中的问题在于:1)采用预训练的源任务深度神经网络,则要保证源任务和当前的任务差距不大,不然迁徙学习的效果会很差,这增加了方法的复杂性且不易保证该效果。2)预训练的源任务深度神经网络需要使用大量标记数据和海量显卡资源,而迁移学习的目的即减少训练新目标任务深度神经网络时对海量带标记数据和显卡资源需求,如若事先没有开源的解决源任务的深度神经网络,同样需要这些资源用于预训练源任务深度神经网络,其实此方法没有从本质上解决使用深度学习完成目标任务对于资源的大量需求。3)采用预训练源任务深度神经网络的端到端迁移到另一个深度神经网络时,传统的迁移深度神经网络不明晰迁移层数,往往需要通过编程人员自身经验去试出更好的迁移效果,我们无从得知需迁移深度神经网络的前多少层才能使得最终目标任务网络训练效果最优,不易使该迁移方法变得高效,且训练好的端到端深度学习网络目标太过于“明确”,一定程度上影响目标任务预测结果。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811388026.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模型训练方法、存储介质及电子设备
- 下一篇:运算方法、装置及相关产品