[发明专利]模型训练方法、数据识别方法和数据识别装置在审
申请号: | 201811268719.8 | 申请日: | 2018-10-29 |
公开(公告)号: | CN111105008A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 王梦蛟;刘汝杰 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;张维克 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 数据 识别 装置 | ||
本发明涉及一种训练与教师模型对应的学生模型的方法,教师模型是以第一输入数据作为输入数据并且以第一输出数据作为输出目标经过训练得到的,方法包括:将第二输入数据作为输入数据并且将第一输出数据作为输出目标对学生模型进行训练,其中第二输入数据是通过改变第一输入数据而得到的数据。
技术领域
本公开涉及模型训练方法、数据识别方法和数据识别装置。更具体地,本发明涉及利用知识蒸馏(knowledge distillation)来学习有效的数据识别模型。
背景技术
最近,通过采用深度学习网络,数据识别的准确性大大提高。然而,速度是许多应用场景下需要考虑的关键因素,而在保证运算速度的同时也要保证应用场景所需要的准确性。因此,尽管数据识别例如对象检测等的进步依赖于越来越深的深度学习体系结构,但是这种不断深入的体系结构导致运行时不断增加的计算开销。因此,提出了知识蒸馏的概念。
复杂的深度学习网络结构模型可以是若干个单独模型组成的集合,或者可以是在若干约束条件下训练得到的较大的网络模型。一旦复杂的网络模型训练完成,便可以用另一种训练方法将需要配置在应用端的缩小模型从复杂模型中提取出来,即知识蒸馏。知识蒸馏是一种在大模型监督下训练快速神经网络模型的实用方法。最常用的步骤是从大型神经网络层提取输出,然后强制小型神经网络输出相同的结果。这样,小型神经网络就可以学习大模型的表达能力。这里的小型神经网络又被称为“学生”模型,而大型神经网络又被称为“教师”模型。
在常规的知识蒸馏方法中,“学生”模型和“教师”模型的输入通常是相同的。但是,如果改变原始的训练数据集,例如将原始的训练数据集中的训练数据改变一定的变化量,则传统方法需要重新训练“教师”模型,然后使用知识蒸馏方法来训练“学生”模型。这种方法导致了较大的运算负担,因为必须重新训练大规模的、难以训练的“教师”模型。
因而,在本发明中提出了一种新的学生模型训练方法。应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
为了实现本公开的目的,根据本公开的一个方面,提供了训练与教师模型对应的学生模型的方法,教师模型是以第一输入数据作为输入数据并且以第一输出数据作为输出目标经过训练得到的,方法包括:将第二输入数据作为输入数据并且将第一输出数据作为输出目标对学生模型进行训练,其中所述第二输入数据是通过改变第一输入数据而得到的数据。
根据本公开的另一方面,提供了数据识别方法,包括:使用训练与教师模型对应的学生模型的方法训练得到的学生模型进行数据识别。
根据本公开的另一方面,还提供了数据识别装置,包括:至少一个处理器,被配置成执行数据识别方法。
根据本公开内容,提出了一种新的模型训练方法来增加经训练的学生模型的鲁棒性,而无需重新训练教师模型。根据本公开内容,教师模型的训练输入仍然为原始数据,而学生模型的训练输入是通过改变原始数据而得到的数据。通过这种方式,学生模型的输出仍然与教师模型相同,这意味着无论数据差异如何,都能够对学生模型进行训练而无需重新训练教师模型。
附图说明
参照下面结合附图对本公开实施方式的说明,会更加容易地理解本公开的以上和其它目的、特点和优点,在附图中:
图1是示出常规的学生模型训练方法的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811268719.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置