[发明专利]模型训练方法和设备在审
申请号: | 201911326890.4 | 申请日: | 2019-12-20 |
公开(公告)号: | CN112002309A | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 罗辉栋;姜孝馨;金好庆;李镐式 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L25/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 方成;张川绪 |
地址: | 韩国京畿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 设备 | ||
公开了一种模型训练方法和设备,其中,模型训练方法针对输入序列获取教师模型的识别结果和学生模型的识别结果,并且训练学生模型,使得教师模型的识别结果和学生模型的识别结果彼此无法被区分。
本申请要求于2019年5月7日在韩国知识产权局提交的第10-2019-0053131号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
以下描述涉及一种模型训练方法和设备。
背景技术
对组中的输入模式进行分类的研究正在被积极开展,以便有效的模式识别可在计算机上执行。这包括对人工神经网络(ANN)的研究,所述人工神经网络(ANN)通过经由作为专用计算架构的处理器实现的神经网络模型使用数学表达式对模式识别特性进行建模而获得,所述神经网络模型在大量训练后可提供在输入模式与输出模式之间的计算上直观的映射。ANN使用算法在输入模式与输出模式之间生成映射,并且生成映射的能力被表示为ANN的学习能力。ANN可采用模仿学习能力的算法。此外,ANN具有基于先前训练的结果针对尚未用于训练的输入模式生成相对正确的输出的能力。然而,由于这样的操作或应用通过专用计算架构来执行,并且以与它们在非计算机实现或非自动化的方法中执行的自动化方式不同的自动化方式来执行,所以它们也引发只是因为在其上实现它们的自动化和专用计算架构而出现的问题或缺点。
此外,研究正在被开展以在使ANN的尺寸小型化的同时使ANN的识别率最大化。
发明内容
提供本发明内容来以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本发明内容不意在识别要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。
在一个总体方面,提供一种训练模型的方法,所述方法包括:针对输入序列,获取教师模型的识别结果和学生模型的识别结果;并且训练学生模型,使得教师模型的识别结果和学生模型的识别结果彼此无法被区分。
训练学生模型的步骤可包括:基于教师模型的识别结果和学生模型的识别结果彼此被区分的程度,确定对抗损失;并且训练学生模型以减小对抗损失。
确定对抗损失的步骤可包括:基于针对输入序列分别被输出作为识别结果的教师模型的输出序列和学生模型的输出序列彼此被区分的程度,确定对抗损失。
确定对抗损失的步骤可包括:通过基于包括在输出序列中的元素的概率应用Gumbel-max,确定对抗损失。
确定对抗损失的步骤可包括:通过基于输出序列的概率应用Gumbel-max,确定对抗损失。
确定对抗损失的步骤可包括:通过基于可能对应于输出序列的多个候选序列的概率进一步应用Gumbel-max,确定对抗损失。
确定对抗损失的步骤可包括:基于针对输入序列分别被输出作为识别结果的教师模型的输出序列中的元素和学生模型的输出序列中的元素彼此被区分的程度,确定对抗损失。
确定对抗损失的步骤可包括:通过基于包括在输出序列中的元素的概率应用Gumbel-max,确定对抗损失。
训练学生模型的步骤可包括:训练学生模型,使得教师模型的识别结果和学生模型的识别结果无法通过判别器模型被区分彼此;并且判别器模型可被训练为在教师模型的识别结果与学生模型的识别结果之间进行区分
训练学生模型的步骤可包括:使用教师模型的识别结果训练学生模型,使得教师模型的识别结果从学生模型输出。
输入序列可包括:包括词的句数据和包括帧的语音数据。
在另一个总体方面,提供一种用于训练模型的设备,所述设备包括:处理器,被配置为:针对输入序列,获取教师模型的识别结果和学生模型的识别结果;并且训练学生模型,使得教师模型的识别结果和学生模型的识别结果彼此无法被区分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911326890.4/2.html,转载请声明来源钻瓜专利网。