[发明专利]奖励增强模型训练在审
申请号: | 201780052196.0 | 申请日: | 2017-08-25 |
公开(公告)号: | CN109791631A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | M.舒斯特;S.本吉奥;N.杰特利;Z.陈;D.E.舒尔曼斯;M.诺罗齐;Y.吴 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器学习模型 初始训练数据 训练数据 输出 基础事实 机器学习 接收输入 模型参数 模型训练 生成模型 奖励 配置 | ||
1.一种方法,包括:
获得识别要被训练以执行机器学习任务的机器学习模型的数据,所述机器学习模型被配置为接收输入示例并且根据多个模型参数的当前值来处理所述输入示例,以为所述输入示例生成模型输出;
获得用于训练所述机器学习模型的初始训练数据,所述初始训练数据包括多个训练示例、以及针对每个训练示例包括应当由所述机器学习模型通过处理所述训练示例生成的基础事实输出;
对于所述初始训练数据中的一个或多个训练示例中的每一个训练示例,从所述初始训练数据生成经修改的训练数据:
通过对于多个候选辅助输出中的每一个候选辅助输出,基于所述候选辅助输出相对于所述训练示例的所述基础事实输出的质量的相应测量,从所述多个候选辅助输出中进行选择,以从所述训练示例的所述基础事实输出为所述训练示例生成辅助输出,以及
将所述训练示例的所述基础事实输出替换为所述训练示例的所述辅助输出;以及
在所述经修改的训练数据上训练所述机器学习模型。
2.如权利要求1所述的方法,其中所述机器学习任务是结构化输出预测任务。
3.如权利要求1或2中任一项所述的方法,其中在所述经修改的训练数据上训练所述机器学习模型包括使用梯度下降训练技术来训练所述机器学习模型以生成与所述训练示例的所述辅助输出匹配的所述训练示例的模型输出。
4.如权利要求3所述的方法,其中在所述经修改的训练数据上训练所述机器学习模型包括使用最大似然训练来训练所述机器学习模型。
5.如权利要求1-4中任一项所述的方法,其中所述候选辅助输出相对于所述基础事实输出的质量的测量是用于所述候选辅助输出的机器学习任务的任务奖励函数的值。
6.如权利要求5所述的方法,其中所述机器学习任务是其中所述机器学习模型生成作为令牌序列的输出的任务,并且其中所述任务奖励函数是所述基础事实输出和所述候选辅助输出之间的负编辑距离。
7.如权利要求5所述的方法,其中所述机器学习任务是机器翻译任务,并且其中所述任务奖励函数是所述候选辅助输出的BLEU得分。
8.如权利要求5所述的方法,其中所述机器学习任务是语音识别任务,并且其中所述任务奖励函数是所述候选辅助输出的负字错误率。
9.如权利要求5所述的方法,其中所述机器学习任务是图像掩蔽任务,并且其中所述任务奖励函数基于(i)在所述候选辅助输出中被掩蔽的像素和在所述基础事实输出中被掩蔽的像素的并集,以及(ii)在所述候选辅助输出中被掩蔽的像素和在所述基础事实输出中被掩蔽的像素的交集。
10.如权利要求1-9中任一项所述的方法,其中从所述多个候选辅助输出中进行选择包括:
根据所述多个候选辅助输出上的得分分布从所述多个候选辅助输出中采样候选辅助输出,其中所述得分分布中每个候选辅助输出的得分是基于所述候选辅助输出相对于所述训练示例的所述基础事实输出的质量的测量。
11.如权利要求10所述的方法,其中所述得分分布是平稳分布。
12.如权利要求10和11中任一项所述的方法,其中每个候选输出的所述得分是基于由控制所述得分分布的集中度的温度超参数缩放的质量的测量。
13.如权利要求12所述的方法,其中每个候选输出的所述得分与指数化的缩放的质量的测量成比例。
14.如权利要求9-13中任一项所述的方法,其中对所述候选输出进行采样包括:
使用分层采样对所述候选输出进行采样。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780052196.0/1.html,转载请声明来源钻瓜专利网。