[发明专利]机器学习模型训练方法、装置和计算机可读存储介质在审

申请号：	201911107807.4	申请日：	2019-11-13
公开（公告）号：	CN110852446A	公开（公告）日：	2020-02-28
发明（设计）人：	刘紫薇;宋辉;吕培立;董井然;陈守志	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	董慧
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	机器学习模型训练方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种机器学习模型训练方法、装置、计算机可读存储介质和计算机设备，方法包括：获取待训练的机器学习模型的源域样本数据和目标域样本数据；确定目标域样本数据和源域样本数据之间的分布密度比；根据分布密度比确定各源域样本数据分别对应的源域样本权重；根据源域样本数据和目标域样本数据得到训练样本数据，并根据源域样本权重和目标域样本数据分别对应的目标域样本权重确定训练样本数据分别对应的训练样本权重；按照训练样本权重训练训练样本数据，在满足训练结束条件时，得到训练完成的机器学习模型。本申请提供的方案可以提高训练得到的机器学习模型的性能。

技术领域

本申请涉及计算机技术领域，特别是涉及一种机器学习模型训练方法、装置、计算机可读存储介质和计算机设备。

背景技术

迁移学习(Transfer Learning)是指利用数据、任务或模型之间的相似性，将在旧领域(即源域)学习过的模型，应用于新领域(即目标域)的一种学习过程。简单地理解，相似性是迁移的基础，发生迁移的两场景需要有一定相似性，但同时存在差异，导致运用源域数据训练的模型不能直接用于目标域预测。通过迁移学习可以将在源域已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给迁移目标域的新模型，不需要像大多数网络那样从零学习，从而加快并优化模型的学习效率。

然而，因为源域和目标域的数据差异，导致迁移学习容易出现负迁移现象，即迁移后效果不佳甚至下降，迁移得到的模型性能较低。

发明内容

基于此，有必要针对迁移学习容易出现负迁移影响迁移得到的模型性能的技术问题，提供一种机器学习模型训练方法、装置、计算机可读存储介质和计算机设备。

一种机器学习模型训练方法，包括：

获取待训练的机器学习模型的源域样本数据和目标域样本数据；

确定所述目标域样本数据和所述源域样本数据之间的分布密度比；

根据所述分布密度比确定各所述源域样本数据分别对应的源域样本权重；

根据所述源域样本数据和所述目标域样本数据得到训练样本数据，并根据所述源域样本权重和所述目标域样本数据分别对应的目标域样本权重确定所述训练样本数据分别对应的训练样本权重；

按照所述训练样本权重训练所述训练样本数据，在满足训练结束条件时，得到训练完成的机器学习模型。

一种机器学习模型训练装置，所述装置包括：

样本数据获取模块，用于获取待训练的机器学习模型的源域样本数据和目标域样本数据；

密度比确定模块，用于确定所述目标域样本数据和所述源域样本数据之间的分布密度比；