[发明专利]机器学习模型训练方法、装置和计算机可读存储介质在审
申请号: | 201911107807.4 | 申请日: | 2019-11-13 |
公开(公告)号: | CN110852446A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 刘紫薇;宋辉;吕培立;董井然;陈守志 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 董慧 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 模型 训练 方法 装置 计算机 可读 存储 介质 | ||
1.一种机器学习模型训练方法,包括:
获取待训练的机器学习模型的源域样本数据和目标域样本数据;
确定所述目标域样本数据和所述源域样本数据之间的分布密度比;
根据所述分布密度比确定各所述源域样本数据分别对应的源域样本权重;
根据所述源域样本数据和所述目标域样本数据得到训练样本数据,并根据所述源域样本权重和所述目标域样本数据分别对应的目标域样本权重确定所述训练样本数据分别对应的训练样本权重;
按照所述训练样本权重训练所述训练样本数据,在满足训练结束条件时,得到训练完成的机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标域样本数据和所述源域样本数据之间的分布密度比包括:
对所述源域样本数据和所述目标域样本数据进行数据标准化处理,得到所述源域样本数据对应的源域标准化样本和所述目标域样本数据对应的目标域标准化样本;
当所述源域样本数据和所述目标域样本数据的特征维度大于预设维度阈值时,对所述源域标准化样本和所述目标域标准化样本分别进行降维处理,得到降维后的源域标准化样本和降维后的目标域标准化样本;
通过密度比估计算法确定降维后的目标域标准化样本和降维后的源域标准化样本之间的降维分布密度比,并将所述降维分布密度比作为所述目标域样本数据和所述源域样本数据之间的分布密度比。
3.根据权利要求2所述的方法,其特征在于,所述对所述源域样本数据和所述目标域样本数据进行数据标准化处理,得到所述源域样本数据对应的源域标准化样本和所述目标域样本数据对应的目标域标准化样本包括:
确定所述源域样本数据的均值和标准差;
将所述源域样本数据和所述目标域样本数据作为待标准化数据,并确定所述待标准化数据与所述均值的数据差;
确定所述数据差与所述标准差的比值,并将所述比值作为所述待标准化数据对应的标准化样本;所述标准化样本包括所述源域样本数据对应的源域标准化样本和所述目标域样本数据对应的目标域标准化样本。
4.根据权利要求2所述的方法,其特征在于,所述当所述源域样本数据和所述目标域样本数据的特征维度大于预设维度阈值时,对所述源域标准化样本和所述目标域标准化样本分别进行降维处理,得到降维后的源域标准化样本和降维后的目标域标准化样本包括:
从所述目标域标准化样本中确定无标签的目标域标准化样本,无标签的目标域标准化样本由所述目标域样本数据中无标签的目标域样本数据进行数据标准化处理后得到;
确定所述源域样本数据和所述目标域样本数据的特征维度;
当所述特征维度大于预设维度阈值时,对所述源域标准化样本和无标签的目标域标准化样本分别进行降维处理,得到降维后的源域标准化样本和降维后无标签的目标域标准化样本,将降维后无标签的目标域标准化样本作为降维后的目标域标准化样本。
5.根据权利要求4所述的方法,其特征在于,还包括:
当所述特征维度不大于所述维度阈值时,通过密度比估计算法确定所述无标签的目标域标准化样本和所述源域标准化样本之间的低维分布密度比,并将所述低维分布密度比作为所述目标域样本数据和所述源域样本数据之间的分布密度比。
6.根据权利要求1所述的方法,其特征在于,所述根据所述分布密度比确定各所述源域样本数据分别对应的源域样本权重包括:
对所述分布密度比进行归一化处理,得到各所述源域样本数据分别对应的源域样本权重。
7.根据权利要求1所述的方法,其特征在于,所述根据所述源域样本数据和所述目标域样本数据得到训练样本数据包括:
从所述目标域样本数据中提取带标签的目标域样本数据;
将所述源域样本数据和带标签的目标域样本数据作为训练样本数据。
8.根据权利要求1所述的方法,其特征在于,还包括:
确定所述目标域样本数据中带标签的目标域样本数据的样本数量;
当所述样本数量大于预设样本数量阈值时,通过迭代算法确定各带标签的目标域样本数据的分别对应的目标域样本权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911107807.4/1.html,转载请声明来源钻瓜专利网。