[发明专利]机器学习模型训练方法及装置有效
| 申请号: | 201610716460.3 | 申请日: | 2016-08-24 |
| 公开(公告)号: | CN107784312B | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 吴振国 | 申请(专利权)人: | 腾讯征信有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器 学习 模型 训练 方法 装置 | ||
1.一种利用机器学习模型对邮件进行分类的方法,其特征在于,所述方法包括:
确定所述机器学习模型的训练集中邮件样本的散度的差值,或确定所述机器学习模型的训练集中邮件样本的散度的差值和所述训练集中邮件样本的受试者工作特征曲线ROC,并
基于所述邮件样本的散度的差值,构造使用所述训练集训练的机器学习模型的损失函数,或基于所述邮件样本的散度的差值和ROC,构造使用所述训练集训练的机器学习模型的损失函数;
基于所述训练集迭代训练所述机器学习模型;
比较相邻两次迭代训练所述机器学习模型后对应的损失函数的相对变化值;
当所述损失函数的相对变化值小于指定值时,停止迭代训练所述机器学习模型;
利用基于所述训练集训练得到的所述机器学习模型对正常邮件和垃圾邮件进行分类;
其中,所述基于所述邮件样本的散度的差值,构造使用所述训练集训练的机器学习模型的损失函数,包括:
确定所述训练集中不同类别的邮件样本的数目、与各类别的邮件样本被所述机器学习模型判决为相应类别概率之间所服从的正态分布;其中,所述邮件样本的类别包括:正常邮件和垃圾邮件;基于所确定的正态分布的方差和均值构造散度损失函数,包括:基于不同类别的邮件样本所服从正态分布的均值的差值,与所述不同类别的邮件样本所服从正态分布的方差的加和之间的比值,构造所述散度损失函数;
其中,所述基于所述邮件样本的散度的差值和ROC,构造使用所述训练集训练的机器学习模型的损失函数,包括:
基于散度损失函数和ROC损失函数的加权值确定所述损失函数;其中,
所述散度损失函数为确定所述训练集中不同类别的邮件样本的数目、与各类别的邮件样本被所述机器学习模型判决为相应类别概率之间所服从的正态分布,并基于所述训练集中不同类别的邮件样本所服从正态分布的均值的差值,与不同类别的邮件样本所服从正态分布的方差的加和之间的比值确定,其中,所述邮件样本的类别包括:正常邮件和垃圾邮件;
所述ROC损失函数为基于所述训练集中正常邮件的样本被所述机器学习模型判决为所述正常邮件的概率,大于所述训练集中垃圾邮件的样本被所述机器学习模型判决为所述垃圾邮件的概率的计数确定。
2.根据权利要求1所述的方法,其特征在于,所述基于散度损失函数和ROC损失函数的加权值确定所述损失函数,包括:
基于所述散度损失函数、ROC损失函数、以及交叉熵损失函数的加权值,确定所述损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯征信有限公司,未经腾讯征信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610716460.3/1.html,转载请声明来源钻瓜专利网。





