[发明专利]在线预测模型的训练方法、装置、设备及存储介质有效
申请号: | 202010911608.5 | 申请日: | 2020-09-02 |
公开(公告)号: | CN112070226B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 刘昊骋;李原;谢国斌 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/084 | 分类号: | G06N3/084;G06N3/0455;G06N3/048;G06N20/20;G06F18/243;G06Q30/0601 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 在线 预测 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种在线预测模型的训练方法,包括:
获取用户的离线样本特征和在线样本特征,所述离线样本特征包括用户画像特征;
基于用户的离线样本特征和在线样本特征,离线训练得到离线推荐模型,所述离线推荐模型包括XGBoost模型或WideDeep模型,所述离线推荐模型为XGBoost时,基于用户的离线样本特征和在线样本特征,离线训练得到离线推荐模型包括:将所述离线样本特征输入至XGBoost,生成所述离线样本特征的特征编码;对所述在线样本特征进行特征编码,将所述在线样本特征的特征编码与离线样本特征的组合编码进行拼接;将拼接结果输入至逻辑回归器中进行预测训练,得到训练好的离线推荐模型;以及所述离线推荐模型为WideDeep模型时,所述基于用户的离线样本特征和在线样本特征,离线训练得到离线推荐模型包括:将用户的所述离线样本特征输入至Deep层;所述在线样本特征经特征工程后输入至Wide层;将Wide层特征和Deep层特征拼接后输入至逻辑回归器中进行预测训练,得到训练好的离线推荐模型;
获取用户的最新在线特征,以及基于用户的所述最新在线特征,在线训练得到在线学习模型,包括:使用在线机器学习算法调整所述最新在线特征,使得所述最新在线特征适应于作为在线样本特征进行特征编码,所述在线学习模型用于使得所述最新在线特征适应于作为在线样本特征输入至已经训练好的离线推荐模型;以及调整Wide层参数,使得所述最新在线特征适应于作为在线样本特征输入至Wide层;
将所述离线推荐模型同步至线上,以及将所述在线学习模型输出的所述最新在线特征输入至所述离线推荐模型,生成在线预测模型。
2.根据权利要求1所述的方法,所述方法还包括:
将用户的所述最新在线特征同步至离线特征库,其中,所述离线特征库存储有用户的所述离线样本特征。
3.根据权利要求1所述的方法,所述方法还包括:
根据用户在线实时行为确定用户的在线样本特征,其中,所述用户在线实时行为包括用户在线操作行为。
4.根据权利要求1所述的方法,所述方法还包括:
根据所述在线预测模型的输出确定推荐系统中的推荐排序或点击率预估。
5.一种在线预测模型的训练装置,包括:
获取单元,被配置为获取用户的离线样本特征和在线样本特征,所述离线样本特征包括用户画像特征;
离线训练单元,被配置为基于用户的离线样本特征和在线样本特征,离线训练得到离线推荐模型,所述离线推荐模型包括XGBoost模型或WideDeep模型;所述离线推荐模型为XGBoost模型时,所述离线训练单元被配置为:将所述离线样本特征输入至XGBoost,生成所述离线样本特征的特征编码;对所述在线样本特征进行特征编码,将所述在线样本特征的特征编码与离线样本特征的组合编码进行拼接;将拼接结果输入至逻辑回归器中进行预测训练,得到训练好的离线推荐模型;以及所述离线推荐模型为WideDeep模型时,所述离线训练单元被配置为:将用户的所述离线样本特征输入至Deep层;所述在线样本特征经特征工程后输入至Wide层;将Wide层特征和Deep层特征拼接后输入至逻辑回归器中进行预测训练,得到训练好的离线推荐模型;
在线训练单元,被配置为获取用户的最新在线特征,以及基于用户的所述最新在线特征,在线训练得到在线学习模型,所述在线学习模型用于使得所述最新在线特征适应于作为在线样本特征输入至已经训练好的离线推荐模型;所述在线训练单元还被配置为:使用在线机器学习算法(FTRL)调整所述最新在线特征,使得所述最新在线特征适应于作为在线样本特征进行特征编码;所述在线训练单元还被配置为:调整Wide层参数,使得所述最新在线特征适应于作为在线样本特征输入至Wide层;
模型生成单元,被配置为将所述离线推荐模型同步至线上,以及将所述在线学习模型输出的所述最新在线特征输入至所述离线推荐模型,生成在线预测模型。
6.根据权利要求5所述的装置,所述装置还包括:
数据同步单元,被配置为将用户的所述最新在线特征或在线样本特征同步至离线特征库,其中,所述离线特征库存储有用户的所述离线样本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010911608.5/1.html,转载请声明来源钻瓜专利网。