[发明专利]训练模型的方法、装置、电子设备及可读存储介质在审
申请号: | 202110342815.8 | 申请日: | 2021-03-30 |
公开(公告)号: | CN115146773A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 张锦;谢乾龙;王兴星;朱尹华;王栋 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 模型 方法 装置 电子设备 可读 存储 介质 | ||
本公开的实施例提供了一种训练模型的方法、装置、电子设备及可读存储介质,所述方法包括:获取样本数据,所述样本数据包括低频用户样本和高频用户样本;对每个样本数据标注样本标签,所述样本标签包括点击标签和分层标签;将所述样本数据的输入特征输入初始的点击率预估模型,通过所述点击率预估模型将低频用户样本的输入特征映射到高频用户样本的输入特征空间,并输出每个样本数据的预估点击率和预估分层类型;根据所述点击标签与所述预估点击率之间的差异,以及所述分层标签与所述预估分层类型之间的差异,迭代优化所述点击率预估模型的模型参数,得到训练完成的点击率预估模型。本公开实施例可以提高点击率预估模型预估点击率的精准度。
技术领域
本公开的实施例涉及互联网技术领域,尤其涉及一种训练模型的方法、装置、电子设备及可读存储介质。
背景技术
点击率(Click-Through-Rate,CTR)通常是指网站页面上某一内容被点击的次数与被显示次数之比,点击率表示为百分比,可用于反映网页上某一内容的受关注程度。
为了预测某个内容的受关注程度,可以采用点击率预估模型进行预测。目前,对于大型的在线内容(如广告、新闻等)推荐系统而言,大部分是基于逻辑回归(LogisticRegression,LR)训练得到的点击率预估模型,将待预测的相关数据输入模型后,可以输出相应的预测结果。
然而,对于交互较少的用户样本,由于用户行为不够丰富,导致模型学习不充分,进而影响点击率预估模型的精准度。
发明内容
本公开的实施例提供一种训练模型的方法、装置、电子设备及可读存储介质,用以提高点击率预估模型预估点击率的精准度。
根据本公开的实施例的第一方面,提供了一种训练模型的方法,所述方法包括:
获取样本数据,所述样本数据包括低频用户样本和高频用户样本;
对每个样本数据标注样本标签,所述样本标签包括点击标签和分层标签;
将所述样本数据的输入特征输入初始的点击率预估模型,通过所述点击率预估模型将低频用户样本的输入特征映射到高频用户样本的输入特征空间,并输出每个样本数据的预估点击率和预估分层类型;
根据所述点击标签与所述预估点击率之间的差异,以及所述分层标签与所述预估分层类型之间的差异,迭代优化所述点击率预估模型的模型参数,得到训练完成的点击率预估模型。
根据本公开的实施例的第二方面,提供了一种点击率预估方法,所述方法包括:
获取目标用户的输入特征;
将所述目标用户的输入特征输入训练完成的点击率预估模型,通过所述点击率预估模型输出所述目标用户的点击概率,所述点击率预估模型根据前述的训练模型的方法训练得到。
根据本公开的实施例的第三方面,提供了一种训练模型的装置,所述装置包括:
样本获取模块,用于获取样本数据,所述样本数据包括低频用户样本和高频用户样本;
样本标注模块,用于对每个样本数据标注样本标签,所述样本标签包括点击标签和分层标签;
特征映射模块,用于将所述样本数据的输入特征输入初始的点击率预估模型,通过所述点击率预估模型将低频用户样本的输入特征映射到高频用户样本的输入特征空间,并输出每个样本数据的预估点击率和预估分层类型;
迭代优化模块,用于根据所述点击标签与所述预估点击率之间的差异,以及所述分层标签与所述预估分层类型之间的差异,迭代优化所述点击率预估模型的模型参数,得到训练完成的点击率预估模型。
根据本公开的实施例的第四方面,提供了一种点击率预估装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110342815.8/2.html,转载请声明来源钻瓜专利网。