[发明专利]一种基于消除位置与用户偏差的召回算法的离线评估方法在审
申请号: | 202011387570.2 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112381618A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 韩弘炀;傅剑文;陈心童;章建森 | 申请(专利权)人: | 天翼电子商务有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 102200 北京市昌平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 消除 位置 用户 偏差 召回 算法 离线 评估 方法 | ||
本发明公开了一种基于消除位置与用户偏差的召回算法的离线评估方法,包括以下步骤:S1.历史行为生成与存储;S2.新召回算法离线结果生成与存储;S3.用户j历史信息生成;S4.今日在线信息生成;S5.用户在线数据与离线召回数据匹配结果生成;S6.匹配用户量生成;S7.用户j匹配信息生成;S8.用户j点击期望估计;S9.所有用户点击期望估计和S10.效果评估。本发明提出了一种新型的推荐系统召回算法评估方式,在消除位置偏置以及用户偏置的基础上对新生成的召回算法效果进行评价,并能够离线估计该召回算法得到的用户在线上从未被展示的新候选品(新颖性召回)上线后的点击情况,从而能够更为精准、有效、科学地评估推荐系统中新生成的召回算法。
技术领域
本发明涉及推荐系统领域,特别涉及一种基于消除位置与用户偏差的召回算法的离线评估方法。
背景技术
召回是推荐系统流程中必不可少的步骤,它通过算法从成千上万的候选集中初步筛选出一小部分候选品。其筛选程度的优劣将直接影响最终推荐系统的效果。
在众多召回算法中,对于每个用户或多或少会有一些新物料的召回结果,而这些候选品与在线推荐的候选品不重复。针对此类评价场景,目前推荐系统中常用的AUC、nDCG等离线指标可能会低估算法的效果,而通过小流量上线对其效果进行评估,不仅可能影响线上整体效果,降低用户体验,还增加了额外的人工配置调整策略的成本。此外,候选品在线展示的位置以及展示的用户对其效果也有一定影响,目前在推荐系统中评估召回效果时并未考虑召回算法的候选品顺序以及推荐用户的影响。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于消除位置与用户偏差的召回算法的离线评估方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种基于消除位置与用户偏差的召回算法的离线评估方法,包括以下步骤:
S1.历史行为生成与存储:
对于用户每日曝光与点击的数据使用前端埋点进行记录,使用kafka对数据进行实时获取,并将数据存于hive表中;
S2.新召回算法离线结果生成与存储:
读取hive表中历史行为数据,使用SQL与python文件对数据进行清洗、处理、建模获取新召回算法结果,并将结果存于hive表中;
S3.用户j历史信息生成:
读取近T日用户曝光数据,生成用户j在T日内物品展示页曝光次数Nj、最大曝光位置MaxPj以及各展位i的曝光权重pij并将结果存于hive表中;其中曝光权重pij等于用户j在历史行为中位置i的曝光率,例如用户近T日进入展示页100次,第4展示位被曝光99次,即该位曝光率为99%;
S4.今日在线信息生成:
读取今日在线曝光、点击数据,生成今日在线点击量M以及在线用户数Uall=count(distinct展示用户)并将结果存于hive表中;
S5.用户在线数据与离线召回数据匹配结果生成:
使用hive将用户今日在线曝光、点击数据与新召回算法离线找回数据按图1的形式进行关联匹配,将结果存于hive表中;
S6.匹配用户量生成:
计算步骤5中在线曝光物品与召回物品有重合的用户数Upair;
S7.用户j匹配信息生成:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼电子商务有限公司,未经天翼电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011387570.2/2.html,转载请声明来源钻瓜专利网。