[发明专利]一种基于优先级的实时ID拉通引擎方法有效
申请号: | 201811294114.6 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109446215B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 梁培明;孙伟;赵丹;苏萌;郭攀;黄伟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/28 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕;南霆 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 优先级 实时 id 引擎 方法 | ||
本发明公开了一种基于优先级的实时ID拉通引擎方法,包括如下步骤:S1、ID拉通引擎从kafka中获取实时的消费行为日志数据,并从行为日志数据中提取出所有的ID,然后找到mainID;每条行为日志数据中,mainID将会与除它自己之外的其它ID分别建立ID关系,即每条行为日志数据产出的ID关系的条数为n‑1,n为该行为日志数据中ID的数量;S2、根据步骤S1中生成的ID关系,更新数据库中ID关系的权重;S3、根据ID优先级由高到低的排序,逐级计算当前层级的ID的SuperID归属的变更。使用本发明的用户ID拉通解决方案,可以解决用户ID随着时间推移而变化这一现实问题;同时,准实时的实现(5s内)也可以满足互联网中推荐等其它技术的实时需求。
技术领域
本发明涉及大数据处理、流式处理、ID拉通技术领域,尤其涉及一种基于优先级的实时ID拉通引擎方法。
背景技术
当前业内已经存在了一种用户ID拉通的解决方案,但是该方案只是ID拉通的最初级解决方案,它无法解决以下两个问题:
1、业务层面:现有的方案将所有相关联的ID全部拉通到一起,形成一个用户的ID画像,但是它并未考虑到用户的ID会随着时间的推移而变化。比如,某个手机号ID在三个月前属于用户A,但在现在该手机号ID已经属于用户B,而按照现有的ID拉通解决方案,用户A、用户B的其他ID将会因为手机号ID的关联关系而被拉通到一起,最终,用户A以及用户B将会被视为一个用户。
2、技术层面:现有的用户ID拉通的解决方案是一个离线的解决方案,它只能T+1地展示用户的ID画像,无法满足一些实时的业务场景,比如推荐系统。
发明内容
本发明旨在提供一种基于优先级的实时ID拉通引擎方法,以解决现有的用户ID拉通方案的不足。
为了实现上述目的,本发明采用如下技术方案:
一种基于优先级的实时ID拉通引擎方法,包括如下步骤:
S1、ID拉通引擎从kafka中获取实时的消费行为日志数据,并从行为日志数据中提取出所有的ID,然后找到mainID;每条行为日志数据中,mainID将会与除它自己之外的其它ID分别建立ID关系,即每条行为日志数据产出的ID关系的条数为n-1,n为该行为日志数据中ID的数量;
S2、根据步骤S1中生成的ID关系,更新Redis数据库中ID关系的权重;
S3、根据ID优先级由高到低的排序,逐级计算当前层级的ID的SuperID归属的变更,并更新Redis数据库中的SuperID归属的ID列表。
进一步地,步骤S2中,所述更新Redis数据库中ID关系的权重采用如下两种方式中的任意一种:
1)基于共现次数更新权重:每条ID关系在行为日志数据中每出现一次,则权重值提升1;
2)基于最新共现优先更新权重:使用共现时刻的系统时间戳,保证最新共现的ID关系之间的权重是最大的。
进一步地,步骤S2中,更新数据库中ID关系的权重时,分别更新数据库中mainID保存的与各ID之间的权重,以及各ID保存的与mainID之间的权重。
进一步地,步骤S3的具体过程为:
S3.1、设定优先级一共分为n级,每层的编号为0~n-1;
S3.2、先确定最高层优先级n-1中各ID的SuperID归属;
S3.3、按照ID优先级从高到低依次计算n-2至0层优先级中各ID的SuperID归属;每层优先级中各ID的SuperID归属按如下方式确定:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811294114.6/2.html,转载请声明来源钻瓜专利网。