[发明专利]一种基于优先级的实时ID拉通引擎方法有效

申请号：	201811294114.6	申请日：	2018-10-31
公开（公告）号：	CN109446215B	公开（公告）日：	2022-04-12
发明（设计）人：	梁培明;孙伟;赵丹;苏萌;郭攀;黄伟	申请（专利权）人：	北京百分点科技集团股份有限公司
主分类号：	G06F16/23	分类号：	G06F16/23;G06F16/28
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	刘昕;南霆
地址：	100081 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于优先级实时 id 引擎方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于优先级的实时ID拉通引擎方法，包括如下步骤：S1、ID拉通引擎从kafka中获取实时的消费行为日志数据，并从行为日志数据中提取出所有的ID，然后找到mainID；每条行为日志数据中，mainID将会与除它自己之外的其它ID分别建立ID关系，即每条行为日志数据产出的ID关系的条数为n‑1，n为该行为日志数据中ID的数量；S2、根据步骤S1中生成的ID关系，更新数据库中ID关系的权重；S3、根据ID优先级由高到低的排序，逐级计算当前层级的ID的SuperID归属的变更。使用本发明的用户ID拉通解决方案，可以解决用户ID随着时间推移而变化这一现实问题；同时，准实时的实现(5s内)也可以满足互联网中推荐等其它技术的实时需求。

技术领域

本发明涉及大数据处理、流式处理、ID拉通技术领域，尤其涉及一种基于优先级的实时ID拉通引擎方法。

背景技术

当前业内已经存在了一种用户ID拉通的解决方案，但是该方案只是ID拉通的最初级解决方案，它无法解决以下两个问题：

1、业务层面：现有的方案将所有相关联的ID全部拉通到一起，形成一个用户的ID画像，但是它并未考虑到用户的ID会随着时间的推移而变化。比如，某个手机号ID在三个月前属于用户A，但在现在该手机号ID已经属于用户B，而按照现有的ID拉通解决方案，用户A、用户B的其他ID将会因为手机号ID的关联关系而被拉通到一起，最终，用户A以及用户B将会被视为一个用户。

2、技术层面：现有的用户ID拉通的解决方案是一个离线的解决方案，它只能T+1地展示用户的ID画像，无法满足一些实时的业务场景，比如推荐系统。

发明内容

本发明旨在提供一种基于优先级的实时ID拉通引擎方法，以解决现有的用户ID拉通方案的不足。

为了实现上述目的，本发明采用如下技术方案：

一种基于优先级的实时ID拉通引擎方法，包括如下步骤：

S1、ID拉通引擎从kafka中获取实时的消费行为日志数据，并从行为日志数据中提取出所有的ID，然后找到mainID；每条行为日志数据中，mainID将会与除它自己之外的其它ID分别建立ID关系，即每条行为日志数据产出的ID关系的条数为n-1，n为该行为日志数据中ID的数量；

S2、根据步骤S1中生成的ID关系，更新Redis数据库中ID关系的权重；

S3、根据ID优先级由高到低的排序，逐级计算当前层级的ID的SuperID归属的变更，并更新Redis数据库中的SuperID归属的ID列表。

进一步地，步骤S2中，所述更新Redis数据库中ID关系的权重采用如下两种方式中的任意一种：

1)基于共现次数更新权重：每条ID关系在行为日志数据中每出现一次，则权重值提升1；

2)基于最新共现优先更新权重：使用共现时刻的系统时间戳，保证最新共现的ID关系之间的权重是最大的。

进一步地，步骤S2中，更新数据库中ID关系的权重时，分别更新数据库中mainID保存的与各ID之间的权重，以及各ID保存的与mainID之间的权重。