[发明专利]唯一自然人标识计算的方法、装置、电子设备和存储介质在审
申请号: | 202210376670.8 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114862449A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 宋亚恒 | 申请(专利权)人: | 上海虎瑾信息技术有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/2457;G06F16/2458 |
代理公司: | 北京市盈科律师事务所 11344 | 代理人: | 陈晨 |
地址: | 200241 上海市闵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 唯一 自然人 标识 计算 方法 装置 电子设备 存储 介质 | ||
本发明提供了一种唯一自然人标识计算的方法、装置、电子设备和存储介质,其中唯一自然人标识计算的方法包括:根据用户和设备的信息生成用户设备宽表,所述用户设备宽表中包括与用户和设备相关的字段和其对应的值:进行第一次迭代计算,用户设备宽表中每一行选择第一个不为空的值,作为UniqueId,形成单独一列,每一行原先的内容作为Context;形成第一次迭代计算表;进行第一次聚合,把第一次迭代计算表中具有相同UniqueId的行合并,去掉UniqueId的列,形成第一次聚合表;循环迭代,把第一次聚合表的每一列字段依次作为UniqueId,重复进行上述迭代计算和聚合,形成最后的聚合表;将最后的聚合表的每一行都标记唯一自然人标识。
技术领域
本发明涉及圈选计算领域。
背景技术
唯一自然人标识算法主要是为人群圈选逻辑提供唯一的维度进行人群包定向输出。
在进行业务精细化运营的过程中,人群圈选计算时可能会通过不同的ID进行(既要、又要、还要),例如:需要圈选出过去30天点过轮胎广告(可能未注册,仅有设备信息)并且性别是男年龄在30岁以内的所有用户,显然这需要从设备ID与用户ID两个维度进行圈选,如果按照这样的逻辑实现,圈选过程会相当复杂,而且性能不高,因此急需把数据关联到某一个维度,在这个维度上进行圈选,那么就会很容易了,这就是唯一自然人标识算法应用场景。
目前业界大部分的做法都是基于GraphX的图计算能力来统一计算的,基于Spark-GraphX的图计算算法仅支持节点是长整型的类型,不支持诸如设备类的(GUID类型),这样如果要使用的话需要多一层映射关系,计算前进行转换一次,计算后还需要转换回来。其缺点主要在于以下几方面:
第一、不支持直接字符串ID计算;
第二、需要维护映射关系;
第三、大批量数据计算因映射关系中间环节导致很慢。
发明内容
下文呈现各种示例性技术方案的概述。在以下概述中可以进行一些简化和省略,其意在突出并介绍各种示例性技术方案的一些方面,但不限制本发明的范围。将在后续部分呈现足以允许本领域的普通技术人员产生并使用本发明概念的示例性技术方案的详细描述。
本发明的技术方案提供一种唯一自然人标识计算的方法,包括:根据用户和设备的信息生成用户设备宽表,所述用户设备宽表中包括与用户和设备相关的字段和其对应的值:进行第一次迭代计算,用户设备宽表中每一行选择第一个不为空的值,作为UniqueId,形成单独一列,每一行原先的内容作为Context;形成第一次迭代计算表;进行第一次聚合,把第一次迭代计算表中具有相同UniqueId的行合并,去掉UniqueId的列,形成第一次聚合表;循环迭代,把第一次聚合表的每一列字段依次作为UniqueId,重复进行上述迭代计算和聚合,形成最后的聚合表;将最后的聚合表的每一行都标记唯一自然人标识。
可选地,所述用户设备宽表至少包括以下至少之一:UserId、DeviceId、phone、imei、idfa、openid、Tags。
可选地,所述方法还包括:循环迭代中将迭代计算表或聚合表的数据重新分布,平均分配给不同的机器。
可选地,所述方法还包括:迭代计算中将迭代计算表的数据序列化和反序列化的操作。
可选地,所述聚合表包括Context,判断Context每一列内容是否有重复,有重复则合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海虎瑾信息技术有限公司,未经上海虎瑾信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210376670.8/2.html,转载请声明来源钻瓜专利网。