[发明专利]一种公司用户画像的生成方法在审

专利信息
申请号: 201811622697.0 申请日: 2018-12-28
公开(公告)号: CN109710697A 公开(公告)日: 2019-05-03
发明(设计)人: 孙锦彬;吴承霖;周津 申请(专利权)人: 厦门笨鸟电子商务有限公司
主分类号: G06F16/27 分类号: G06F16/27;G06F16/215;G06F16/2458;G06F16/23
代理公司: 厦门市新华专利商标代理有限公司 35203 代理人: 罗恒兰
地址: 361000 福建省厦门市思明区前埔*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种公司用户画像的生成方法,其步骤包括离线画像和实时画像,离线画像通过spark搭建画像系统,并将数据同步到hdfs,进行定时更新,通过同步数据、统计数据和gbdt算法预测特征,生成离线画像;实时画像通过kafka将用户的实时信息发送至spark streaming,根据用户行为更新画像,并将每个窗口的数据进行统计并预测,更新到用户的画像列表中。本发明采用同步的形式,定时将数据源的数据同步到hdfs中,与spark更好地结合,提高效率并减少服务器压力,确保画像具有时效性;并进行多时间串口的滑动,通过用户实时信息更新画像,保证画像的实时性,使特征以及画像不会受太久前的数据干扰,使画像更加符合用户本身,提高画像的准确性。
搜索关键词: 画像 离线 公司用户 数据同步 更新 用户实时信息 串口 服务器压力 定时更新 实时信息 数据干扰 算法预测 同步数据 统计数据 用户行为 时效性 实时性 数据源 同步的 滑动 发送 预测 统计 保证
【主权项】:
1.一种公司用户画像的生成方法,其特征在于包括以下步骤:步骤1、离线画像1‑1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中;将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新;1‑2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据;1‑3数据统计:将统计数据类型的画像按照时间窗口划分好进行统计,得到统计数据;1‑4特征预测:通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征;1‑5离线画像存储:将1‑3与1‑4中生成的所有维度的特征进行合并,通过hive存储在hdsf中;步骤2、实时画像2‑1数据传输:画像系统通过kafka将用户的实时信息发送至spark streaming,根据用户行为更新画像;2‑2实时画像生成:将每个窗口的数据进行统计并预测,更新到用户的画像列表中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门笨鸟电子商务有限公司,未经厦门笨鸟电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811622697.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top