[发明专利]一种公司用户画像的生成方法在审
申请号: | 201811622697.0 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109710697A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 孙锦彬;吴承霖;周津 | 申请(专利权)人: | 厦门笨鸟电子商务有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/215;G06F16/2458;G06F16/23 |
代理公司: | 厦门市新华专利商标代理有限公司 35203 | 代理人: | 罗恒兰 |
地址: | 361000 福建省厦门市思明区前埔*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种公司用户画像的生成方法,其步骤包括离线画像和实时画像,离线画像通过spark搭建画像系统,并将数据同步到hdfs,进行定时更新,通过同步数据、统计数据和gbdt算法预测特征,生成离线画像;实时画像通过kafka将用户的实时信息发送至spark streaming,根据用户行为更新画像,并将每个窗口的数据进行统计并预测,更新到用户的画像列表中。本发明采用同步的形式,定时将数据源的数据同步到hdfs中,与spark更好地结合,提高效率并减少服务器压力,确保画像具有时效性;并进行多时间串口的滑动,通过用户实时信息更新画像,保证画像的实时性,使特征以及画像不会受太久前的数据干扰,使画像更加符合用户本身,提高画像的准确性。 | ||
搜索关键词: | 画像 离线 公司用户 数据同步 更新 用户实时信息 串口 服务器压力 定时更新 实时信息 数据干扰 算法预测 同步数据 统计数据 用户行为 时效性 实时性 数据源 同步的 滑动 发送 预测 统计 保证 | ||
【主权项】:
1.一种公司用户画像的生成方法,其特征在于包括以下步骤:步骤1、离线画像1‑1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中;将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新;1‑2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据;1‑3数据统计:将统计数据类型的画像按照时间窗口划分好进行统计,得到统计数据;1‑4特征预测:通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征;1‑5离线画像存储:将1‑3与1‑4中生成的所有维度的特征进行合并,通过hive存储在hdsf中;步骤2、实时画像2‑1数据传输:画像系统通过kafka将用户的实时信息发送至spark streaming,根据用户行为更新画像;2‑2实时画像生成:将每个窗口的数据进行统计并预测,更新到用户的画像列表中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门笨鸟电子商务有限公司,未经厦门笨鸟电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811622697.0/,转载请声明来源钻瓜专利网。