[发明专利]一种基于spark大数据的闭环目标客户识别方法在审
申请号: | 201810888960.4 | 申请日: | 2018-08-07 |
公开(公告)号: | CN109087140A | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 李振彰;钟碧良;吴继裕;曹玉军;张绍安;林广松;梁运鑫;李嘉仪;翁伟林;郑鹏达 | 申请(专利权)人: | 广州航海学院 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q30/06;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标客户 客户 闭环 大数据 构建 客户生命周期 数据处理技术 数据预处理 产品推荐 潜在用户 社区发现 生命周期 数据采集 随机森林 用户身份 资源发展 并行图 算法 画像 关联 挖掘 社区 优化 研究 | ||
本发明涉及Spark大数据处理技术领域,尤其是一种基于spark大数据的闭环目标客户识别方法,包括以下步骤:S1:数据采集;S2:数据预处理;S3:多重用户身份关联;S4:构建客户画像模型;S5:构建客户生命周期价值(CLV)模型:根据已有的研究,本系统的户生命周期价值(CLV)模型包含客户当前价值(CCV)和客户预期价值(CFV);S6:社区发现模型:该模型基于Spark GraphX的并行图计算采用FastUnfolding算法,通过不断优化Modularity值以挖掘客户所在的社区;S7:基于随机森林的产品推荐。本发明能够对客户进行细分,有利于企业定位和识别目标客户,以及利用有限的资源发展具有高价值的用户和潜在用户。
技术领域
本发明涉及Spark大数据处理技术领域,尤其涉及一种基于spark大数据的闭环目标客户识别方法。
背景技术
传统客户识别模式因无法对客户进行精准判断和及时更新优化产品而造成客户流失和无法激活潜在客户的问题,从海量的客户信息中无法准确识别提取出对商家有用信息。为此,我们提出了一种基于spark大数据的闭环目标客户识别方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于spark大数据的闭环目标客户识别方法。
为了实现上述目的,本发明采用了如下技术方案:
设计一种基于spark大数据的闭环目标客户识别方法,包括以下步骤:
S1:数据采集:利用不同社交网络开放的API接口爬取公共用户信息,用户信息包括用户ID、昵称、性别以及评论,将采集到的公共用户信息同客户消费数据产生的数据实时发布到已搭建好的kafka分布式消息分发系统上;
S2:数据预处理:使用Spark Streaming集群实时地从Kafka集群中获取数据并对非规整数据和异常数据进行过滤和删除,通过Kafka+flume进行数据的流转,经过spark的实时分析,将结果存入hbase,最后结合前端展现;
S3:多重用户身份关联:利用预处理过的公共用户信息和客户信息,匹配出客户在不同社交网络所对应的账户,并将客户在社交网络具有的多重身份进行关联统一,具体步骤如下:
A、如在公共用户信息中匹配出与客户信息具有相同的手机号和邮箱决定性属性则关联该用户;
B、使用昵称或者地址其他非决定属性构建客户信息向量V(a1,a2,···ai)和公共用户信息向量s(a1,a2,···ai),使用夹角余弦计算客户信息向量v和公共用户信息向量s的相似度,若是相似度大于1,则将客户与该社交用户关联;
S4:构建客户画像模型:根据目标产业产品业务知识图谱与进行社交网络用户关联后的客户信息定义用户标签;
S5:构建客户生命周期价值(CLV)模型:根据已有的研究,本系统的户生命周期价值(CLV)模型包含客户当前价值(CCV)和客户预期价值(CFV),具体公式如下:
CLV=CCV+CFV
ti-客户生命周期的某一时期;
Ni-到目前为止客户关系延续的时期;
a-折现率;
E(i)-预计今后继续保持客户关系的时期;
πp(ti)-在过去的ti期客户为企业贡献的利润;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州航海学院,未经广州航海学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810888960.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于feed流的广告投放方法及装置
- 下一篇:一种提升身份属性的方法