[发明专利]一种互联网用户行为采集及分析检测的大数据方法在审
| 申请号: | 201611101048.7 | 申请日: | 2016-12-02 |
| 公开(公告)号: | CN106779827A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 潘争 | 申请(专利权)人: | 上海晶樵网络信息技术有限公司 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/00;G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 202162 上海市崇明县陈家镇瀛*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 互联网 用户 行为 采集 分析 检测 数据 方法 | ||
1.一种互联网用户行为采集及分析检测的大数据方法,其特征在于;具体步骤包括:
(1)数据的搜集和预处理;
(2)数据分析及挖掘;
(3)对数据分析的结果加以利用。
2.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于:所述步骤(1)中所述数据的搜集,主要采用ETL进行预处理;搜集的主要是互联网用户的数据,主要包含有微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价;通过自建计算集群来进行上述搜集,从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序;根据公开的信息去预测、补全未公开的信息,如年龄预测,性别预测。
3.根据权利要求2所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于;根据公开的信息去预测、补全年龄的年龄演算具体推测法:把年龄分为N個年齡群組A{a1,a2,a3,a4..an}
(1)然后把关系网数据降维,减少数据量;
(2)age=MAX(count(an)).age;
(3)预测正确年龄段人数N;
(4)实际有年龄段的人数M;
(5)准确率=预测正确年龄段人数/实际有年龄段的人数=N/M。
4.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于;所述步骤(2)中以数据的分析,挖掘为主;所述数据分析:企业用户可以按时间纬度自己的产品以及指定竞争对手在各个网络渠道的销售情况,以及这些产品的评论口碑,给企业用户多维查询;数据挖掘主要包括:(1)基于CRM库的定向营销:预先建立微博、qq、微信等实体用户数据库,并且为这些用户的贴上喜好标签,企业方可以对这些用户发送广告信息;(2)交叉销售;购买了某品牌产品的用户,也同时购买了其他产品;建议增加绑定,提高销量;(3)促销活动预测和结果分析;对促销前,对目标客户群锁定,计算促销方案,促销之后,评价;促销前,一般促销方案分为:满减,满赠,积分等;
比如,满300元送精美餐具一套,预估日均业绩100万,送多少比合适;预测的参加率为30%,(100万*30%)/300元=1000笔(合适);促销后,评测促销结果:a.促销活动的效益增加率;b.基于微博,评论数据,了解有多少人还记得这次促销活动,看法和态度如何,对品牌的忠诚度的上升或下跌;(4)时间序列预测;基于全网的用户发言倾向,产品数据,对企业方的产品销量,市场饱和度,市场走势发展做出预测;比如检测到某个时间段,笔记本电脑热卖;而且季节也临近夏季,那么笔记本用户对电脑散热的需求也随之而来。
5.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于:所述步骤(3)中第三阶段以数据的展现、可视化、数据结果集的操作利用为主;除了常规的表示数据走势的曲线图,数据份额的饼状图以外,该系统可以为企业方提供向特定用户群发联络信的功能。
6.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于;针对互联网上海量用户的发言,采用的技术是中文的文本挖掘;中文的文本分析首先用到的是中文分词;本发明采用的是IKAnalyzer中文分词系统,这是一个开源的分词系统,在这个工具的基础上,创建了多达250个分类词库;在经过“分词”这一基本的文字处理后,为了从海量的用户发言中挖掘出用户的兴趣爱好,从而给每个用户打上标签,采用的是LDA算法;用于从文本中挖掘出用户所谈论的主题,本发明将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘;采用 Bayes算法,即朴素贝叶斯算法来进行年龄预测。
7.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于:在互联网的海量数据中,用户间的关系组成了一张庞大的关系网,从中找出最核心的用户,即整个关系网中最有影响力的用户;采用PageRank算法,将其应用在人与人之间的网络关系上,用来判断一个人的影响力,通过分布式环境,能够计算几亿人之间的关系,得到几亿人的影响力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晶樵网络信息技术有限公司,未经上海晶樵网络信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611101048.7/1.html,转载请声明来源钻瓜专利网。





