[发明专利]一种互联网用户行为采集及分析检测的大数据方法在审
| 申请号: | 201611101048.7 | 申请日: | 2016-12-02 |
| 公开(公告)号: | CN106779827A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 潘争 | 申请(专利权)人: | 上海晶樵网络信息技术有限公司 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/00;G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 202162 上海市崇明县陈家镇瀛*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 互联网 用户 行为 采集 分析 检测 数据 方法 | ||
技术领域
本发明属于计算机、互联网、信息技术领域,涉及信息的搜集与分析技术,尤其是一种互联网用户行为采集及分析检测的大数据方法。
背景技术
随着科技与互联网的进步,电子商务成为互联网行业的重要的一环,数据已经成为改变一家企业所必不可少的利器。尤其是随着大数据时代的到来,一些曾经非常棘手的问题都能够迎刃而解。用户的消费习惯、兴趣爱好、关系网络以及整个互联网的趋势、潮流都将成为互联网从业者关注的热点,而这一切的获取和分析都离不开大数据。一方面,社会化媒体基础上的大数据挖掘和分析将会衍生很多应用;另一方面,基于数据分析的营销咨询服务也正在兴起。
数据背后潜藏着巨大的商业机会。以前只有Google、微软这样的公司能做大数据的深挖,现在已经有越来越多的创业公司进入,不同公司在不同维度的数据分析和服务正创造出新的商业模式。
微博发言使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。
大数据的核心即是通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。这里面,核心的技术就是数据挖掘和统计分析。
目前现有企业虽然可以通过ERP系统及时的监控跟踪分析自己的产品,但是对于竞争对手的情况,市场的动向以及消费者口碑等信息难以从量的角度把握。
经对现有技术的文献检索发现,有关用户多维度分析与监测方法主要有以下几种:
1.LDA(Latent Dirichlet Allocation)算法。这是一个概率模型,用于从文本中挖掘出用户所谈论的主题,本发明将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘(来源:Blei,D.M.,Ng,A.Y.,Jordan,M.I.:Latent Dirichlet Allocation.Journal of Machine Learning Research 3(2003)993-1022)
2. Bayes算法(朴素贝叶斯算法)来进行年龄预测。这是一个非常常用的文本分类算法,也适合在分布式环境里对海量数据进行分类,效果不错。(参考文献:1.Zhang,Harry.″The Optimal ity of Naive Bayes″.FLAIRS2004conference.
方法1是一个集合概率模型,主要用于处理离散的数据集合,目前主要用在数据挖掘(dm)中的text mining和自然语言处理中,主要是用来降低维度的。效果不错但是会有数据缺失的问题。
方法2是ML中的一个非常基础和简单的算法,常常用它来做分类,适用于text classification。现在的研究中已经很少有人用它来实验了(除非是做base line),但确实是个很好的入门的算法,不过对于年龄等数据推算补足还是太过于粗略。
发明内容
本发明的目的是针对现有技术的不足,提供一种互联网用户行为采集及分析检测的大数据方法。
为达到上述目的,本发明的解决方案是:
一一种互联网用户行为采集及分析检测的大数据方法,包括:
(1)搜集数据进行预处理;
(2)对预处理之后的数据进行分析、挖掘;
(3)对数据分析、挖掘数据的结果进行展现、可视化,对数据结果集加以利用。
进一步,步骤(1)中所述数据的搜集,主要采用ETL进行预处理;
优选的,搜集主要的互联网用户数据,主要是微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价等;
优选的,通过自建计算集群来进行上述搜集,从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序;
优选的,根据公开的信息去预测、补全未公开的信息,如年龄预测,性别预测等。
根据公开的信息去预测、补全年龄的年龄演算推测法:
把年龄分为N個年齡群組A{a1,a2,a3,a4..an}表示A用户的好友集合
(1)然后把关系网数据降维,减少数据量;
(2)age=MAX(count(an)).age;A的年龄=好友中年龄出现最多的
(3)预测正确年龄段人数N;
(4)实际有年龄段的人数M;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晶樵网络信息技术有限公司,未经上海晶樵网络信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611101048.7/2.html,转载请声明来源钻瓜专利网。





