[发明专利]一种互联网用户行为采集及分析检测的大数据方法在审

专利信息
申请号: 201611101048.7 申请日: 2016-12-02
公开(公告)号: CN106779827A 公开(公告)日: 2017-05-31
发明(设计)人: 潘争 申请(专利权)人: 上海晶樵网络信息技术有限公司
主分类号: G06Q30/02 分类号: G06Q30/02;G06Q50/00;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 202162 上海市崇明县陈家镇瀛*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 用户 行为 采集 分析 检测 数据 方法
【说明书】:

技术领域

发明属于计算机、互联网、信息技术领域,涉及信息的搜集与分析技术,尤其是一种互联网用户行为采集及分析检测的大数据方法。

背景技术

随着科技与互联网的进步,电子商务成为互联网行业的重要的一环,数据已经成为改变一家企业所必不可少的利器。尤其是随着大数据时代的到来,一些曾经非常棘手的问题都能够迎刃而解。用户的消费习惯、兴趣爱好、关系网络以及整个互联网的趋势、潮流都将成为互联网从业者关注的热点,而这一切的获取和分析都离不开大数据。一方面,社会化媒体基础上的大数据挖掘和分析将会衍生很多应用;另一方面,基于数据分析的营销咨询服务也正在兴起。

数据背后潜藏着巨大的商业机会。以前只有Google、微软这样的公司能做大数据的深挖,现在已经有越来越多的创业公司进入,不同公司在不同维度的数据分析和服务正创造出新的商业模式。

微博发言使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

大数据的核心即是通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。这里面,核心的技术就是数据挖掘和统计分析。

目前现有企业虽然可以通过ERP系统及时的监控跟踪分析自己的产品,但是对于竞争对手的情况,市场的动向以及消费者口碑等信息难以从量的角度把握。

经对现有技术的文献检索发现,有关用户多维度分析与监测方法主要有以下几种:

1.LDA(Latent Dirichlet Allocation)算法。这是一个概率模型,用于从文本中挖掘出用户所谈论的主题,本发明将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘(来源:Blei,D.M.,Ng,A.Y.,Jordan,M.I.:Latent Dirichlet Allocation.Journal of Machine Learning Research 3(2003)993-1022)

2. Bayes算法(朴素贝叶斯算法)来进行年龄预测。这是一个非常常用的文本分类算法,也适合在分布式环境里对海量数据进行分类,效果不错。(参考文献:1.Zhang,Harry.″The Optimal ity of Naive Bayes″.FLAIRS2004conference.

方法1是一个集合概率模型,主要用于处理离散的数据集合,目前主要用在数据挖掘(dm)中的text mining和自然语言处理中,主要是用来降低维度的。效果不错但是会有数据缺失的问题。

方法2是ML中的一个非常基础和简单的算法,常常用它来做分类,适用于text classification。现在的研究中已经很少有人用它来实验了(除非是做base line),但确实是个很好的入门的算法,不过对于年龄等数据推算补足还是太过于粗略。

发明内容

本发明的目的是针对现有技术的不足,提供一种互联网用户行为采集及分析检测的大数据方法。

为达到上述目的,本发明的解决方案是:

一一种互联网用户行为采集及分析检测的大数据方法,包括:

(1)搜集数据进行预处理;

(2)对预处理之后的数据进行分析、挖掘;

(3)对数据分析、挖掘数据的结果进行展现、可视化,对数据结果集加以利用。

进一步,步骤(1)中所述数据的搜集,主要采用ETL进行预处理;

优选的,搜集主要的互联网用户数据,主要是微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价等;

优选的,通过自建计算集群来进行上述搜集,从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序;

优选的,根据公开的信息去预测、补全未公开的信息,如年龄预测,性别预测等。

根据公开的信息去预测、补全年龄的年龄演算推测法:

把年龄分为N個年齡群組A{a1,a2,a3,a4..an}表示A用户的好友集合

(1)然后把关系网数据降维,减少数据量;

(2)age=MAX(count(an)).age;A的年龄=好友中年龄出现最多的

(3)预测正确年龄段人数N;

(4)实际有年龄段的人数M;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晶樵网络信息技术有限公司,未经上海晶樵网络信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611101048.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top