[发明专利]一种统计UV数量的模拟运算方法有效

专利信息
申请号: 201910444637.2 申请日: 2019-05-27
公开(公告)号: CN110516184B 公开(公告)日: 2023-03-24
发明(设计)人: 刘志亮 申请(专利权)人: 广州起妙科技有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06Q30/0601
代理公司: 佛山市神机营专利代理事务所(普通合伙) 44765 代理人: 顾都临
地址: 510000 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 统计 uv 数量 模拟 运算 方法
【说明书】:

发明提供了一种统计UV数量的模拟运算方法,通过提前设置特征值统计维度,将原有的统计过程分解为特征值设计、初步统计、相似度计算和结果统计将原来一次性的工作进行拆分,同时屏蔽了客户的隐私数据,适用于结果允许一定误差,统计口径无法事先确定的分析应用,具有较好的实时性和灵活度,可以有效解决统计UV数量涉及的数据量巨大,包含客户的隐私信息,导致相关应用难以展开的技术问题。

技术领域

本发明涉及数据统计技术领域,具体涉及一种统计UV数量的模拟运算方法。

背景技术

在互联网领域,独立访客(UniqueVisitor,UV),是指访问某个站点或点击某条新闻的自然人,是最能真实反映目标站点访问量的指标。通过统计访问某个站点或点击某条新闻的UV,进而分析UV的属性特征,可以作为制定网站运营、新闻更新、广告投放等策略的依据。例如,通过统计点击某条广告的UV的年龄、性别等属性特征,可以确定关注该广告的用户群体,进而在下次投放同类型广告时,只对该用户群体进行投放,以节省广告投放成本,提高广告点击率。

由于现有互联网访问量PV和UV数据量巨大,而且主业务系统多采用分布式的结构,相关的业务处理主机采用群集的方式,导致数据存储和统计分析需要存储和处理的数据量巨大,要进行数据过滤和去重导致计算资源消耗巨大。而统计分析的应用场景复杂,例如按照不同的客户画像标签进行分组合计,还需要在去重的基础上,将识别的UV标识和客户标签库相关联,计算过程往往需要几十分钟或者几个小时甚至几天,调用的集群主机往往需要十几台或者上百,而提交的分析代码或者语句如果有错漏,将导致结果不可用,需要重新修正后运行。

发明内容

针对现有技术的不足,本发明采用一部分统计数据相似度作为UV数量的参考,在误差允许范围内达到最快最准确的UV数量统计,突破了需要大量的存储和计算资源支撑的限定,具有更好的实时性和灵活度,可实际应用广。

为实现上述目的,本发明采用如下技术方案:

一种统计UV数量的模拟运算方法,包括以下步骤:

步骤S1,根据UV识别可以采用的数据,选择设计特征值的分类维度,主要选取的要求需要满足以下条件:避免标识ID取模,需要让UV数据符合一定的业务规律,而非随机均匀分布;避免男女性别这类枚举值过少的维度;如可以使用IP归属地域这类结果分布较多而且非均匀分布的维度;

步骤S2,按照访问对象、访问时间和特征值分类维度对采集到的原始数据进行去重和并统计,并将特征值的初步统计结果保存在数据库中;

步骤S3,根据UV的统计需求,从数据库中过滤出符合条件的初步统计结果,针对符合条件的初步统计结果计算特征值相似度,得出一组相似度数值Si,其中i为个数,相似度为0到1之间的一个浮点数,其中0表示两组数据完全不相似,1表示两组数据完全相似;

步骤S4,针对相似度的计算结果使用以下公式得到最终结果,公式如下:其中Di为相似度数值,对应各数据分组内的初步统计数据,n为需要汇总统计的数据分组总个数,S为需要统计的UV数量结果。S由两部分相加而成,第一部分是所有初步统计结果乘以(1-Si)的和,第二部分是所有初步统计结果乘以Si的最大值。

进一步的,所述步骤S1中,按照数据分析常用的维度选取,维度选取的个数大于一个。如采用IP地址作为维度选取,可以按照IP地址的来源地选取,这样统计结果为国内行政区域的个数,也可以选择两个或多个统计维度,比如按照接入的运营商+来源地,这样统计结果为运营商个数*行政区域个数。划分结果个数过小,将导致模拟结果与真实结果差异较大,划分结果个数过多,将导致运算量过大,划分个数应该控制在50-1000之间。

进一步的,所述步骤S2中,访问时间为小时、天或者周。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州起妙科技有限公司,未经广州起妙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910444637.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top