[发明专利]一种统计UV数量的模拟运算方法有效
申请号: | 201910444637.2 | 申请日: | 2019-05-27 |
公开(公告)号: | CN110516184B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 刘志亮 | 申请(专利权)人: | 广州起妙科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06Q30/0601 |
代理公司: | 佛山市神机营专利代理事务所(普通合伙) 44765 | 代理人: | 顾都临 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统计 uv 数量 模拟 运算 方法 | ||
本发明提供了一种统计UV数量的模拟运算方法,通过提前设置特征值统计维度,将原有的统计过程分解为特征值设计、初步统计、相似度计算和结果统计将原来一次性的工作进行拆分,同时屏蔽了客户的隐私数据,适用于结果允许一定误差,统计口径无法事先确定的分析应用,具有较好的实时性和灵活度,可以有效解决统计UV数量涉及的数据量巨大,包含客户的隐私信息,导致相关应用难以展开的技术问题。
技术领域
本发明涉及数据统计技术领域,具体涉及一种统计UV数量的模拟运算方法。
背景技术
在互联网领域,独立访客(UniqueVisitor,UV),是指访问某个站点或点击某条新闻的自然人,是最能真实反映目标站点访问量的指标。通过统计访问某个站点或点击某条新闻的UV,进而分析UV的属性特征,可以作为制定网站运营、新闻更新、广告投放等策略的依据。例如,通过统计点击某条广告的UV的年龄、性别等属性特征,可以确定关注该广告的用户群体,进而在下次投放同类型广告时,只对该用户群体进行投放,以节省广告投放成本,提高广告点击率。
由于现有互联网访问量PV和UV数据量巨大,而且主业务系统多采用分布式的结构,相关的业务处理主机采用群集的方式,导致数据存储和统计分析需要存储和处理的数据量巨大,要进行数据过滤和去重导致计算资源消耗巨大。而统计分析的应用场景复杂,例如按照不同的客户画像标签进行分组合计,还需要在去重的基础上,将识别的UV标识和客户标签库相关联,计算过程往往需要几十分钟或者几个小时甚至几天,调用的集群主机往往需要十几台或者上百,而提交的分析代码或者语句如果有错漏,将导致结果不可用,需要重新修正后运行。
发明内容
针对现有技术的不足,本发明采用一部分统计数据相似度作为UV数量的参考,在误差允许范围内达到最快最准确的UV数量统计,突破了需要大量的存储和计算资源支撑的限定,具有更好的实时性和灵活度,可实际应用广。
为实现上述目的,本发明采用如下技术方案:
一种统计UV数量的模拟运算方法,包括以下步骤:
步骤S1,根据UV识别可以采用的数据,选择设计特征值的分类维度,主要选取的要求需要满足以下条件:避免标识ID取模,需要让UV数据符合一定的业务规律,而非随机均匀分布;避免男女性别这类枚举值过少的维度;如可以使用IP归属地域这类结果分布较多而且非均匀分布的维度;
步骤S2,按照访问对象、访问时间和特征值分类维度对采集到的原始数据进行去重和并统计,并将特征值的初步统计结果保存在数据库中;
步骤S3,根据UV的统计需求,从数据库中过滤出符合条件的初步统计结果,针对符合条件的初步统计结果计算特征值相似度,得出一组相似度数值Si,其中i为个数,相似度为0到1之间的一个浮点数,其中0表示两组数据完全不相似,1表示两组数据完全相似;
步骤S4,针对相似度的计算结果使用以下公式得到最终结果,公式如下:其中Di为相似度数值,对应各数据分组内的初步统计数据,n为需要汇总统计的数据分组总个数,S为需要统计的UV数量结果。S由两部分相加而成,第一部分是所有初步统计结果乘以(1-Si)的和,第二部分是所有初步统计结果乘以Si的最大值。
进一步的,所述步骤S1中,按照数据分析常用的维度选取,维度选取的个数大于一个。如采用IP地址作为维度选取,可以按照IP地址的来源地选取,这样统计结果为国内行政区域的个数,也可以选择两个或多个统计维度,比如按照接入的运营商+来源地,这样统计结果为运营商个数*行政区域个数。划分结果个数过小,将导致模拟结果与真实结果差异较大,划分结果个数过多,将导致运算量过大,划分个数应该控制在50-1000之间。
进一步的,所述步骤S2中,访问时间为小时、天或者周。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州起妙科技有限公司,未经广州起妙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910444637.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:静态网页的生成方法及装置
- 下一篇:动态网站的处理方法及装置