[发明专利]一种页面访问上下游流量的计算方法在审
申请号: | 202011567271.7 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112612987A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 刘家锹 | 申请(专利权)人: | 广州凡科互联网科技股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/951 |
代理公司: | 济宁众城专利事务所 37106 | 代理人: | 李效宁 |
地址: | 510000 广东省广州市海珠区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 访问 下游 流量 计算方法 | ||
本发明属于大数据分析技术领域,涉及一种页面访问上下游流量的计算方法,步骤为:获取用户的访问日志数据并进行存储;离线分析系统读取并解析访问日志数据,还原用户访问路径树,将其写入存储系统中的数据表中;即席分析系统根据查询条件,读取并匹配用户的访问树,返回页面的上下游流量数据。本发明通过访问路径计算规则将无结构、乱序的访问日志转化为用户完整的访问路径的树状结构,从而支持多样的查询匹配条件,数据更加准确避免数据的重复匹配;通过对树状结构序列化的存储方式,在不丢失访问信息的保证下,由链接树字典单元块加速查询匹配效率,而访问树单块元的序列化方式极大方便路径检索算法实现,能够提供给定访问路径并匹配的能力。
技术领域
本发明属于大数据分析技术领域,涉及一种页面访问上下游流量的计算方法。
背景技术
通过用户访问网站留下的访问日志,分析页面的访问情况以及给下游页面的流量转化情况是每个公司的基本运营关注指标,基于这些数据可调整页面布局等手段最大化用户访问留存和调整流量分配。目前存在的问题是,直接查询访问日志计算的方案复杂繁琐,而市面上存在的众多分析服务也仅能满足基本的数据需求,无法很好匹配公司的业务情况以及分析需要,尤其是市面的分析服务计算上下游流量算法,当用户的访问路径中存在多个匹配时都会全部算入,存在重复统计问题,不能反映出流量逐层递减的数据指标,而且无法满足匹配给定一条页面访问路径的流量情况的分析需要。
发明内容
本发明针对上述的问题,提供了一种页面访问上下游流量的计算方法。
为了达到上述目的,本发明采用的技术方案为,
一种页面访问上下游流量的计算方法,
具体步骤如下:
1)获取用户的访问日志数据并进行存储;
2)离线分析系统读取并解析访问日志数据,还原用户访问路径树,并将其写入存储系统中的数据表中;
3)即席分析系统根据查询条件,读取并匹配用户的访问树,返回页面的上下游流量数据。
作为优选,所述访问日志数据包括访问时间、用户标识ID、会话ID、当前页面链接、来源页面链接。
作为优选,所述步骤2)为:离线分析系统读取并解析访问日志数据,基于日志信息按照路径计算规则还原用户的访问路径树,并将访问树序列化后与其他用户信息写入到存储系统中的数据表中。
作为优选,所述路径计算规则包括以下步骤:读取访问日志,并按用户标识ID,会话ID分组;对分组内数据按照访问时间做升序排序;按顺序遍历,根据当前页面访问日志的来源页面链接,回溯查找该来源页面在时间上最近一次访问的记录,若查找到,则将当前页面标记为该来源页面的下游并存储到特定的数据结构,否则标记为新的访问入口,直至遍历完全部记录。
作为优选,所述即席分析系统中的查询条件包括时间范围、待查询页面的链接以及待查询页面所属访问路径沿途访问过的页面链接和顺序。
作为优选,所述即席分析系统中的返回页面的上下游流量数据包括:
下游或下游各页面链接,下游或下游各页面PV,下游或下游各页面UV,下游或下游各页面PV占比,下游总的流失量与流失率。
作为优选,所述离线分析系统为Hive计算引擎,即席分析系统包括Presto查询计算引擎和web平台。
作为优选,所述存储系统包括数据存储系统和数据序列化格式;
所述数据序列化格式包括:
会话单元块,描述当前用户ID下各个会话的访问路径,包含页面链接字典子单元块和访问树子单元块;
页面链接字典子单元块,描述出现的页面链接,对访问树中出现的链接进行编号为字典;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州凡科互联网科技股份有限公司,未经广州凡科互联网科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011567271.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金刚石钻头打磨装置
- 下一篇:一种水产养殖用水质检测仪