[发明专利]一种页面访问上下游流量的计算方法在审
申请号: | 202011567271.7 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112612987A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 刘家锹 | 申请(专利权)人: | 广州凡科互联网科技股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/951 |
代理公司: | 济宁众城专利事务所 37106 | 代理人: | 李效宁 |
地址: | 510000 广东省广州市海珠区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 访问 下游 流量 计算方法 | ||
1.一种页面访问上下游流量的计算方法,其特征在于,
具体步骤如下:
1)获取用户的访问日志数据并进行存储;
2)离线分析系统读取并解析访问日志数据,还原用户访问路径树,并将其写入存储系统中的数据表中;
3)即席分析系统根据查询条件,读取并匹配用户的访问树,返回页面的上下游流量数据。
2.根据权利要求1所述的一种页面访问上下游流量的计算方法,其特征在于,所述访问日志数据包括访问时间、用户标识ID、会话ID、当前页面链接、来源页面链接。
3.根据权利要求2所述的一种页面访问上下游流量的计算方法,其特征在于,所述步骤2)为:离线分析系统读取并解析访问日志数据,基于日志信息按照路径计算规则还原用户的访问路径树,并将访问树序列化后与其他用户信息写入到存储系统中的数据表中。
4.根据权利要求3所述的一种页面访问上下游流量的计算方法,其特征在于,所述路径计算规则包括以下步骤:读取访问日志,并按用户标识ID,会话ID分组;对分组内数据按照访问时间做升序排序;按顺序遍历,根据当前页面访问日志的来源页面链接,回溯查找该来源页面在时间上最近一次访问的记录,若查找到,则将当前页面标记为该来源页面的下游并存储到特定的数据结构,否则标记为新的访问入口,直至遍历完全部记录。
5.根据权利要求4所述的一种页面访问上下游流量的计算方法,其特征在于,所述即席分析系统中的查询条件包括时间范围、待查询页面的链接以及待查询页面所属访问路径沿途访问过的页面链接和顺序。
6.根据权利要求5所述的一种页面访问上下游流量的计算方法,其特征在于,所述即席分析系统中的返回页面的上下游流量数据包括:
下游或下游各页面链接,下游或下游各页面PV,下游或下游各页面UV,
下游或下游各页面PV占比,下游总的流失量与流失率。
7.根据权利要求6所述的一种页面访问上下游流量的计算方法,其特征在于,所述离线分析系统为Hive计算引擎,即席分析系统包括Presto查询计算引擎和web平台。
8.根据权利要求1所述的一种页面访问上下游流量的计算方法,其特征在于,所述存储系统包括数据存储系统和数据序列化格式;
所述数据序列化格式包括:
会话单元块,描述当前用户ID下各个会话的访问路径,包含页面链接字典子单元块和访问树子单元块;
页面链接字典子单元块,描述出现的页面链接,对访问树中出现的链接进行编号为字典;
访问树子单元块,描述访问路径,对路径树层次遍历得到序列做编码。
9.根据权利要求8所述的一种页面访问上下游流量的计算方法,其特征在于,所述数据存储系统为HDFS。
10.根据权利要求8所述的一种页面访问上下游流量的计算方法,其特征在于,数据序列化格式按照给定的编码结构,采用二进制字节编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州凡科互联网科技股份有限公司,未经广州凡科互联网科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011567271.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金刚石钻头打磨装置
- 下一篇:一种水产养殖用水质检测仪