[发明专利]一种互联网访问日志解析方法及装置有效

专利信息
申请号: 201811456132.X 申请日: 2018-11-30
公开(公告)号: CN111258969B 公开(公告)日: 2023-08-15
发明(设计)人: 全东方;储晶星;张昭;傅一平 申请(专利权)人: 中国移动通信集团浙江有限公司;中国移动通信集团有限公司
主分类号: G06F16/18 分类号: G06F16/18;G06F16/23;G06F16/28;G06F16/2458
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹;李相雨
地址: 310016 *** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 访问 日志 解析 方法 装置
【说明书】:

发明实施例提供一种互联网访问日志解析方法及装置。所述方法包括采集访问日志,每条访问日志包括用户信息和Uri;Uri包括域名、规则和资源编码;根据域名和资源编码从与域名和规则对应的知识库中找到与Uri对应的页面信息;知识库至少包括一个页面信息和与每个页面信息一一对应的一组域名和资源编码,每个知识库与至少一组域名和规则相对应;将页面信息与用户信息合并为访问记录后存入数据仓库,本发明实施例通过访问日志的Uri得到所述域、规则和资源编码,从而根据域名和资源编码从与域名和规则对应的知识库中找到与Uri对应的页面内容,然后将页面内容和用户信息结合后存入到所述数据仓库中,从而提高了对于访问日志的解析的效率。

技术领域

本发明实施例涉及互联网技术领域,尤其涉及一种互联网访问日志解析方法及装置。

背景技术

随着大数据在业界的广泛引入,基础数据的采集越来越重要。互联网访问日志作为0域数据中重要的组成部分,对其进行解析,分类是很有必要的。由于访问日志量大,很难对管道中的数据进行全量处理,且大量移动端应用的后台通信都采用了Http协议进行通信。因此,目前的互联网日志解析的重点放在对Http日志解析上面。

在对Http协议日志的解析过程中,现有技术通常针对域名、流量等数据进行解析,其流程如下:1)为不同统一资源标识符(Uniform Resource Identifier,Uri)与其所对应的网站、应用建立一一对应的规则库,并定期对该规则库进行更新。2)从数据源逐条读取日志,与规则库中的记录进行比对,从而确认访问目标地址,并得到用户访问资源的编码。3)通过爬虫爬取指定网站中对应资源的具体编码以及相关信息,如根据图书编码爬取图书的作者图书名等基本信息。4)将用户的访问记录与爬虫爬取的资源信息,输出到数据仓库中;对于不包含具体资源信息的访问记录,统一输出到访问记录数据仓库。

现有技术的解析方式会频繁的通过爬虫爬取资源信息,而且无法及时对网络热点进行及时更新,滞后的规则更新会使分析结果与事实产生偏差,从而导致资源浪费,且效率较低。

发明内容

本发明实施例提供一种互联网访问日志解析方法及装置,用以解决现有技术的解析方式会频繁的通过爬虫爬取资源信息,而且无法及时对网络热点进行及时更新,滞后的规则更新会使分析结果与事实产生偏差,从而导致资源浪费,且效率较低。

第一方面,本发明实施例提供了一种互联网访问日志解析方法,包括:

采集访问日志,每条访问日志至少包括用户信息和Uri;其中,所述Uri至少包括域名、规则和资源编码;

根据所述域名和资源编码从与所述域名和规则对应的知识库中找到与所述Uri对应的页面信息;其中,所述知识库至少包括一个页面信息和与每个页面信息一一对应的一组域名和资源编码,每个知识库与至少一组域名和规则相对应;

将所述页面信息与所述用户信息合并为访问记录后存入数据仓库。

第二方面,本发明实施例提供了一种用于互联网访问日志解析的装置,包括:

采集模块,用于采集访问日志,每条访问日志至少包括用户信息和Uri;其中,所述Uri至少包括域名、规则和资源编码;

知识库模块,用于根据所述域名和资源编码从与所述域名和规则对应的知识库中找到与所述Uri对应的页面信息;其中,所述知识库至少包括一个页面信息和与每个页面信息一一对应的一组域名和资源编码,每个知识库与至少一组域名和规则相对应;

数据仓库模块,用于将所述页面信息与所述用户信息合并为访问记录后存入数据仓库。

第三方面,本发明实施例还提供了一种电子设备,包括:

处理器、存储器、通信接口和通信总线;其中,

所述处理器、存储器、通信接口通过所述通信总线完成相互间的通信;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司;中国移动通信集团有限公司,未经中国移动通信集团浙江有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811456132.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top