[发明专利]一种网络数据处理方法和装置在审
申请号: | 201410093295.1 | 申请日: | 2014-03-13 |
公开(公告)号: | CN103905434A | 公开(公告)日: | 2014-07-02 |
发明(设计)人: | 罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/26;H04L29/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 数据处理 方法 装置 | ||
技术领域
本发明涉及网络技术领域,具体涉及一种网络数据处理方法和装置。
背景技术
随着互联网的飞速发展,传统的交易模式已经被快捷方便的网络交易模式所取代,网络推广营销方式也更加广泛,通过用户的访问数据来分析用户的兴趣爱好和购买习惯等,可以使网络推广营销更加具有针对性,对感兴趣的用户直接进行在线推荐。但是对于访问量较多的网站,用户的访问数据也相当的庞大,其中包括大量没有价值的垃圾数据,要想从这些数据中分析出用户的兴趣爱好和购买习惯,需要先对用户的访问数据进行清洗,过滤掉垃圾数据。
当用户访问一个网页时,会产生大量的HTTP GET请求,其中绝大多数包含的是js、css、图片等类型文件HTTP请求,只有一条或两条是获取html文件的请求,该html文件的请求称为主链接,是对分析用户行为有用的信息,而那些大量获取js、css、图片等HTTP请求则成为没有价值的垃圾数据。
针对上述垃圾数据,现有技术过滤垃圾数据的方法主要步骤如下:
根据HTTP GET报文中请求的文件类型进行过滤,判断文件的后缀,如果是对应的js、css、图片等文件类型后缀,则丢弃该报文。例如:
代表js文件的url:http://d1.sina.com.cn/js/index/14/sync.js
代表图片的url:http://i0.sinaimg.cn/cha/images/c.tif
代表css文件的url:http://img.adbox.sina.com.cn/static/css/base.css
但是,上述根据文件类型进行过滤时,要判断文件的后缀,由于存在很多js文件并不在url中带js后缀,同理也包括图片文件、css文件等,所以根据文件类型无法将全部的无用类型文件进行过滤,造成垃圾数据清洗成功率较低,进而影响对用户上网行为和兴趣信息的分析及判断结果。
因此,需要本领域技术人员迫切解决的一个技术问题就是:如何提高对用户访问数据中垃圾数据清洗的成功率,以提高对用户行为和兴趣信息解析的准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络数据处理方法和装置。
依据本发明的一个方面,提供了一种网络数据处理方法,所述方法包括:
获取网络上行报文,所述上行报文携带有第一源信息;
匹配所述第一源信息和预置的用户访问记录表中对应的第二源信息;
若匹配,则确定所述上行报文为垃圾数据;若不匹配,则输出所述上行报文,以及在所述用户访问记录表中设置对应的访问记录;
过滤垃圾数据。
可选地,所述网络上行报文还携带有用户代理信息useragent;
所述过滤垃圾数据之前,还包括:
匹配所述代理信息useragent和预置代理信息配置表,若不匹配,则确定所述网络上行报文为垃圾数据。
可选地,所述用户代理配置信息表中的配置项目包括:操作系统和/或终端品牌和/或浏览器和/或应用软件;
所述匹配所述用户代理信息useragent和预置的用户代理信息配置表具体包括:
匹配用户代理信息useragent与用户代理配置信息表中的任意一个配置项,若不匹配,则确定所述网络上行报文为垃圾数据。
可选地,所述网络上行报文还携带有类型信息Accept;
所述过滤垃圾数据之前,还包括:
匹配所述类型信息Accept和预置的类型信息配置表,若匹配,则确定所述网络上行报文为垃圾数据。
可选地,所述网络上行报文为http get报文,所述第一源信息和第二源信息具体为http Referer信息。
根据本发明的另一方面,提供了一种网络数据处理装置,包括:
报文获取模块,用于获取网络上行报文,所述上行报文携带有第一源信息;
第一匹配模块,用于匹配所述报文获取模块所获取网络上行报文中携带的第一源信息和预置的用户访问记录表中对应的第二源信息;
若匹配,则确定所述上行报文为垃圾数据;若不匹配,则输出所述上行报文,以及在所述用户访问记录表中设置对应的访问记录;
垃圾数据处理模块,用于过滤垃圾数据。
可选地,所述报文获取模块所获取的网络上行报文还携带有用户代理信息useragent;
所述装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410093295.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:业务链路选择控制方法以及设备
- 下一篇:一种进度调节方法及电子设备