[发明专利]识别用户点击行为的方法及网关设备有效
| 申请号: | 201210464845.7 | 申请日: | 2012-11-16 |
| 公开(公告)号: | CN103825772B | 公开(公告)日: | 2017-06-06 |
| 发明(设计)人: | 陈潇;张晋兴;胡玉胜 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/66 |
| 代理公司: | 北京弘权知识产权代理事务所(普通合伙)11363 | 代理人: | 逯长明,许伟群 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 识别 用户 点击 行为 方法 网关 设备 | ||
技术领域
本发明涉及计算机网络技术领域,特别涉及一种识别用户点击行为的方法及网关设备。
背景技术
网络监控或网络行为分析中最基础的一项任务就是识别/统计用户的主动行为,在互联网应用中,WEB浏览是最常见、用户量最大、应用次数最多的一种网络应用,因而如何识别WEB浏览中的用户点击行为对实现各种网络管理功能至关重要。
目前,WEB浏览的数据一般是通过HTTP(hypertext transportprotocol,超文本传输协议)协议承载的,一次数据获取过程的通用模式是浏览器发起GET请求向服务器请求需要的数据,服务器通过Response 200OK返回数据。当用户在浏览器中输入一个URL地址或者点击一个URL链接来访问网页时,浏览器首先通过携带该URL的GET请求,下载该页面HTML文件。而后浏览器解析该HTML文件,每当遇到嵌入在该HTML文件中的资源(例如图片、JavaScript文件、CSS文件等)时,浏览器将自动通过GET请求向该嵌入文件所在的URL请求获取资源并下载解析,生成最终页面。可见在一次浏览中可能会有多次数据获取过程,但其中只有用户输入或者点击的链接的URL是体现用户的点击行为,其他的GET请求都是浏览器加载页面资源自动发起的。但是从PS(Packet Switch,分组交换)域网关的角度来看,其只能看到携带各种URL的GET请求,并不能识别GET请求的两种不同来源。由于目前的HTTP协议没有具体的规范帮助识别GET请求的来源,因而现有技术中不存在直接识别WEB浏览中的用户点击行为的方法。
现有技术中,常见的间接识别用户点击行为的方案有:通过浏览器增加字段辅助识别,或者通过时间阈值判断。由于浏览器可以天然感知区分用户点击或自动加载的GET请求,通过浏览器在HTTP请求中增加字段标识来辅助识别,例如增加User_Click_Tag字段,当其值为0时标识本GET请求浏览器自动加载的,值为1时标识本GET请求是用户点击的。PS网关可以通过解析GET请求中的该字段来进行识别。
另一种方式是通过GET请求中的Referer字段和GET请求时间差来识别。HTTP协议中定义Referer字段用于标识当前GET请求里的URL的来源,例如,浏览器加载www.xxx.com页面时,用于下载该页面所有资源的GET请求中的Referer字段都应该是www.xxx.com;同时若该页面有链接,则用户点击链接产生的GET请求的Referer也是www.xxx.com。因此,通过Referer字段可以将与页面加载对应的GET请求识别出来,又由于一般认为浏览器加载产生的GET请求的发出速度都很快而点击的GET请求的发出速度很慢,通过计算相邻GET间的时间差,可以简单区分用户点击或浏览器自动加载的GET请求。于是,通过Referer字段和对时间阈值的判断,可以间接地识别用户点击。
但是,上述现有方案中,通过浏览器辅助字段识别的方式依赖于特定的浏览器,并未形成行业规范,经常因为标准不统一难以相互兼容,不便于方案推广实施;而时间阈值的方式只是对点击行为的粗略判断,阈值的设置常常会与用户的真实行为产生偏差,不可避免地会误判漏判某些行为,识别结果的准确性难以保证。
发明内容
有鉴于此,本发明提供了一种识别用户点击行为的方法及网关设备,以解决现有技术中无法通用准确地识别用户浏览时的点击行为的问题。
为解决上述技术问题,本发明的第一方面提供了一种识别用户点击行为的方法,所述方法包括步骤:
获取用户浏览页面的HTML数据;
解析所述页面的HTML数据,提取其中的URL并解析各URL的类型,生成链接URL列表和/或资源URL列表;
识别对应于所述页面的GET请求中的URL,若所述GET请求中的URL在所述链接URL列表中或者所述GET请求中的URL不在所述资源URL列表中,将所述GET请求识别为一次用户点击行为。
在第一种可能的实现方式中,所述获取用户浏览页面的HTML数据包括:通过解析GET请求的响应报文获取所述页面的HTML数据。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述解析GET请求的响应报文包括:解析所述响应报文的Content-type字段,若为text/html,则进一步解析所述响应报文的Content-Encoding字段,若所述Content-Encoding字段提供了压缩格式,则依据所述压缩格式对所述响应报文的内容进行解压。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210464845.7/2.html,转载请声明来源钻瓜专利网。





