[发明专利]URL处理方法及装置有效
申请号: | 201610996918.5 | 申请日: | 2016-11-08 |
公开(公告)号: | CN108073607B | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 包佳杰;施维 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958;G06F8/20 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓菲;王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | url 处理 方法 装置 | ||
本发明公开了一种URL处理方法和装置,提高了对用户访问网站数据的收集成功率。所述方法包括:获取被访问页面的来源页面的URL;若所述来源页面的URL的字符的个数大于第一阈值,则按照预设规则从所述来源页面的URL中提取部分字符串,得到来源页面的处理后URL;若所述来源页面的处理后URL的字符个数小于或等于所述第一阈值,则利用所述来源页面的处理后URL生成请求URL,所述请求URL的字符个数满足浏览器对所述请求URL的最大长度限制条件。
技术领域
本发明涉及大数据分析领域,尤其涉及一种URL处理方法及装置。
背景技术
在大数据分析领域,为了收集页面访问者的访问行为数据,主流的页面分析工具通常会利用安装在用户客户端的JavaScript Tracker(JavaScript跟踪器)来记录用户访问浏览器当前被访问页面的来源页面的URL(全名Uniform Resource Locator,统一资源定位符),然后将所述来源页面的URL填充到浏览器的Get请求的请求URL(Request URL)中,并将所述Get请求发送到数据采集服务器,以对用户对页面的访问路径进行分析。其中,URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
然而,目前的浏览器对Get请求中的请求URL长度有一定的限制,例如,IE(Internet Explorer)浏览器对请求URL长度的最大限制为2083个字符,Google Chrome(Google浏览器)对请求URL长度的最大限制为8182个字符,一旦超出该最大长度限制,则浏览器直接对该超出最大长度限制的请求URL进行丢弃,导致无法获取到用户的页面访问数据。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的URL处理方法及装置,提高了对用户访问网站数据的收集成功率。
本发明提供了一种URL处理方法,所述方法包括:
获取被访问页面的来源页面的URL;
若所述来源页面的URL的字符的个数大于第一阈值,则按照预设规则从所述来源页面的URL中提取部分字符串,得到来源页面的处理后URL;
若所述来源页面的处理后URL的字符个数小于或等于所述第一阈值,则利用所述来源页面的处理后URL生成请求URL,所述请求URL的字符个数满足浏览器对所述请求URL的最大长度限制条件。
优选的,所述来源页面的URL中包括键值对,所述键值对包括键和值;
所述按照预设规则从所述来源页面的URL中提取部分字符串,得到来源页面的处理后URL包括:
从所述键值对的值中提取预设个数的字符,得到来源页面的处理后URL,所述预设个数小于所述键值对的值的最大字符总个数;和/或,
若所述来源页面的URL中包括的键值对为多个,则提取部分键值对,得到来源页面的处理后URL。
优选的,所述键值对包括第一键值对和第二键值对;
所述从所述键值对的值中提取预设个数的字符,得到来源页面的处理后URL包括:
从所述第一键值对的值中提取第一预设个数的字符,得到所述来源页面的第一处理后URL;
若所述来源页面的第一处理后URL的字符的个数大于所述第一阈值,则从所述第二键值对的值中提取第二预设个数的字符,得到所述来源页面的第二处理后URL,所述来源页面的第二处理后URL的字符的个数小于或等于所述第一阈值。
优选的,所述第一键值对的值的字符的个数和所述第二键值对的值的个数均大于或等于第二阈值。
优选的,所述若所述来源页面的URL中包括的键值对为多个,则提取部分键值对包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610996918.5/2.html,转载请声明来源钻瓜专利网。