[发明专利]一种识别统一资源定位符主链接的方法及装置有效
申请号: | 201210253957.8 | 申请日: | 2012-07-20 |
公开(公告)号: | CN102932400A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 贾晋康;齐燕博;张永臣 | 申请(专利权)人: | 北京网康科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) 11270 | 代理人: | 张颖玲;任媛 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 统一 资源 定位 链接 方法 装置 | ||
技术领域
本发明涉及互联网信息管理领域中的信息解析及分析技术,尤其涉及一种识别统一资源定位符(URL,Uniform Resource Locator)主链接的方法及装置。
背景技术
当用户使用客户端访问网址时,客户端通过对该网址进行解析得到多个URL链接,再向服务器发出多条获取URL链接的超文本传送协议(HTTP,Hypertext Transport Protocol)请求即URL请求;该客户端根据服务器返回的内容进行渲染并显示。上述过程中,用户使用客户端访问每一个网址,会发出很多条获取URL链接的HTTP请求,而对用户的上网行为进行分析时,仅关心URL主链接即用户所要访问的主页对应的URL链接,其余的HTTP请求所请求的URL链接作为附属链接或作为垃圾信息过滤。因此,需要对URL主链接进行识别,才能准确的分析用户的上网行为。
目前,识别URL主链接的方法为:当客户端在线时,对客户端发出的HTTP请求的头信息中的指定域进行过滤,或使用启发式算法对指定域(例如:URL后缀、内容类型、时间序列或内容大小等)进行过滤,得到URL主链接。但是,上述对HTTP请求的头信息中的指定域进行过滤的方法,不是针对页面内容进行的过滤,且HTTP请求的头信息无法提供足够的信息量进行页面分类,所以该方法的准确性较低,比如:使用内容类型为“text/html”作为指定域时,结果可能会是多个URL链接。另外,由于启发式算法为使用最优算法求得最优解,且启发式算法为对单一对象进行计算的方法,所以会出现在特定条件下算法失效的问题,比如,当启发式算法中设定的识别准则是内容类型为“text/html”时,若用户点击图片,则该算法会失效,进而无法保证识别URL主链接的准确性。
可见,现有的识别URL主链接的方法,识别URL主链接的准确性较低。
发明内容
有鉴于此,本发明的目的在于提供一种识别URL主链接的方法及装置,提高识别URL主链接的准确性。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种识别URL主链接的方法,该方法包括:
利用采集到的指定时长内所有客户端发出的全部HTTP请求,根据间隔门限获取各个客户端对应的突发,对突发进行分组获得同主链突发分组;
分别对同主链突发组运行关联规则的分析算法得到关联规则,将所有关联规则保存在知识库中;
根据合并准则,对从知识库选出指定时间段内所有的关联规则进行合并,得到新的关联规则;
根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对。
上述方案中,所述根据间隔门限获取各个客户端对应的突发,包括:按照不同的客户端将HTTP请求分组,对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发,并确定各个突发的参考主链接。
上述方案中,所述根据间隔门限建立由URL链接组成的一个或多个突发,并确定各个突发的参考主链接,包括:
建立一个突发作为当前突发,以HTTP请求的发出时间为顺序,将第一个HTTP请求中的URL链接作为当前突发的参考主链接,再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限,若没有,则将所述连续两个HTTP请求中的URL链接均加入当前突发;
若有,则将所述连续两个HTTP请求中的前一个加入当前突发后,新建立一个突发作为当前突发,将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发;依次类推,直至本组内所有HTTP请求均完成检测。
上述方案中,所述对突发进行分组获得同主链突发分组,包括:建立一个当前同主链突发组,选取一个突发加入当前同主链突发组,从剩余的所有突发中,选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发,加入当前同主链突发组;依次类推,直至没有剩余突发为止。
上述方案中,所述合并准则,包括:从指定时间段内所有的关联规则中,选出具有相同的前项及后项的关联规则,建立一条新的关联规则,新的关联规则包括前项、后项、支持度和置信度;
其中,所述前项及后项与选出的关联规则相同;所述支持度为所有选出的关联规则支持度之和;所述置信度为将每个选出的关联规则的支持度乘以置信度后相加之和、除所有选出的关联规则的支持度之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京网康科技有限公司,未经北京网康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210253957.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双向对转式风力发电机
- 下一篇:一种塑封电机磨喷机