[发明专利]检测网页断链的方法及装置有效
申请号: | 201611155205.2 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228614B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 孙德彬 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 网页 方法 装置 | ||
1.一种检测网页断链的方法,其特征在于,包括:
确定待检测网页,并在所述待检测网页部署用户行为分析代码;
通过所述用户行为分析代码获取点击网页和着陆网页,所述点击网页为用户点击链接的网页,所述着陆网页为用户通过点击操作后访问到达的网页;
通过对所述点击网页和所述着陆网页进行比较确定断链网页;
在所述通过所述用户行为分析代码获取点击网页和着陆网页之后,进一步包括:
对所述点击网页和所述着陆网页的记录分别进行去重处理;
所述通过对所述点击网页和所述着陆网页进行比较确定断链网页,包括:
将所述点击网页与所述着陆网页的行为数据记录进行匹配;
若所述点击网页没有对应的所述着陆网页,则确定所述点击网页为断链网页。
2.根据权利要求1所述的方法,其特征在于,在所述通过对所述点击网页和所述着陆网页进行比较确定断链网页之后,所述方法进一步包括:
通过爬虫爬取对所述待检测网页中未能部署代码的网页进行检测确定断链网页。
3.根据权利要求1或2所述的方法,其特征在于,在所述通过爬虫爬取对所述待检测网页中未能部署代码的网页进行检测确定断链网页之后,所述方法进一步包括:
对所述断链网页发起访问请求;
若能够请求到对应的网页,则取消断链网页的判定。
4.一种检测网页断链的装置,其特征在于,包括:
部署单元,用于确定待检测网页,并在所述待检测网页部署用户行为分析代码;
获取单元,用于通过所述用户行为分析代码获取点击网页和着陆网页,所述点击网页为用户点击链接的网页,所述着陆网页为用户通过点击操作后访问到达的网页;
第一确定单元,用于通过对所述点击网页和所述着陆网页进行比较确定断链网页;
去重单元,用于在所述获取单元通过所述用户行为分析代码获取点击网页和着陆网页之后,对所述点击网页和所述着陆网页的记录分别进行去重处理;
所述第一确定单元包括:
匹配模块,用于将所述点击网页与所述着陆网页的行为数据记录进行匹配;
确定模块,用于若所述点击网页没有对应的所述着陆网页,则确定所述点击网页为断链网页。
5.根据权利要求4所述的装置,其特征在于,所述装置进一步包括:
第二确定单元,用于在所述通过对所述点击网页和所述着陆网页进行比较确定断链网页之后,通过爬虫爬取对所述待检测网页中未能部署代码的网页进行检测确定断链网页。
6.根据权利要求4或5所述的装置,其特征在于,所述装置进一步包括:
请求单元,用于在所述通过爬虫爬取对所述待检测网页中未能部署代码的网页进行检测确定断链网页之后,对所述断链网页发起访问请求;
取消单元,用于若能够请求到对应的网页,则取消断链网页的判定。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求3中任意一项所述的检测网页断链的方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求3中任意一项所述的检测网页断链的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611155205.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据的读取方法及装置
- 下一篇:一种农业自动化滴灌供水用程值归档方法