[发明专利]基于Web访问日志的爬虫行为识别方法及装置在审
申请号: | 201810889455.1 | 申请日: | 2018-08-07 |
公开(公告)号: | CN109241733A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 樊恒阳;潘钧康 | 申请(专利权)人: | 北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F16/951 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请中公开了一种基于Web访问日志的爬虫行为识别方法及装置。该通过获取待识别访问源的访问日志,根据访问日志中的访问时间、访问URL和访问URL对应的引用URL,获取待识别访问源所访问独立页面的访问特征信息,其中独立页面为访问URL中出度不为0的访问URL所对应的页面,当访问特征信息与预设爬虫访问特征信息匹配时,确定待识别访问源具有爬虫行为。可见,本申请通过获取的访问日志,分析得到待识别的访问源的访问特征信息,基于得到的访问特征信息与预设爬虫访问特征信息进行比较,确定待识别访问源具有爬虫行为,以使对具有爬虫行为的访问源中的用户代理标识进行跟踪或拦截,提高了识别网络爬虫行为的准确率和安全性。 | ||
搜索关键词: | 爬虫 特征信息 访问源 访问 访问日志 行为识别 预设 独立页面 网络爬虫 用户代理 准确率 出度 申请 页面 匹配 拦截 引用 跟踪 分析 | ||
【主权项】:
1.一种基于Web访问日志的爬虫行为识别方法,其特征在于,所述方法包括:获取待识别访问源的访问日志,所述待识别访问源是由源IP地址和客户端的用户代理标识确定的;根据所述访问日志中的访问时间、访问统一资源定位符URL和所述访问URL对应的引用URL,获取预设时间段内的所述待识别访问源所访问独立页面的访问特征信息,其中,所述独立页面为所述访问URL出度不为0的页面,所述访问特征信息为所述待识别访问源所访问独立页面的访问行为信息;根据所述访问特征信息,确定所述待识别访问源具有爬虫行为。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司,未经北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810889455.1/,转载请声明来源钻瓜专利网。
- 上一篇:勒索软件检测装置及其操作方法
- 下一篇:一种基于漏洞扫描平台的持续集成方法