[发明专利]反爬虫系统及方法有效
申请号: | 201611183559.8 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106657057B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 柳超;梁双;闫肃;任靓;毕可 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100084 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 系统 方法 | ||
1.一种反爬虫系统,其特征在于,包括:
分析模块,其判断访问行为是否正常;
获取模块,其获取经所述分析模块判断为不正常访问行为的访问日志;
学习模块,其具有可更新的黑名单规则库,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则,以更新所述黑名单规则库;
过滤模块,其禁止所述黑名单规则库所囊括的访问行为;
其中,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在各第二预设时间段内的访问次数以及各访问次数对应的时间点,然后将第二预设时间段划分为N个分时间段,分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均低于第一阈值,则将下一个第二预设时间段划分为N/2个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第二阈值,则将下一个第二预设时间段划分为2N个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第一阈值并低于第二阈值,则将下一个第二预设时间段划分为N个分时间段,然后分别计算各个分时间段的访问频率;
其中,若访问行为在任一分时间段内的访问频率高于频率阈值,则访问行为为不正常;
所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则的方法包括:
计算不正常访问行为在第一预设时间段内的单位时间访问次数和单位时间预设阈值;提取的新的黑名单规则为:访问行为的单位时间访问次数高于单位时间预设阈值。
2.如权利要求1所述的反爬虫系统,其特征在于,所述过滤模块存储可更新的IP黑名单,所述过滤模块将所述黑名单规则库所囊括的访问行为对应的IP地址加入所述IP黑名单,并禁止该IP地址的访问行为。
3.如权利要求2所述的反爬虫系统,其特征在于,若一访问行为不被所述黑名单规则库囊括,则调用所述分析模块对该访问行为进行分析,如果该访问行为为不正常,则所述过滤模块禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不调用所述分析模块继续对该访问行为进行分析。
4.如权利要求1所述的反爬虫系统,其特征在于,N≥10;第一阈值为频率阈值的1/4,第二阈值为频率阈值的3/4。
5.一种反爬虫方法,其特征在于,包括:
判断访问行为是否正常;
获取经判断为不正常访问行为的访问日志;
根据不正常访问行为的访问日志提取出新的黑名单规则,以更新黑名单规则库;
禁止所述黑名单规则库所囊括的访问行为;
判断访问行为是否正常的方法包括:
获取访问行为在各第二预设时间段内的访问次数以及各访问次数对应的时间点,然后将第二预设时间段划分为N个分时间段,分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均低于第一阈值,则将下一个第二预设时间段划分为N/2个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第二阈值,则将下一个第二预设时间段划分为2N个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第一阈值并低于第二阈值,则将下一个第二预设时间段划分为N个分时间段,然后分别计算各个分时间段的访问频率;
其中,若访问行为在任一分时间段内的访问频率高于频率阈值,则访问行为为不正常。
6.如权利要求5所述的反爬虫方法,其特征在于,还包括:
将所述黑名单规则库所囊括的访问行为对应的IP地址加入IP黑名单,并禁止该IP地址的访问行为。
7.如权利要求6所述的反爬虫方法,其特征在于,还包括:
若一访问行为不被所述黑名单规则库囊括,则对该访问行为进行分析,如果该访问行为为不正常,则禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不继续对该访问行为进行分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611183559.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物特征信息管理方法及其系统
- 下一篇:事件资源分配方法和装置