[发明专利]一种基于神经网络的反爬虫方法在审
申请号: | 201910044091.1 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109818949A | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 王子彤;姜凯;李朋 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙晶伟 |
地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 神经网络 误伤 服务器 网络数据安全 保障系统 高效提取 数据安全 行为特征 有效检测 正常业务 自动完成 代理IP 服务端 固定的 入口处 验证码 远端 伪装 部署 学习 | ||
1.一种基于神经网络的反爬虫方法,其特征是
部署神经网络于服务器入口处,对远端爬虫请求特征进行识别学习,提取爬虫请求特征的特定内容,训练得到相应的神经网络模型与参数,利用神经网络模型与参数检测远端爬虫请求,输出当前远端爬虫访问为恶意爬虫的概率,并反馈至服务器管理模块进行决策。
2.根据权利要求1所述的方法,其特征是部署一种或多种组合神经网络于服务器入口处,对远端爬虫请求特征进行识别学习,提取爬虫请求特征的特定内容,训练并更新得到相应的神经网络模型与参数。
3.根据权利要求1或2所述的方法,其特征是爬虫请求特征的特定内容包括爬虫特征字段中与正常访问不一致的特定内容,
和/或包括爬虫当前时刻占用频率最高的IP地址及端口号,限时限定IP地址及端口号访问权限的特定内容,
和/或包括针对爬虫时间机械性访问特征的特定内容。
4.根据权利要求3所述的方法,其特征是部署神经网络于服务器入口处,对远端爬虫请求的User-Agent字段内容、Cookies状态数据的特征字段进行识别学习,提取爬虫特征字段中与正常访问不一致的特定内容,训练并更新相应的神经网络模型与参数。
5.根据权利要求3所述的方法,其特征是部署神经网络于服务器入口处,对远端爬虫请求的源IP地址及端口号进行识别学习,提取出爬虫当前时刻占用频率最高的IP地址及端口号,限时限定IP地址及端口号访问权限的特定内容,训练并更新得到相应的神经网络模型与参数。
6.根据权利要求4或5所述的方法,其特征是部署神经网络于服务器入口处,对远端爬虫当前及历史时刻的请求中的访问频率与间隔时间进行识别学习,提取出针对爬虫时间机械性访问特征的特定内容,训练并更新相应的神经网络模型与参数。
7.根据权利要求6所述的方法,其特征是部署神经网络于服务器入口的流量节点处,对服务器返回至请求端的流量大小、数据所处数据库位置、服务器与访问端交互时间的特征进行识别学习,同时提取出针对爬虫时间机械性访问特征的特定内容,训练并更新相应的神经网络模型与参数。
8.根据权利要求1或6所述的方法,其特征是采用硬件加速方式,以专用设备形式部署于服务器的各机器中;
或者采用软件程序形式,嵌入至服务器管理系统中;
或者采用硬件加速及软件程序结合方式,对爬虫进行限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910044091.1/1.html,转载请声明来源钻瓜专利网。