[发明专利]一种反爬虫方法、终端及计算机可读介质在审
申请号: | 201810685659.3 | 申请日: | 2018-06-27 |
公开(公告)号: | CN108898009A | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 邵壮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F21/54 | 分类号: | G06F21/54 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 脚本 终端 链接 计算机可读介质 脚本库 目标网页 启动指令 嵌入目标 触发 加载 绕过 网页 渲染 消耗 检测 访问 | ||
本发明实施例公开了一种反爬虫方法、终端及计算机可读介质,其中方法包括:获取JS挖矿脚本库,所述JS挖矿脚本库包括至少一个JS挖矿脚本;生成所述至少一个JS挖矿脚本的链接,将所述至少一个JS挖矿脚本的链接嵌入目标网页;当检测到所述至少一个JS挖矿脚本的链接的启动指令时,触发访问所述目标网页的终端加载并执行所述至少一个JS挖矿脚本。本发明实施例通过这种方式,可以大量消耗爬虫终端的CPU资源,使爬虫终端无法正常使用,以达到反爬的目的,以及可以防止爬虫终端绕过JS渲染爬取数据,提高了反爬的有效性。
技术领域
本发明涉及通信技术领域,尤其涉及一种反爬虫方法、终端及计算机可读介质。
背景技术
目前互联网上的爬虫主要分为静态爬虫和动态爬虫,由于静态爬虫不能解析JavaScript(简称JS)代码,因此对于静态爬虫的应对方法通常是采用通过在网页中添加JS代码,以对网页进行JS渲染处理的方式来达到反爬的目的。然而这种对网页进行JS渲染处理的方式对于能够解析JS的动态爬虫不能达到反爬虫的目的。因此,如何更有效地阻止爬虫的影响,提高互联网的安全成为研究的热点。
发明内容
本发明实施例提供一种反爬虫方法、终端及计算机可读介质,可提高反爬的有效性,提高互联网安全性。
第一方面,本发明实施例提供了一种反爬虫方法,该方法包括:
获取JS挖矿脚本库,所述JS挖矿脚本库包括至少一个JS挖矿脚本;
生成所述至少一个JS挖矿脚本的链接,将所述至少一个JS挖矿脚本的链接嵌入目标网页;
当检测到所述至少一个JS挖矿脚本的链接的启动指令时,触发访问所述目标网页的终端加载并执行所述至少一个JS挖矿脚本。
进一步地,所述获取JS挖矿脚本库,包括:
建立所述JS挖矿脚本库,所述JS挖矿脚本库包括第一JS挖矿脚本和第二JS挖矿脚本;
其中,所述第一JS挖矿脚本是WebAssembly语言的脚本,所述第二JS挖矿脚本是JS语言的脚本。
进一步地,所述将所述至少一个JS挖矿脚本的链接嵌入目标网页,包括:
根据历史记录中所述目标网页中各位置区域的数据信息被爬取的概率确定第一位置区域,所述第一位置区域是所述目标网页中各位置区域的数据信息被爬取概率最大的位置区域;
将所述至少一个JS挖矿脚本的链接嵌入所述目标网页的所述第一位置区域。
进一步地,所述当检测到所述至少一个JS挖矿脚本的链接的启动指令时,触发访问所述目标网页的终端加载并执行所述至少一个JS挖矿脚本,包括:
当检测到所述至少一个JS挖矿脚本的链接的启动指令时,触发访问所述目标网页的终端根据所述终端使用的浏览器所支持的语言,选取所述第一JS挖矿脚本或第二JS挖矿脚本;
调用所述终端使用的浏览器加载并执行所述终端选取的所述第一JS挖矿脚本或第二JS挖矿脚本。
JS挖矿脚本的链接嵌入所述目标网页的所述第一位置区域。
进一步地,所述触发访问所述目标网页的终端根据所述终端使用的浏览器所支持的语言,选取所述第一JS挖矿脚本或第二JS挖矿脚本,包括:
触发访问所述目标网页的终端判断所述终端使用的浏览器版本号是否为预设版本号集合中的任意一种;
如果判断结果为是,则确定所述终端使用的浏览器支持WebAssembly语言,从所述JS挖矿脚本库中选取所述第一JS挖矿脚本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810685659.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序的运行方法和装置
- 下一篇:检测非法程序的方法和装置