“聚焦爬虫”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果62837个，建议您升级VIP下载更多相关专利

[发明专利]网络爬虫识别方法-CN201310200211.5有效
发明人：张旭东 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2013-05-27 - 公布日： 2013-09-04 - 主分类号： G06F17/30 文献下载
摘要：提供一种网络爬虫识别方法。所述网络爬虫识别方法，包括以下步骤：确定入口网页上能够导向后端页面的连接；在每个确定的连接中创建新的无效连接；将创建的无效连接设置为隐蔽形式；当发出对隐蔽形式的无效连接的请求时，将所述请求识别为网络爬虫请求所述网络爬虫识别方法可以准确地判断请求是否是网络爬虫发出，并且随着使用时间增加，识别效果会随着使用时间的积累而显著改善。
网络爬虫识别方法

[发明专利]申请登录凭证的方法和装置-CN201510706429.7有效
发明人：崔志伸 -专利权人：北京国双科技有限公司
申请日： 2015-10-27 - 公布日： 2020-05-12 - 主分类号： G06F21/33 文献下载
摘要：本发明公开了一种申请登录凭证的方法和装置，涉及互联网技术领域，能够解决现有技术中爬虫程序申请登录凭证效率低的问题。本发明的方法主要包括：接收爬虫程序发送的登录凭证请求，所述登录凭证请求用于申请获得所述爬虫程序待爬取网站的登录凭证；获取所述登录凭证请求中携带的网址；从本地获取与所述网址对应的登录凭证；向所述爬虫程序发送所述登录凭证本发明主要适用于爬虫程序爬取网页的场景中。
申请登录凭证方法装置

[发明专利]基于Web的爬虫识别方法-CN201610262526.6有效
发明人：李兴涛;王儒敬;王伟 -专利权人：无锡中科富农物联科技有限公司;安徽中科物联科技有限公司;江苏物联网研究发展中心
申请日： 2016-04-25 - 公布日： 2018-11-09 - 主分类号： G06F21/56 文献下载
摘要：本发明提供一种基于Web的爬虫识别算法，设置陷阱，并通过线上分析用户访问的行为特征判断是爬虫的概率；对于爬虫可能性大的访问者，要求验证码验证，减少误判；线下分析一天的数据通过大量数据正确的识别出隐藏性好的爬虫；对于识别出的爬虫加入到确定名单库中。
基于 web 爬虫识别算法

[发明专利]一种基于数据爬虫技术的信息监测系统-CN201810277252.7在审
发明人：孟秀惠 -专利权人：四川久久合创信息技术有限公司
申请日： 2018-03-31 - 公布日： 2018-08-24 - 主分类号： H04L29/06 文献下载
摘要：本发明公开了一种基于数据爬虫技术的信息监测系统，包括：数据抓取模块、爬虫检测模块、数据处理模块、VPN代理服务器、学校招生网页、社交媒体网页、客户端、用户，爬虫检测模块及数据处理模块分别于数据抓取模块连接，数据抓取模块通过VPN代理服务器访问学校招生网页及社交媒体网页，数据处理模块处理网页数据送至云服务器，用户使用客户端通过Internet访问云服务器，本发明通过爬虫技术获取学校招生网页及社交媒体网页上的数据，同时能在网络爬虫运行异常时，在客户端发出警报信息通知用户，提高爬虫的可靠性。
网页数据处理模块数据抓取模块爬虫爬虫技术客户端信息监测系统检测模块云服务器服务器访问警报信息通知用户网络爬虫网页数据用户使用运行异常服务器

[发明专利]一种应用商城中应用信息的抓取方法及装置-CN201810850341.6在审
发明人：阳雄 -专利权人：安徽捷兴信息安全技术有限公司
申请日： 2018-07-28 - 公布日： 2018-12-21 - 主分类号： G06F17/30 文献下载
摘要：本发明公开了一种应用商城中应用信息的抓取方法，所述方法包括：接收预定义的与应用商城匹配的爬虫规则，其中，所述预定义的规则中至少包括：与应用商城的标识信息相对应的爬虫标识信息、应用商城的分类列表、应用商城分类列表页面连接模式、列表页抓取配置、详情页抓取配置、抓取脚本、HTTP请求头以及爬虫工具的cookie设置中的至少一种；解析所述爬虫规则，并加载所述爬虫规则；根据所述爬虫规则对所述应用商城中的应用进行应用信息抓取。
抓取爬虫应用信息应用标识信息预定义连接模式列表页面爬虫工具分类脚本加载配置解析匹配采集

[发明专利]一种测试网络爬虫的方法及系统-CN201410655647.8有效
发明人：王辉 -专利权人：阿里巴巴集团控股有限公司
申请日： 2014-11-18 - 公布日： 2019-03-26 - 主分类号： H04L12/26 文献下载
摘要：本申请实施例公开了一种测试网络爬虫的方法及系统，所述方法包括：第一服务器配置预设数量的顶级域名，并将所述顶级域名设置为指向第二服务器的IP地址；网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名；网络爬虫服务器遍历所述海量域名，并针对每个域名向第二服务器发起抓取请求；第二服务器选取网站，并将所述网站提供给网络爬虫服务器抓取。本申请实施例公开的测试网络爬虫的方法及系统，可以在不对真实网站形成打扰的情况下，检测网络爬虫抓取海量网站页面时的工作性能。
一种测试网络爬虫方法系统

[发明专利]一种分布式垂直业务搜索爬虫框架-CN201811208977.7在审
发明人：邓炽成 -专利权人：珠海市智图数研信息技术有限公司
申请日： 2018-10-17 - 公布日： 2018-12-21 - 主分类号： G06F17/30 文献下载
摘要：本发明公开了一种分布式垂直业务搜索爬虫框架，具体步骤如下：步骤一：采用爬虫静态分布形式将同一目标的爬虫按照配置，复制到不同的网络计算机上，然后采用不同IP资源发出爬取请求；步骤二：目标页面URL通过消息队列管道汇聚到中心库；步骤三：中心库负载程序将URL进行调度，并且通过消息队列管道推送到多个网络计算机终端，由监听爬虫进行动态调度执行URL下载任务。本发明利用分布式垂直业务搜索爬虫，使用更多的IP资源来合理编排任务，将爬取任务分散到网络多台计算机进行，对高资源消耗的网络爬虫来说是提供了一种低成本的解决方案，因此分布式爬虫是在垂直业务搜索中，实现持续无间断爬取的很好的技术手段
爬虫业务搜索垂直消息队列中心库网络计算机终端多台计算机动态调度分布形式技术手段目标页面网络计算网络爬虫资源消耗低成本框架本无间断监听编排复制调度汇聚配置网络

[发明专利]一种通过可视化配置进行云端数据采集的方法、装置及系统-CN201810936001.5在审
发明人：余刚 -专利权人：成都市映潮科技股份有限公司
申请日： 2018-08-16 - 公布日： 2018-12-28 - 主分类号： G06F17/30 文献下载
摘要：本发明公开了一种通过可视化配置进行云端数据采集的方法、装置及系统，方法应用于服务器端和云端，服务器端包括任务生成器、采集内容选择器和任务调度器；云端包括若干爬虫节点，各爬虫节点通过在任务调度器上注册与服务器端通信，在使用时，由于需要抓取的网站只需要配置入口网址，不需要编写任何代码，所有需要的代码都可以通过页面可视化配置生成，并且所需的配置和相关数据都是远程获取的，无需对爬虫节点进行复杂的配置，再加上任务调度器与爬虫节点无需双向匹配，使得整个爬虫系统横向扩展爬虫节点数量的能力很强，且很方便，解决了传统爬虫针对每个网站都需要单独编写程序进行数据爬取，且效率较慢的问题。
爬虫节点云端任务调度器配置服务器端可视化装置及系统数据采集网站抓取内容选择器任务生成器爬虫编写程序横向扩展爬虫系统入口网址远程获取匹配页面采集通信

[发明专利]基于Web访问日志的爬虫行为识别方法及装置-CN201810889455.1在审
发明人：樊恒阳;潘钧康 -专利权人：北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司
申请日： 2018-08-07 - 公布日： 2019-01-18 - 主分类号： G06F21/55 文献下载
摘要：本申请中公开了一种基于Web访问日志的爬虫行为识别方法及装置。该通过获取待识别访问源的访问日志，根据访问日志中的访问时间、访问URL和访问URL对应的引用URL，获取待识别访问源所访问独立页面的访问特征信息，其中独立页面为访问URL中出度不为0的访问URL所对应的页面，当访问特征信息与预设爬虫访问特征信息匹配时，确定待识别访问源具有爬虫行为。可见，本申请通过获取的访问日志，分析得到待识别的访问源的访问特征信息，基于得到的访问特征信息与预设爬虫访问特征信息进行比较，确定待识别访问源具有爬虫行为，以使对具有爬虫行为的访问源中的用户代理标识进行跟踪或拦截，提高了识别网络爬虫行为的准确率和安全性。
爬虫特征信息访问源访问访问日志行为识别预设独立页面网络爬虫用户代理准确率出度申请页面匹配拦截引用跟踪分析

[发明专利]一种基于深度学习的反爬虫方法、装置和介质-CN202010217160.7在审
发明人：张洲梁;宗云兵 -专利权人：山东浪潮通软信息科技有限公司
申请日： 2020-03-25 - 公布日： 2020-07-17 - 主分类号： G06F16/951 文献下载
摘要：本发明提供一种基于深度学习的反爬虫方法、装置和介质，该方法包括以下步骤：使用爬虫工具对网站进行爬取，并记录普通用户对所述网站的正常访问行为，将所述爬取行为的信息和所述正常访问行为的信息存储在数据库中；根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练；响应于接收到web请求及其IP，将所述请求信息和所述IP的访问历史记录输入到所述训练好的模型中以判断是否为爬虫；响应于判断所述web请求为爬虫，对所述web请求进行拦截并封禁所述IP，并将所述IP写入黑名单中本发明基于深度学习算法，可以准确识别基于多种爬虫框架的爬虫程序，成功改进了网站反爬机制，识别率高、误杀率低。
一种基于深度学习爬虫方法装置介质

[发明专利]网页数据爬取方法及系统-CN201911167305.0在审
发明人：方兴;刘伟光;杨凯华 -专利权人：爱信诺征信有限公司
申请日： 2019-11-25 - 公布日： 2020-04-10 - 主分类号： G06F16/951 文献下载
摘要：该方法包括：根据前端发布的爬虫任务，调用部署于服务端本地的爬虫服务发布下载报文，以由客户端根据所述下载报文得到响应结果；根据所述客户端反馈的所述响应结果，通过所述爬虫服务对所述响应结果进行解析，得到所述网页数据该方法中，客户端负责根据下载报文向目标站点发起网页请求，获取响应结果，并将响应结果反馈给服务端，由服务端负责执行爬虫脚本，根据响应结果爬取网页数据，不需要将爬虫脚本转换为客户端运行环境下特定软件开发工具包的脚本，也不需要在客户端部署爬虫运行的环境，由此因而降低了爬虫服务对客户端执行环境的依赖。
网页数据方法系统

[发明专利]爬虫处理方法、装置、服务器及计算机可读存储介质-CN201910965767.0在审
发明人：杜晓宇 -专利权人：平安科技（深圳）有限公司
申请日： 2019-10-12 - 公布日： 2020-02-28 - 主分类号： G06F16/951 文献下载
摘要：本申请实施例提供了一种爬虫处理方法、装置、服务器及计算机可读存储介质，该方法包括：接收终端发送的对指定抓取任务的任务启动指令，该任务启动指令包括该指定抓取任务的第一配置记录、第二配置记录、第三配置记录；根据第一配置记录包括的种子信息和该第二配置记录包括的针对该指示至少一类待抓取页面中每类待抓取页面的爬虫配置信息执行爬虫操作，得到该每类待抓取页面对应的爬虫数据集合；根据第三配置记录包括的每类待抓取页面对应的解析规则，从该每类待抓取页面对应的爬虫数据集合包括的各页面中解析出目标数据。采用本申请，可以使得爬虫过程更具针对性，并可以提高可扩展性，提升爬虫效率。
爬虫处理方法装置服务器计算机可读存储介质

[发明专利]一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法-CN202110604575.4在审
发明人：郑炎;陈耿生;萨冰珍;刘泳 -专利权人：中电福富信息科技有限公司
申请日： 2021-05-31 - 公布日： 2021-08-27 - 主分类号： G06F11/20 文献下载
摘要：本发明公开一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法，模型包括主控服务器以及至少一台热备主控服务器，主控服务器分别连接任务下发中心和爬虫采集服务集群，任务下发中心用于发布采集任务至当前主控服务器；主控服务用于采集任务下发、动态调整爬虫采集服务集群的负载策略以及同步信息至热备主控服务器；热备主控服务器在主控服务宕机时接替主控服务器以负责采集任务下发、动态调整爬虫采集服务集群的负载策略以及同步信息本发明比起一般的分布式爬虫可以动态增减爬虫节点而不需要重启系统，同时每个爬虫节点互为热备，主控也有对应的热备服务，所以任何一个设备出现故障，对这个系统的稳定性没有影响。
一种扩展分布式热拔插部署网络爬虫服务模型及其控制方法

[发明专利]一种多源科创资源数据采集方法-CN202111505650.8在审
发明人：刘啸;杨昀 -专利权人：江苏宝和数据股份有限公司
申请日： 2021-12-10 - 公布日： 2022-01-11 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了一种多源科创资源数据采集方法，包括爬虫模块、路由模块和动态页面解析模块；爬虫模块是指一个爬虫模块的集群中，会包含多个爬虫模块，爬虫模块主要的两个功能是页面下载和页面信息提取；路由模块的主要功能是对整个分布式网页爬虫系统进行任务的接受、管理、分发，任务的负载均衡，爬虫服务和动态页面解析服务节点的管理以及系统内心跳包的发送；动态页面解析模块是指以集群的模式针对动态页面进行页面解析，针对多源异构的科创数据，提出了一种多源科创数据的采集方法
一种多源科创资源数据采集方法

[发明专利]一种反爬虫处理方法、系统、存储介质及电子设备-CN202111299496.3在审
发明人：梁志勇 -专利权人：京东科技信息技术有限公司
申请日： 2021-11-04 - 公布日： 2022-01-21 - 主分类号： G06F16/951 文献下载
摘要：本申请公开了一种反爬虫处理方法、系统、存储介质及电子设备，当接收到网络爬虫访问预先生成的各个隐蔽链接中的任意一个隐蔽链接产生的访问请求时，获取网络爬虫访问隐蔽链接时所使用的IP，各个隐蔽链接隐藏于HTML通过上述方案，在网页中随机插入隐蔽链接，通过隐蔽链接实时监测网络爬虫，确保对网络爬虫进行监测的时效性。并且结合IP风险情报库中的风险等级对网络爬虫进行评分，根据评分采取如拦截、验证码验证等处置手段，提高识别恶意的网络爬虫的准确性。
一种爬虫处理方法系统存储介质电子设备